Přehled statistických metod pro CIE

Jan Brůha IREAS Přehled statistických metodpro CIE

Problematika z hlediska statistiky • Proč a kdy jsou potřebné speciální metody? • A kdy nejsou potřeba • Jaké metody jsou k disposici: • Regresní diskontinuita • Metoda instrumentálních proměnných • „propensity score matching“ (a její varianty s DD)

„Selection bias“ • Naivní odhad = srovnání podpořených a nepodpořených jednotek (případně očištění o pozorované vlastnosti) • Naivní odhad je součtem tří složek • skutečného efektu dopadu intervence na zkoumané jednotky; • vychýlení z důvodu, že jednotky které získaly podporu by měly odlišný výsledek než jednotky bez podpory i v případě, že by zásahu vystaveny nebyly; • vychýlení z důvodu, že jednotky v kontrolní skupině by měly jiný výsledek, i kdyby získaly podporu, než jednotky v základní skupině vystavené zásahu.

Kdy lze ignorovat „selection bias“? • Přirozený experiment: • přiřazení podpory je náhodné • Pozorované charakteristiky jsou dostatečné pro zachycení heterogenity mezi jednotkami • Pak lze použít standardní metody regresní analýzy s dummy proměnnou • parametrické nebo neparametrické metody • Otázka výběru proměnných • Pokud nepozorovaná heterogenita má charakter fixního efektu • Pak lze použít metod panelových dat (DD / CDD estimátor)

Regresní diskontinuita • Regresní diskontinuita je použitelná tehdy, pokud lze jednotky srovnat pomocí veličiny k, přičemž existuje hodnota K taková: • Všechny jednotky s k>K podporu obdrží a jednotky k<K ji neobdrží (ostrá varianta) • Neostrá (fuzzy) varianta: v K se skokově mění pravděpodobnost obdržení podpory • Metoda vlastně srovnává jednotky kolem bodu K • Důvod eliminace selection bias: rozložení firem kolem bodu K je více-méně náhodné

Regresní diskontinuita - 2 • Výhody • Není potřeba předpokladů o funkční závislosti efektu podpory • Lze použít v podstatě lokální lineární model (neparametrická metoda) • Nevýhody • Je obtížné extrapolovat výsledky pro jednotky „daleko“ od K • Je nutné kontrolovat pro charakteristiky firem a / nebo doby intervence (nutnost dobrých dat) • Jednotky pod k<K mohly získat jinou podporu

Regresní diskontinuita - 3 • Citlivostní analýza • Pokud se použijí lokální lineární model, pak jak nastavit šířku „okna“ • Je nutné ověřit, že skutečně dochází ke skokové změně pravděpodobnosti v K (neostrá varianta) • Problematika, pokud je více druhů podpor • Pokud je možné podpory ordinálně srovnat, pak na to existují speciální metody (dose function) • Pokud jsou různé typy, pak se metoda komplikuje

Metoda instrumentálních proměnných • Historicky nejstarší metoda vyvinutá k modelování kauzálních vztahů v ekonometrii • Identifikace nabídky a poptávky • Jde vlastně o nalezení proměnné, která poskytne dodatečnou variabilitu • Proměnná, která je dobrým prediktoremzískání podpory, ale neovlivňuje výsledek podpory • Osoba evaluátora ?

Metoda instrumentálních proměnných - 2 • Původně lineární model • Dnes existují i neparametrické metody • Very, very data hungry • Použitelné, pokud je instrumentální proměnná diskrétní (případ evaluátora) • Problémy • Najít instrumentální proměnnou • Statistická vydatnost (pokud je prediktor slabý) • Nelze testovat, zda je proměnná opravdu instrumentální • Leda v „metamodelu“

Propensity score matching • Srovnávají se jednotky s obdobnými charakteristikami • Tyto charakteristiky se transformují do jednoho čísla (0 až 1) • Odhaduje se model diskrétní volby (např. logistická regrese, nebo probit), zda daná jednotka podporu obdrží nebo ne • Lze rozšířit také pro více kategoriálních podpor (vícerozměrný probit) • Existuje i rozšíření na spojitě-měnící se podporu

Propensity score matching - 2 • Různé způsoby srovnání jednotek • Podle nejbližšího souseda (nearest available) • Kernel matching • Je vhodné odstranit extrémní pozorování • PSM úplným způsobem neodstraňuje „selection bias“ • Jedná se jen o „robustnější způsob“ regresní analýzy

Propensity score matching – with CDD • Kombinace PSM a CDD • Abychom odhadli PSM, musíme pozorovat charakteristiky firem, • Je typicky možné použít CDD místo DD • CDD může pomoci odstranit vychýlení, kdežto PSM může učinit odhad robustnější • Je také možné relativně jednoduše pracovat s různými typy podpor

Přehled statistických metod pro CIE