550 likes | 886 Views
Regresní a korelační analýza. Ing. Sára Bisová VŠE, Katedra ekonometrie. OBSAH PŘEDNÁŠKY. Typy proměnných Korelační analýza Regresní analýza Metoda nejmenších čtverců Ekonometrická analýza Typy dat Software. ÚVOD.
E N D
Regresní a korelační analýza Ing. Sára Bisová VŠE, Katedra ekonometrie
OBSAH PŘEDNÁŠKY • Typy proměnných • Korelační analýza • Regresní analýza • Metoda nejmenších čtverců • Ekonometrická analýza • Typydat • Software
ÚVOD • Korelační a regresní analýza: k poznání a matematickému popisu statistických závislostí, ověřování různých teorií apod. • Korelační analýza: zabývá se vzájemnými závislostmi mezi veličinami (intenzita vzájemného vztahu – lineární závislosti) • Regresní analýza: analýza jednostranných závislostí mezi vysvětlovanou (závisle) proměnnou a vysvětlující (nezávisle) proměnnou. Popis průběhu závislosti, určitou analytickou funkcí. • Cíle – co nejpřesnější kvantifikace vlivu určitého faktoru na jiný, odhalení kauzálních vztahů (příčina-následek), co nejpřesnější model k vysvětlované proměnné k predikcím
TYPY PROMĚNNÝCH • kvantitativní • diskrétní – pouze celočíselné obměny (počet dětí, pohlaví) • spojité – libovolné hodnoty z určitého intervalu (příjem, cena, věk) • kvalitativní • ordinální (pořadová) – kategorie v určitém logickém pořadí (vzdělání, seniorita, počet dětí, úroveň spokojenosti) • nominální – text, číselné kódy, ne ordinální infok porovnání jednotek dle nominálního znaku (rodinný stav, region, pohlaví) • kategoriální (obměny jsou kategorie) -nominální, ordinální a kvantitativní diskrétní • dichotomické (alternativní) – binární • vícekategoriální(množné)
KORELAČNÍ ANALÝZA • Konstrukce korelačních koeficientů: • Vzájemné vztahy • Pouze dvě veličiny • Nerozeznáme kauzalitu
KORELAČNÍ ANALÝZA • Tabulky sdružených četností, pravděpodobností (korelační tabulka) • Grafy
REGRESNÍ ANALÝZA • Zajímáme se o podmíněné průměry (podmíněné střední hodnoty) vysvětlované proměnné při změnách proměnných vysvětlujících – hledáme vhodný model • Snaha poznat příčinné vztahy mezi veličinami • Snaha matematicky popsat vztahy (závislosti) mezi veličinami • Hledáme co nejlepší matematickou funkci (empirickou regresní funkci) popisující průběh podmíněné střední hodnoty (hypotetickou (populační) regresní funkci) • Korelační analýza hovoří o intenzitě závislosti a regresní analýza o průběhu závislosti mezi dvěma znaky; aplikace společně
REGRESNÍ ANALÝZA • Volba vhodné regresní funkce (tvar, proměnné): • Interpolační kritéria • Směrodatné chyby odhadů • t-testy • F-testy • Koeficient determinace • Extrapolační kritéria • Predikce ex-post a ex-ante
MODELY • Jednorovnicové(LRM) • Vícerovnicové (MSR, VAR) • Lineární • Nelineární (produkční funkce, ziskové funkce, nákladové funkce)
KLASICKÝ LINEÁRNÍ REGRESNÍ MODEL • Příklad: Určete, zda existuje závislost spotřeby domácností na jejich disponibilním příjmu (Keynesova hypotéza) • Předpokládáme, že závislost existuje a má lineární tvar: • Protože závislost není úplná a neplatí vždy (např. některá domácnost bude s rostoucím příjmem spotřebovat stále stejně), do modelu zahrneme náhodný vliv (náhodnou složku u) Toto je model pro celou populaci, hovoříme tedy o ABSTRAKTNÍM MODELU
KLRM • Pro odhad potřebujeme nějaká data (většinou výběr) Toto je model pro konkrétní výběr, hovoříme tedy o KONKRÉTNÍM MODELU
METODA NEJMENŠÍCH ČTVERCŮ • Jak najít přímku, tak aby co nejlépe popisovala závislost? Tj. byla co nejblíže všem bodům? • Chceme minimalizovat součet čtverců odchylek (reziduí)
Zápis KLRM po složkách • k… počet exogenních proměnných v modelu • k + 1 …počet odhadovaných parametrů • n… počet pozorování, která máme k dispozici • Endogenní = Vysvětlovaná proměnná • Exogenní = Vysvětlující proměnné • Predeterminované = Exogenní + Endogenní zpožděné
MNČ b získáme tak, že ? Kdy je funkce minimální ? První derivace funkce je nulová
ODVOZENÍ ODHADOVÉ FUNKCE MNČ • Vyjdeme z maticového vyjádření konkrétního modelu:
MNČ • Momentová matice: … musí být symetrická, čtvercová, regulární (tj. nenulový determinant) • potom platí (odhadová funkce MNČ): • azískáme vektor:
PŘÍKLAD • Stanovte odhad parametrů β0 a β1, aby součet čtverců odchylek vyrovnaných hodnot od hodnot napozorovaných byl minimální • Napište odhadovou funkci • Vypište jednotlivé položky a spočítejte • Vypočítejte vyrovnané hodnoty • Vypočítejte rezidua ei
Výpočty: • b1 = 2, 667; b2 = 0,667 • Y = 2,667 + 0,667 X + e
Rezidua a vyrovnané hodnoty Součet všech reziduí = 0,33 + 0 + 1,33 + 0 – 1,66 = 0
REGRESE vs. KORELACE • Máme-li regresi: • Pak odhad parametru metodou MNČ: • Což je:
NÁHODNÁ SLOŽKA – G-M předpoklady • Gauss-Markovy předpoklady: • E(u) = 0 • Náhodné vlivy se vzájemně vynulují, jde o nesystematické kolísání kolem nulové hodnoty • Podstatné např. pro testování hypotéz o parametrech modelu, pro jejich odhady b usuzujeme totiž na rozdělení náhodné složky • E(uuT) = σ2In …kovarianční matice • Konečný a konstantní rozptyl = homoskedasticita • → Porušení: Heteroskedasticita • Náhodné složky jsou sériově nezávislé • → Porušení: Autokorelace
NÁHODNÁ SLOŽKA – G-M předpoklady • X je nestochastická matice – E(XTu) = 0 • Veškerá náhodnost je obsažena v náhodné složce • Kovariance je nulová, podmíněná střední hodnota takéE(u|X) = 0 – jedině tak jsme schopni zkoumat kauzalitu a c.p. • X má plnou hodnost k • matice X neobsahuje žádné perfektně lineárně závislé sloupce pozorování vysvětlujících proměnných (hodnost matice rovna počtu sloupců) → Porušení: Multikolinearita - důsledek - nelze spočítat neb matice X není regulární a nelze vůbec provést odhad - realita – zpravidla ne perfektně kolineární, ale silně – TÝKÁ SE KONKRÉTNÍHO VÝBĚRU NE ZÁKLADNÍHO SOUBORU
VLASTNOSTI BODOVÉ ODHADOVÉ FUNKCE • NESTRANNOST • VYDATNOST
EKONOMETRICKÁ ANALÝZA • Formulace problému (hypotéza) • Strukturace problému za pomoci teorie – tvorba ekonomického modelu • Data: • sběr • kontrola a analýza dat – deskriptivní statistiky, missingy • transformace, tvorba nových proměnných (dummies, atd.), hledání proxy proměnných atd. • Konstrukce ekonometrického modelu – volba vhodné ekonometrické koncepce, stochastický faktor • Volba odhadové techniky – odhad • Interpretace výsledků, verifikace (ekonomická, statistická, ekonometrická)
TEORIE • cena substitutu=>Q • důchod=>Q • cena auta => pravděpodobnost luxisní SPZ • cena komplementu=>Q • ?důchod=>Q • výše trestu=>Q zločinů • počet policistů vs. zabráněné zločiny • Advertising vs. Extra consumers
MĚŘENÍ REALITY • ošklivé, kostrbaté, nespojité, nelineární,… • nikdy ne ceteris paribus • téměř vždy Y=>X; X=>Y; Y<=>X a existuje Z
PŘÍKLAD HOUSING • xi : • rozloha • počet pokojů • počet pater • dopravní dostupnost • rekonstrukce • cihla • novostavba • park do 500 m • atraktivita lokality,…
TYPY DAT • Průřezová • Časové řady • Pooled-cross-section • Panelová
Průřezová data • Definice • Co je „pozorování“? • Náhodný výběr • Neexperimentální charakter dat • Velikost a nezávislost jednotek • Výhody a nevýhody
Časové řady • Budou předmětem samostatných přednášek • Definice • Co je „pozorování“? • Problém (ne)závislosti v čase • Frekvence měření • Výhody a nevýhody
Pooledcrosssections • Definice • Rok se stává • „proměnnou“
Panelová data • Definice • Nejlepší • Nejdražší • Co je „pozorování“? • Indexy • Vyvážený vs. nevyvážený panel • Kauzalita
DUMMY PROMĚNNÉ V LRM • Např. předpokládáme jinouúrovňovou konstantupro muže a ženy • Aplikace na příkladHousing?
Kontrola 1: Popisné charakterisitky • Popisné charakteristiky (průměry, mediány, max, min, rozptyly, počty pozorování, ad.) • Missing values • Četnosti (intepretace β)
TRANSFORMACE V KLRM, DATA • Mocniny (parabolická regrese) • !!!interpretace • Tvorba nových proměnných • DUMMY • Interakce • Tvorba jiných nových proměnných nebo použití PROXY proměnných
Příklad • Odhadněte závislost spotřeby (CONS) na disponibilním důchodu (INC), agregátní data v mil. Kč. • Proveďte • Specifikaci • Kvantifikaci • Verifikaci
A. Specifikace • CONS – endogenní proměnná (vysvětlovaná) • INC – exogenní proměnná (vysvětlující) • Forma závislosti: CONSt = β0 + β1INCt +ut • Ekonomický předpoklad: • S růstem důchodu, roste spotřeba – kladné znaménko u koeficientu β1, • β1 náleží do intervalu (0,1) – v dlouhodobém horizontu platí: nemůžu spotřebovat více, než vydělám
B. Kvantifikace • Pomocí výběru n = 47, budeme odhadovat model CONSt = b0 + b1INCt + et CONSt^ = b0 + b1INCt • Použijeme např. Gretl a MNČ (OLS)
B. Kvantifikace • Odhadnutý regresní model: CONSt = -7054 + 0,76INCt +et CONSt^ = -7054 + 0,76INCt • b1náleží do intervalu (0,1) • Absolutní pružnost • Zvýší-li se důchod (INC) o jednu Kč, zvýší se spotřeba (CONS) v průměru o 0,76 Kč, (ceterisparibus?)
C. Verifikace statistická • Standard Error • Standardní chyba regresních koeficientů podle následujícího vztahu • Slouží k určení významnosti parametrů, k intervalovým odhadům • s je odhad σ – u nás ve výstupu je to S.E. of regression (odhad rozptylu reziduí)
Verifikace statistická • t-testy parametrů • t statistika slouží k určení významnosti jednotlivých parametrů v modelu. • H0: βj = 0 • H1: βj ≠ 0 • t-statistika má při platnosti nulové hypotézy rozdělení t(n-k) • Obecně pro t-statistiku (t-ratio, t-poměr) platí • (pro velké vzorky = 1,96 – cca 2) popř. p-value ≤ α → zamítám hypotézu H0 o nevýznamnosti proměnné v modelu ve prospěch alternativní hypotézy, proměnná je tedy významná na hladině významnosti α • popř. p-value > α → nepodařilo si mi zamítnout hypotézu H0 o nevýznamnosti proměnné v modelu, proměnná je nevýznamná na hladině významnosti α