1 / 55

Regresní a korelační analýza

Regresní a korelační analýza. Ing. Sára Bisová VŠE, Katedra ekonometrie. OBSAH PŘEDNÁŠKY. Typy proměnných Korelační analýza Regresní analýza Metoda nejmenších čtverců Ekonometrická analýza Typy dat Software. ÚVOD.

vicky
Download Presentation

Regresní a korelační analýza

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Regresní a korelační analýza Ing. Sára Bisová VŠE, Katedra ekonometrie

  2. OBSAH PŘEDNÁŠKY • Typy proměnných • Korelační analýza • Regresní analýza • Metoda nejmenších čtverců • Ekonometrická analýza • Typydat • Software

  3. ÚVOD • Korelační a regresní analýza: k poznání a matematickému popisu statistických závislostí, ověřování různých teorií apod. • Korelační analýza: zabývá se vzájemnými závislostmi mezi veličinami (intenzita vzájemného vztahu – lineární závislosti) • Regresní analýza: analýza jednostranných závislostí mezi vysvětlovanou (závisle) proměnnou a vysvětlující (nezávisle) proměnnou. Popis průběhu závislosti, určitou analytickou funkcí. • Cíle – co nejpřesnější kvantifikace vlivu určitého faktoru na jiný, odhalení kauzálních vztahů (příčina-následek), co nejpřesnější model k vysvětlované proměnné k predikcím

  4. TYPY PROMĚNNÝCH • kvantitativní • diskrétní – pouze celočíselné obměny (počet dětí, pohlaví) • spojité – libovolné hodnoty z určitého intervalu (příjem, cena, věk) • kvalitativní • ordinální (pořadová) – kategorie v určitém logickém pořadí (vzdělání, seniorita, počet dětí, úroveň spokojenosti) • nominální – text, číselné kódy, ne ordinální infok porovnání jednotek dle nominálního znaku (rodinný stav, region, pohlaví) • kategoriální (obměny jsou kategorie) -nominální, ordinální a kvantitativní diskrétní • dichotomické (alternativní) – binární • vícekategoriální(množné)

  5. KORELAČNÍ ANALÝZA • Konstrukce korelačních koeficientů: • Vzájemné vztahy • Pouze dvě veličiny • Nerozeznáme kauzalitu

  6. KORELAČNÍ ANALÝZA • Tabulky sdružených četností, pravděpodobností (korelační tabulka) • Grafy

  7. REGRESNÍ ANALÝZA • Zajímáme se o podmíněné průměry (podmíněné střední hodnoty) vysvětlované proměnné při změnách proměnných vysvětlujících – hledáme vhodný model • Snaha poznat příčinné vztahy mezi veličinami • Snaha matematicky popsat vztahy (závislosti) mezi veličinami • Hledáme co nejlepší matematickou funkci (empirickou regresní funkci) popisující průběh podmíněné střední hodnoty (hypotetickou (populační) regresní funkci) • Korelační analýza hovoří o intenzitě závislosti a regresní analýza o průběhu závislosti mezi dvěma znaky; aplikace společně

  8. REGRESNÍ ANALÝZA • Volba vhodné regresní funkce (tvar, proměnné): • Interpolační kritéria • Směrodatné chyby odhadů • t-testy • F-testy • Koeficient determinace • Extrapolační kritéria • Predikce ex-post a ex-ante

  9. MODELY • Jednorovnicové(LRM) • Vícerovnicové (MSR, VAR) • Lineární • Nelineární (produkční funkce, ziskové funkce, nákladové funkce)

  10. KLASICKÝ LINEÁRNÍ REGRESNÍ MODEL • Příklad: Určete, zda existuje závislost spotřeby domácností na jejich disponibilním příjmu (Keynesova hypotéza) • Předpokládáme, že závislost existuje a má lineární tvar: • Protože závislost není úplná a neplatí vždy (např. některá domácnost bude s rostoucím příjmem spotřebovat stále stejně), do modelu zahrneme náhodný vliv (náhodnou složku u) Toto je model pro celou populaci, hovoříme tedy o ABSTRAKTNÍM MODELU

  11. KLRM • Pro odhad potřebujeme nějaká data (většinou výběr) Toto je model pro konkrétní výběr, hovoříme tedy o KONKRÉTNÍM MODELU

  12. METODA NEJMENŠÍCH ČTVERCŮ • Jak najít přímku, tak aby co nejlépe popisovala závislost? Tj. byla co nejblíže všem bodům? • Chceme minimalizovat součet čtverců odchylek (reziduí)

  13. Zápis KLRM po složkách • k… počet exogenních proměnných v modelu • k + 1 …počet odhadovaných parametrů • n… počet pozorování, která máme k dispozici • Endogenní = Vysvětlovaná proměnná • Exogenní = Vysvětlující proměnné • Predeterminované = Exogenní + Endogenní zpožděné

  14. Maticový zápis KLRM

  15. MNČ b získáme tak, že ? Kdy je funkce minimální ? První derivace funkce je nulová

  16. ODVOZENÍ ODHADOVÉ FUNKCE MNČ • Vyjdeme z maticového vyjádření konkrétního modelu:

  17. MNČ • Momentová matice: … musí být symetrická, čtvercová, regulární (tj. nenulový determinant) • potom platí (odhadová funkce MNČ): • azískáme vektor:

  18. PŘÍKLAD • Stanovte odhad parametrů β0 a β1, aby součet čtverců odchylek vyrovnaných hodnot od hodnot napozorovaných byl minimální • Napište odhadovou funkci • Vypište jednotlivé položky a spočítejte • Vypočítejte vyrovnané hodnoty • Vypočítejte rezidua ei

  19. DATA V GRAFU

  20. Výpočty:

  21. Výpočty: • b1 = 2, 667; b2 = 0,667 • Y = 2,667 + 0,667 X + e

  22. Rezidua a vyrovnané hodnoty Součet všech reziduí = 0,33 + 0 + 1,33 + 0 – 1,66 = 0

  23. REGRESE vs. KORELACE • Máme-li regresi: • Pak odhad parametru metodou MNČ: • Což je:

  24. NÁHODNÁ SLOŽKA – G-M předpoklady • Gauss-Markovy předpoklady: • E(u) = 0 • Náhodné vlivy se vzájemně vynulují, jde o nesystematické kolísání kolem nulové hodnoty • Podstatné např. pro testování hypotéz o parametrech modelu, pro jejich odhady b usuzujeme totiž na rozdělení náhodné složky • E(uuT) = σ2In …kovarianční matice • Konečný a konstantní rozptyl = homoskedasticita • → Porušení: Heteroskedasticita • Náhodné složky jsou sériově nezávislé • → Porušení: Autokorelace

  25. NÁHODNÁ SLOŽKA – G-M předpoklady • X je nestochastická matice – E(XTu) = 0 • Veškerá náhodnost je obsažena v náhodné složce • Kovariance je nulová, podmíněná střední hodnota takéE(u|X) = 0 – jedině tak jsme schopni zkoumat kauzalitu a c.p. • X má plnou hodnost k • matice X neobsahuje žádné perfektně lineárně závislé sloupce pozorování vysvětlujících proměnných (hodnost matice rovna počtu sloupců) → Porušení: Multikolinearita - důsledek - nelze spočítat neb matice X není regulární a nelze vůbec provést odhad - realita – zpravidla ne perfektně kolineární, ale silně – TÝKÁ SE KONKRÉTNÍHO VÝBĚRU NE ZÁKLADNÍHO SOUBORU

  26. NÁHODNÁ SLOŽKA

  27. VLASTNOSTI BODOVÉ ODHADOVÉ FUNKCE • NESTRANNOST • VYDATNOST

  28. EKONOMETRICKÁ ANALÝZA • Formulace problému (hypotéza) • Strukturace problému za pomoci teorie – tvorba ekonomického modelu • Data: • sběr • kontrola a analýza dat – deskriptivní statistiky, missingy • transformace, tvorba nových proměnných (dummies, atd.), hledání proxy proměnných atd. • Konstrukce ekonometrického modelu – volba vhodné ekonometrické koncepce, stochastický faktor • Volba odhadové techniky – odhad • Interpretace výsledků, verifikace (ekonomická, statistická, ekonometrická)

  29. TEORIE • cena substitutu=>Q • důchod=>Q • cena auta => pravděpodobnost luxisní SPZ • cena komplementu=>Q • ?důchod=>Q • výše trestu=>Q zločinů • počet policistů vs. zabráněné zločiny • Advertising vs. Extra consumers

  30. MĚŘENÍ REALITY • ošklivé, kostrbaté, nespojité, nelineární,… • nikdy ne ceteris paribus • téměř vždy Y=>X; X=>Y; Y<=>X a existuje Z

  31. PŘÍKLAD HOUSING • xi : • rozloha • počet pokojů • počet pater • dopravní dostupnost • rekonstrukce • cihla • novostavba • park do 500 m • atraktivita lokality,…

  32. TYPY DAT • Průřezová • Časové řady • Pooled-cross-section • Panelová

  33. Průřezová data • Definice • Co je „pozorování“? • Náhodný výběr • Neexperimentální charakter dat • Velikost a nezávislost jednotek • Výhody a nevýhody

  34. Časové řady • Budou předmětem samostatných přednášek • Definice • Co je „pozorování“? • Problém (ne)závislosti v čase • Frekvence měření • Výhody a nevýhody

  35. Pooledcrosssections • Definice • Rok se stává • „proměnnou“

  36. Panelová data • Definice • Nejlepší • Nejdražší • Co je „pozorování“? • Indexy • Vyvážený vs. nevyvážený panel • Kauzalita

  37. Jak data „uchopit“? (ojetá auta)

  38. Jak data „uchopit“? (ojetá auta)

  39. DUMMY PROMĚNNÉ V LRM • Např. předpokládáme jinouúrovňovou konstantupro muže a ženy • Aplikace na příkladHousing?

  40. SUMMARY STATISTICS

  41. Kontrola 1: Popisné charakterisitky • Popisné charakteristiky (průměry, mediány, max, min, rozptyly, počty pozorování, ad.) • Missing values • Četnosti (intepretace β)

  42. TRANSFORMACE V KLRM

  43. TRANSFORMACE V KLRM, DATA • Mocniny (parabolická regrese) • !!!interpretace • Tvorba nových proměnných • DUMMY • Interakce • Tvorba jiných nových proměnných nebo použití PROXY proměnných

  44. Příklad • Odhadněte závislost spotřeby (CONS) na disponibilním důchodu (INC), agregátní data v mil. Kč. • Proveďte • Specifikaci • Kvantifikaci • Verifikaci

  45. A. Specifikace • CONS – endogenní proměnná (vysvětlovaná) • INC – exogenní proměnná (vysvětlující) • Forma závislosti: CONSt = β0 + β1INCt +ut • Ekonomický předpoklad: • S růstem důchodu, roste spotřeba – kladné znaménko u koeficientu β1, • β1 náleží do intervalu (0,1) – v dlouhodobém horizontu platí: nemůžu spotřebovat více, než vydělám

  46. B. Kvantifikace • Pomocí výběru n = 47, budeme odhadovat model CONSt = b0 + b1INCt + et CONSt^ = b0 + b1INCt • Použijeme např. Gretl a MNČ (OLS)

  47. B. Kvantifikace

  48. B. Kvantifikace • Odhadnutý regresní model: CONSt = -7054 + 0,76INCt +et CONSt^ = -7054 + 0,76INCt • b1náleží do intervalu (0,1) • Absolutní pružnost • Zvýší-li se důchod (INC) o jednu Kč, zvýší se spotřeba (CONS) v průměru o 0,76 Kč, (ceterisparibus?)

  49. C. Verifikace statistická • Standard Error • Standardní chyba regresních koeficientů podle následujícího vztahu • Slouží k určení významnosti parametrů, k intervalovým odhadům • s je odhad σ – u nás ve výstupu je to S.E. of regression (odhad rozptylu reziduí)

  50. Verifikace statistická • t-testy parametrů • t statistika slouží k určení významnosti jednotlivých parametrů v modelu. • H0: βj = 0 • H1: βj ≠ 0 • t-statistika má při platnosti nulové hypotézy rozdělení t(n-k) • Obecně pro t-statistiku (t-ratio, t-poměr) platí • (pro velké vzorky = 1,96 – cca 2) popř. p-value ≤ α → zamítám hypotézu H0 o nevýznamnosti proměnné v modelu ve prospěch alternativní hypotézy, proměnná je tedy významná na hladině významnosti α • popř. p-value > α → nepodařilo si mi zamítnout hypotézu H0 o nevýznamnosti proměnné v modelu, proměnná je nevýznamná na hladině významnosti α

More Related