350 likes | 1.09k Views
REGRESNÁ A KORELAČNÁ ANALÝZA. 4. časť. PREDNÁŠKA. Diagnostika modelu Grafická diagnostika modelu Analýza reziduí Diagnostika predpokladov MNŠ Diagnostika multikolinearity. Nedostatky mier kvality odhadu. Odhadnutý správny model. Y = 3 + 0,5 X R 2 = 0,67. Nedostatky mier kvality odhadu.
E N D
REGRESNÁ A KORELAČNÁ ANALÝZA 4. časť
PREDNÁŠKA • Diagnostika modelu • Grafická diagnostika modelu • Analýza reziduí • Diagnostika predpokladov MNŠ • Diagnostika multikolinearity
Nedostatky mier kvality odhadu • Odhadnutý správny model Y = 3 + 0,5 X R2= 0,67
Nedostatky mier kvality odhadu • Odhadnutý nesprávny model Y = 3 + 0,5 X R2= 0,67
Nedostatky mier kvality odhadu • Model s extrémnou hodnotou Y = 3 + 0,5 X R2=0,67
Nedostatky mier kvality odhadu • Model s rozhodujúcim pozorovaním Y = 3 + 0,5 X R2=0,67
Diagnostika modelu Proces preskúmavania splnenia predpokladov modelu nazývame diagnostikou modelu. Jej cieľom je pomocou špeciálnych nástrojov overiť, či sú splnené všetky predpoklady regresnej analýzy
Diagnostické nástroje • grafické nástroje • ako jediný nástroj na overovanie predpokladov • bodové grafy • histogramy • ako podklad pre analytické nástroje • overenie heteroskedasticity • overenie autokorelácie, atď. • analytické nástroje • skupina presných štatistík a štatistických testov, ktoré exaktne hodnotí splnenie predpokladov • testy normality • testy vplyvu pozorovaní na regresný odhad a pod.
reziduálna odchýlka ei Diagnostika modelu • Reziduálne odchýlky - reziduá • sú základom pre hodnotenie splnenia predpokladov • preto hovoríme aj o tzv. analýze reziduí • Y = 0 + 1 X + e • X sú nenáhodné - vopred dané • 0 a 1 sú konštanty • vlastnosti Y sa prenášajú na e • odhadom e sú reziduálne odchýlky
Diagnostika modelu • Typy reziduí • jednoduché reziduá • sú odhadom neznámej náhodnej zložky • štandardizované reziduá • sú vypočítané z jednoduchých reziduálov normovaním (štandardizovaním), t.j. majú nulovú strednú hodnotu a jednotkový rozptyl • ďalšie typy: • studentizované reziduá • parciálne studentizované reziduá
model spĺňajúci predpoklady reziduály odhadnuté hodnoty Grafická diagnostika modelu • Vzhľad bodových grafov reziduí • pre modely spĺňajúce predpoklady • reziduálne odchýlky sú náhodnerozmiestnené okolo nuly • studentizované reziduá sú v rozpätí od -2 do 2
nesprávne zvolený model reziduály odhadnuté hodnotynezávislá premenná Grafická diagnostika modelu • Vzhľad bodových grafov reziduálov • pre nesprávne zvolené modely • reziduálne odchýlky sú usporiadané nenáhodneokolo nuly • tvar ich rozmiestnenia naznačuje, aký typ regresnej funkcie treba uvažovať • ak sa taký tvar vyskytujelen pri konkrétnej nezávislej premennej,treba zmeniť jej tvar v modeli
model s extrémnymi hodnotami reziduály odhadnuté hodnoty nezávislá premenná Grafická diagnostika modelu • Vzhľad bodových grafov reziduí • pre modely s extrémnymi hodnotami • väčšina reziduálnych odchýlok je náhodnerozmiestnená okolo nuly • reziduálne odchýlky extrémnych hodnôt sú mimo hraníc • studentizované reziduá sú mimo rozpätiaod -2 do 2
model s heteroskedasticitou reziduály odhadnuté hodnoty nezávislá premenná Grafická diagnostika modelu • Vzhľad bodových grafov reziduí • pre modely s nekonštantným rozptylom • je to tzv. heteroskedasticita reziduí • rozpätie, v ktorom sú umiestnené reziduálne odchýlky rastie s rastom odhadnutých hodnôt • ak sa tento jav prejavuje len u jednej závisle premennej, túto možno označiť za príčinuheteroskedasticity • overuje testom • odstraňujeme transformovaním
model s autokoreláciou reziduály odhadnuté hodnoty nezávislá premenná Grafická diagnostika modelu • Vzhľad bodových grafov reziduí • pre modely so závislými reziduami • je to tzv. autokorelácia reziduí • vyskytuje sa viac v časových radoch • reziduálne odchýlkynasledujúpo reziduách s rovnakým znamienkom • vyžaduje použitiešpeciálnych metód
Výpočet reziduí • Postup: • Výpočet predikovaných hodnôt yj´ - dosadíme do odhadnutej regresnej funkcie hodnoty nezávisle premennej x a vypočítame hodnoty y • Výpočet jednoduchých reziduí - rozdiel hodnoty yj a hodnoty yj´ • Výpočet normovaných (štandardizovaných) reziduí - normovaný tvar = (jednoduchý reziduál – priemerný hodnota reziduí)/smerodajná odchýlka reziduí
Výpočet cez Data Analysis - Excel • príklad – ceny bytu v závislosti od rozlohy bytu
Diagnostika predpokladov MNŠ • Predpoklad 1:Stredná hodnota náhodných chýb sa rovná nule. E(ei)=0 • Stredné hodnoty odchýlok pozorovaných hodnôt od vyrovnávajúcej priamky na určitej úrovni nezávislej premennej boli nulové. • Predpoklad 2:Rozptýlenosť hodnôt závislej premennej Y vo všetkých pozorovaniach xi nezávislej premennej X je rovnaká, t.j. rozptyl náhodnej zložky je konštantný. (podmienky homoskedasticity). D(ei)=s2rez • Predpoklad 3:Rozdelenie pravdepodobnosti náhodných chýb je normálne so strednou hodnotu 0 a rozptylom s2rez. t.j. ei má N(0, s2re). • Predpoklad 4: Náhodné chyby sú navzájom nezávislé. Lineárna nezávislosť náhodných chýb je splnená, ak ich kovariancia je nulová, t.j. cov(ei, ej)=0 (predpoklad o nekorelovanosti náhodných chýb, porušenie = autokorelácia).
graf premenných modelu graf reziduálov modelu závislá premenná reziduály nezávislá premenná odhadnuté hodnoty nezávislá premenná Diagnostika homoskedasticity • Prejav porušenia homoskedasticity
H0:Predpoklad homoskedasticity nie je porušený Reziduálne odchýlky majú konštantný rozptyl 1=2=…= n H1:V modeli existuje heteroskedasticita Reziduálne odchýlky nemajú konštantný rozptyl i j Diagnostika homoskedasticity • Test homoskedasticity
Diagnostika homoskedasticity • Odstránenie heteroskedasticity • pomocou transformácie • závislej alebo nezávislej premennej • dôsledky transformácie • zmena funkčnej podoby modelu • zmena variability náhodnej zložky • zmena tvaru rozdelenia náhodnej zložky • výber transformácie • na základe teoretických znalostí alebo skúseností • vyskúšaním viacerých transformácií
Diagnostika nezávislosti • Autokorelácia reziduí • je porušením predpokladu nezávislosti reziduí • hodnota rezidua závisí od hodnoty predchádzajúcich reziduí • výskyt • údaje zisťované v čase - časové rady • údaje, ktoré opakovane zisťované za tie isté subjekty, ale napríklad v rôznych podmienkach • typy autokorelácie • pozitívna autokorelácia • za reziduom nasleduje reziduum s rovnakým znamienkom • negatívna autokorelácia • reziduálne odchýlky striedavo menia znamienko
pozitívna autokorelácia negatívna autokorelácia Diagnostika nezávislosti • Identifikácia autokorelácie • preskúmanie trendov v grafe reziduí vs. predikované hodnoty • preskúmanie grafu reziduív vs. čas • aj keď sa s ním neuvažuje ako s vysvetľujúcou premennou • použitie testov a mier autokorelácie
Diagnostika nezávislosti • Postup diagnostiky autokorelácie • odhad regresného modelu • zistenie prítomnosti autokorelácie • DW testom alebo pomocou Prognózovacieho systému • určenie príčiny autokorelácie • nevhodný model • zanedbanie dôležitej premennej • závislosť vysvetľovanej premennej • na jej minulých hodnotách • na oneskorených hodnotách nezávislej premennej alebo premenných • odhad tzv. autoregresného modelu
Diagnostika normality • Porušenie normality • dôsledky • neplatnosť testov regresných koeficientov • intervaly spoľahlivosti pre priemer a individuálnu hodnotu sú buď veľmi široké alebo veľmi úzke • nástroje diagnostiky • popisné štatistiky tvaru rozdelenia • koeficient šikmosti • koeficient špicatosti • grafy rozdelenia reziduí • graf normálnej pravdepodobnosti • krabicový graf (box plot) • stem-and-leaf graf • test normality rozdelenia • riešenie • použiť transformácie ako pri heteroskedasticite • použiť centrálnu limitnú teorému
Diagnostika multikolinearity • multikolinearita = jav, keď medzi vysvetľujúcimi premennými existuje významná silná korelácia - závislosť, čo predstavuje prebytočnú informáciu v modeloch • Postup diagnostiky multikolinearity • odhad korelačnej matice pre nezávislé premenné (posúdenie, či môže existovať multikolinearita) • odhad regresného modelu • identifikácia multikolinearity • ak existuje multikolinearita, určenie skupiny navzájom závislých premenných • vylúčenie premennej • opätovný odhad modelu
Diagnostika extrémnych hodnôt Identifikácia tvaru závislostí Korelačná analýza Odhad modelov Posúdenie významnosti modelu Posúdenie kvality vyrovnania Diagnostika modelu Výber modelu Využitie modelu Predikcia závislej premennej Vysvetlenie závislostí Postup regresnej analýzy Predbežná analýza