450 likes | 568 Views
Többváltozós adatelemzés. 6. előadás. Többváltozós regressziószámítás. Alapeset: Egy eredményváltozó, legalább intervallum skálán mért változó Egy vagy több magyarázó változó, mindegyike legalább intervallum szinten mért változó
E N D
Többváltozós adatelemzés 6. előadás
Többváltozós regressziószámítás • Alapeset: • Egy eredményváltozó, legalább intervallum skálán mért változó • Egy vagy több magyarázó változó, mindegyike legalább intervallum szinten mért változó • Ideális esetben a magyarázó változók függetlenek, de ez a gyakorlatban nem teljesül • Eredményváltozó normális eloszlású • Feltételes variancia állandó (homoszkedaszticitás)
Regressziós modellek csoportosítása • Idősor • Determinisztikus idősorelemzés (trendszámítás, szezonindexek) • Sztochasztikus idősorelemzés (ARMA, ARIMA, VAR, ARCH, GARCH) • Keresztmetszeti elemzések • A kettő kominációja is előfordul egyre több helyen
Regressziós modellek csoportosítása • Előrejelző modellek • Az eredményváltozó értékét szeretnénk minél pontosabban előre jelezni. • Pl. infláció, kamatláb előrejelzése (ha tudom, hogy mennyi lesz a kamat jövöre, abból hasznot tudok húzni még akkor is, ha nem tudom megmagyarázni, hogy mitől annyi) • Magyarázó modellek • Nem az eredményváltozó pontos előrejelzése a cél, hanem az eredményváltozó és a magyarázó változók közötti összefüggés feltérképezése (pl. a többletjövedelmet inkább az oktatásba, vagy inkább az egyészségügybe kell befektetni)
Paraméterbecslés • Az eredményváltozó és a magyarázóváltozók között lineáris összefüggést tételezek fel: • Y=b0+b1*X1+b2*X2+b3*X3+…+b4*X4+e • A b együtthatók meghatározása legkisebb négyzetek módszerével történik: • b=(XTX)-1XTy
Paraméterbecslés • A becslés előállítása lineáris algebrai műveletsor, eloszlásra tett feltételezést nem igényel • A becslés nem állítható elő, ha a (XTX) mátrix inverze nem állítható elő • Az inverz csak abban az esetben nem állítható elő, ha a magyarázó változók lineárisan összefüggők (tökéletes multikollinearitás)
Becsült együtthatók értelmezése • Ceteris paribus elv • Minden más változatlansága mellett • Pl.: normál tanuló csoportok esetén a becsült együttható 2654
Illeszkedés jósága • Regressziós egyenes hiányában minden megfigyelés esetén a sokasági átlag a ’becslés’. Ekkor az átlagos négyzetes eltérés a változó varianciája. • Regressziós egyenes esetén kiszámoljuk a regressziós egyenestől vett négyzetes eltérést. Azt nézzük, hogy a regressziós egyenes mennyivel csökkenti a változó varianciáját • A programcsomagok az ún. R2 mutatószámot közlik. A mutatószám azt méri, hogy a regressziós egyenes a variancia hány százalékát magyarázza.
Illeszkedés jósága • Konstans megléte esetén az R2 muató értéke 0 és 1 között van. Minél nagyobb a mutató értéke, annál jobb az illeszkedés. • A mutató 1 értéke a tökéletes illeszkedést jelzi. • Amennyiben nincs konstans a modellben a mutató értéke lehet negatív is.
Illeszkedés jósága R2 mutató értéke: -22,24
Illeszkedés jósága • Az SPSS programcsomag máshogy számolja az R2 mutatót, ha nincs konstans a modellben. A két különféle számítás eredménye nem vethető össze!
Illeszkedés jósága • Az R2 mutató értéke növekszik a változók számával. Amennyiben a változók száma megegyezik a megfigyelések számával, a mutató értéke 1. • Hüvelykujj szabály: a megfigyelések száma legyen legalább 5X akkora, mint a változók száma. • Korrigált R2 (adjusted R square) a változók számával korrigálja az R2 mutató értékét. Új változót akkor érdemes felvenni, ha a korrigált R2 mutató is növekszik • Az R2 mutató gyöke a az eredményváltozó eredeti és becsült értékei közötti korreláció.
Modell tesztelése • Amennyiben a kapott modellt tesztelni szeretnénk szükséges az eloszlásra tett feltételezésekkel élnünk. • Az ‘általános’ feltételezés az eltérésváltozó (és ezáltal az eredményváltozó) normalitása és homoszkedaszticitása • A feltételeken azért lehet valamelyest lazítani
Modell tesztelése • Ún. omnibusz teszt: az összes változó (a konstanson kívül) becsült együtthatója 0, a 0-tól csak a véletlen hatására különbözik. • Ez az ún. globális F teszt.
Modell tesztelése • Változók hatását parciálisan is tudjuk tesztelni. • Az ún. t teszt során az a nulhipotézis, hogy a vizsgált változó együtthatója 0, és csak a véletlennek köszönhetően lett a becslés ettől különböző
Modell tesztelése • A nem szignifikáns változókat a modellből el kell távolítani. • Az eltávolítást az t-teszt értékei alapján történik. • Ha a modellből elhagyunk egy változót, akkor többi változó becsült együtthatója és szignifikancia szintje változhat.
Változószelekciós eljárások • A szignifikáns változók kiválasztásához vannak ún. változószelekciós eljárások: • Bacward: induláskor berakja a modellbe az összes változót és a nem szignifikáns változókat folyamatosan kiszedi • Forward: Ameddig talál szignifikáns változót, beteszi a modellbe • Stepwise: Ha talál szignifikáns változót beteszi a modellbe, ha viszont nem szignifikáns változó van a modellben kiveszi azt
Lineáris kombináció • A regresszió érzéketlen a lineáris kombinációra • Amennyiben valamelyik változót lineáris módon transzformáljuk, csak a változó becsült együtthatója változik a transzformációnak megfelelően, sem a szignifikancia szintek, sem az előrejelzés nem változik • Ha sztenderdizált változókra építünk modellt, akkor az együtthatók nagyságából arra lehet következtetni, hogy mennyire erős hatása van a változónak
Lineáris kombináció tancsop_szum2=tancsop_szum/2+100 kiadas=22669+3139*tancsop_szum tancsop_szum=2*tancsop_szum2-200 kiadas=22669+3139*(2*tancsop_szum2-200) kiadas=22669-3139*200+6278*tancsop_szum2 kiadas=-605131+6278*tancsop_szum2
Lineáris kombináció • A regresszió érzéketlen a lineáris kombinációra • Amennyiben a modellben lévő változókat trancsformáljuk lineárisan, a modell érzéketlen a transzformációra abban az értelemben, hogy a becsült együtthatók a transzfomációnak megfelelően változnak, az eredményváltozó becsült értékeki nem változnak, de a változók szignifikancia szintje ebben az esetben már változhatnak
Lineáris kombináció tancsop_szum=tancsop_tobbi+tancsop_normal+tancsop_nemzet+ +,,,+tancsop_eretts_utani2 kiadás=17961+2385*tancsop_normal+2964*tancsop_nemzet+ +,,,+1964*tancsop_tobbi tancsop_tobbi=tancsop_szum-tancsop_normal-tancsop_nemzet-,,, kiadas=17961+2385*tancsop_normal+2964*tancsop_nemzet+ +,,,+1964*(tancsop_szum-tancsop_normal-,,) kiadas=17961+(2385-1964)*tancsop_normal+(2964-1964)*tancsop_nemzet+ +,,,+1964*tancsop_szum kiadas=17961+421*tancsop_normal+1000*tancsop_nemzet+ +,,,+1964*tancsop_szum
Új változó felvétele • Egy új változó felvétele a modellbe a modellt lényegesen megváltoztathatja • A változás amiatt történik, mert összefüggés van a magyarázó változók között • Ha egy változó becsült együtthatója nem nagyon változik új változó felvételével, vagy régi elhagyásával azt mondjuk, hogy robosztus változó
Kategória változó felvétele a modellbe • Kategória változókat ún. dummy változók segítségével lehet szerepeltetni a modellben • A változó kategóriái közül kinevezünk 1-et kontrolcsoportnak, a többit hozzá viszonyítjuk • Eggyel kevesebb dummy változót kell bevezetni, mint ahány kategóriája van a változónak.
Kategória változók szerepeltetése Kontrollcsoport: Budapest Kategória: dummy1 dummy2 Budapest 0 0 Megyei jogú város 1 0 Egyéb település 0 1