1 / 45

Többváltozós adatelemzés

Többváltozós adatelemzés. 6. előadás. Többváltozós regressziószámítás. Alapeset: Egy eredményváltozó, legalább intervallum skálán mért változó Egy vagy több magyarázó változó, mindegyike legalább intervallum szinten mért változó

sydnee-holt
Download Presentation

Többváltozós adatelemzés

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Többváltozós adatelemzés 6. előadás

  2. Többváltozós regressziószámítás • Alapeset: • Egy eredményváltozó, legalább intervallum skálán mért változó • Egy vagy több magyarázó változó, mindegyike legalább intervallum szinten mért változó • Ideális esetben a magyarázó változók függetlenek, de ez a gyakorlatban nem teljesül • Eredményváltozó normális eloszlású • Feltételes variancia állandó (homoszkedaszticitás)

  3. Regressziós modellek csoportosítása • Idősor • Determinisztikus idősorelemzés (trendszámítás, szezonindexek) • Sztochasztikus idősorelemzés (ARMA, ARIMA, VAR, ARCH, GARCH) • Keresztmetszeti elemzések • A kettő kominációja is előfordul egyre több helyen

  4. Regressziós modellek csoportosítása • Előrejelző modellek • Az eredményváltozó értékét szeretnénk minél pontosabban előre jelezni. • Pl. infláció, kamatláb előrejelzése (ha tudom, hogy mennyi lesz a kamat jövöre, abból hasznot tudok húzni még akkor is, ha nem tudom megmagyarázni, hogy mitől annyi) • Magyarázó modellek • Nem az eredményváltozó pontos előrejelzése a cél, hanem az eredményváltozó és a magyarázó változók közötti összefüggés feltérképezése (pl. a többletjövedelmet inkább az oktatásba, vagy inkább az egyészségügybe kell befektetni)

  5. Paraméterbecslés • Az eredményváltozó és a magyarázóváltozók között lineáris összefüggést tételezek fel: • Y=b0+b1*X1+b2*X2+b3*X3+…+b4*X4+e • A b együtthatók meghatározása legkisebb négyzetek módszerével történik: • b=(XTX)-1XTy

  6. Paraméterbecslés • A becslés előállítása lineáris algebrai műveletsor, eloszlásra tett feltételezést nem igényel • A becslés nem állítható elő, ha a (XTX) mátrix inverze nem állítható elő • Az inverz csak abban az esetben nem állítható elő, ha a magyarázó változók lineárisan összefüggők (tökéletes multikollinearitás)

  7. Működési kiadás tagintézmények nélkül(tisztított adatok)

  8. Működési kiadás tagintézmények nélkül(tisztított adatok)

  9. Becsült együtthatók értelmezése • Ceteris paribus elv • Minden más változatlansága mellett • Pl.: normál tanuló csoportok esetén a becsült együttható 2654

  10. Korrelációs mátrix

  11. Becsült paramétercsak a normál tancsoportok esetére

  12. Illeszkedés jósága • Regressziós egyenes hiányában minden megfigyelés esetén a sokasági átlag a ’becslés’. Ekkor az átlagos négyzetes eltérés a változó varianciája. • Regressziós egyenes esetén kiszámoljuk a regressziós egyenestől vett négyzetes eltérést. Azt nézzük, hogy a regressziós egyenes mennyivel csökkenti a változó varianciáját • A programcsomagok az ún. R2 mutatószámot közlik. A mutatószám azt méri, hogy a regressziós egyenes a variancia hány százalékát magyarázza.

  13. Illeszkedés jósága • Konstans megléte esetén az R2 muató értéke 0 és 1 között van. Minél nagyobb a mutató értéke, annál jobb az illeszkedés. • A mutató 1 értéke a tökéletes illeszkedést jelzi. • Amennyiben nincs konstans a modellben a mutató értéke lehet negatív is.

  14. Illeszkedés jósága

  15. Illeszkedés jósága R2 mutató értéke: -22,24

  16. Illeszkedés jósága • Az SPSS programcsomag máshogy számolja az R2 mutatót, ha nincs konstans a modellben. A két különféle számítás eredménye nem vethető össze!

  17. Illeszkedés jósága • Az R2 mutató értéke növekszik a változók számával. Amennyiben a változók száma megegyezik a megfigyelések számával, a mutató értéke 1. • Hüvelykujj szabály: a megfigyelések száma legyen legalább 5X akkora, mint a változók száma. • Korrigált R2 (adjusted R square) a változók számával korrigálja az R2 mutató értékét. Új változót akkor érdemes felvenni, ha a korrigált R2 mutató is növekszik • Az R2 mutató gyöke a az eredményváltozó eredeti és becsült értékei közötti korreláció.

  18. Illeszkedés jósága

  19. Modell tesztelése • Amennyiben a kapott modellt tesztelni szeretnénk szükséges az eloszlásra tett feltételezésekkel élnünk. • Az ‘általános’ feltételezés az eltérésváltozó (és ezáltal az eredményváltozó) normalitása és homoszkedaszticitása • A feltételeken azért lehet valamelyest lazítani

  20. Modell tesztelése • Ún. omnibusz teszt: az összes változó (a konstanson kívül) becsült együtthatója 0, a 0-tól csak a véletlen hatására különbözik. • Ez az ún. globális F teszt.

  21. Modell tesztelése

  22. Modell tesztelése • Változók hatását parciálisan is tudjuk tesztelni. • Az ún. t teszt során az a nulhipotézis, hogy a vizsgált változó együtthatója 0, és csak a véletlennek köszönhetően lett a becslés ettől különböző

  23. Modell tesztelése • A nem szignifikáns változókat a modellből el kell távolítani. • Az eltávolítást az t-teszt értékei alapján történik. • Ha a modellből elhagyunk egy változót, akkor többi változó becsült együtthatója és szignifikancia szintje változhat.

  24. Modell tesztelése

  25. Modell tesztelése

  26. Modell tesztelése

  27. Modellezés

  28. Változószelekciós eljárások • A szignifikáns változók kiválasztásához vannak ún. változószelekciós eljárások: • Bacward: induláskor berakja a modellbe az összes változót és a nem szignifikáns változókat folyamatosan kiszedi • Forward: Ameddig talál szignifikáns változót, beteszi a modellbe • Stepwise: Ha talál szignifikáns változót beteszi a modellbe, ha viszont nem szignifikáns változó van a modellben kiveszi azt

  29. Változószelekciós eljárásokstepwise

  30. Változószelekciós eljárásokstepwise

  31. Változószelekciós eljárásokbackward

  32. Lineáris kombináció • A regresszió érzéketlen a lineáris kombinációra • Amennyiben valamelyik változót lineáris módon transzformáljuk, csak a változó becsült együtthatója változik a transzformációnak megfelelően, sem a szignifikancia szintek, sem az előrejelzés nem változik • Ha sztenderdizált változókra építünk modellt, akkor az együtthatók nagyságából arra lehet következtetni, hogy mennyire erős hatása van a változónak

  33. Lineáris kombináció

  34. Lineáris kombináció tancsop_szum2=tancsop_szum/2+100 kiadas=22669+3139*tancsop_szum tancsop_szum=2*tancsop_szum2-200 kiadas=22669+3139*(2*tancsop_szum2-200) kiadas=22669-3139*200+6278*tancsop_szum2 kiadas=-605131+6278*tancsop_szum2

  35. Lineáris kombináció • A regresszió érzéketlen a lineáris kombinációra • Amennyiben a modellben lévő változókat trancsformáljuk lineárisan, a modell érzéketlen a transzformációra abban az értelemben, hogy a becsült együtthatók a transzfomációnak megfelelően változnak, az eredményváltozó becsült értékeki nem változnak, de a változók szignifikancia szintje ebben az esetben már változhatnak

  36. Lineáris kombináció

  37. Lineáris kombináció tancsop_szum=tancsop_tobbi+tancsop_normal+tancsop_nemzet+ +,,,+tancsop_eretts_utani2 kiadás=17961+2385*tancsop_normal+2964*tancsop_nemzet+ +,,,+1964*tancsop_tobbi tancsop_tobbi=tancsop_szum-tancsop_normal-tancsop_nemzet-,,, kiadas=17961+2385*tancsop_normal+2964*tancsop_nemzet+ +,,,+1964*(tancsop_szum-tancsop_normal-,,) kiadas=17961+(2385-1964)*tancsop_normal+(2964-1964)*tancsop_nemzet+ +,,,+1964*tancsop_szum kiadas=17961+421*tancsop_normal+1000*tancsop_nemzet+ +,,,+1964*tancsop_szum

  38. Lineáris kombináció

  39. Új változó felvétele • Egy új változó felvétele a modellbe a modellt lényegesen megváltoztathatja • A változás amiatt történik, mert összefüggés van a magyarázó változók között • Ha egy változó becsült együtthatója nem nagyon változik új változó felvételével, vagy régi elhagyásával azt mondjuk, hogy robosztus változó

  40. Új változó felvétele

  41. Új változó felvétele

  42. Kategória változó felvétele a modellbe • Kategória változókat ún. dummy változók segítségével lehet szerepeltetni a modellben • A változó kategóriái közül kinevezünk 1-et kontrolcsoportnak, a többit hozzá viszonyítjuk • Eggyel kevesebb dummy változót kell bevezetni, mint ahány kategóriája van a változónak.

  43. Kategória változók szerepeltetése

  44. Kategória változók szerepeltetése Kontrollcsoport: Budapest Kategória: dummy1 dummy2 Budapest 0 0 Megyei jogú város 1 0 Egyéb település 0 1

  45. Kategória változók szerepeltetése

More Related