1 / 35

Többváltozós adatelemzés

Többváltozós adatelemzés. 7. előadás. Regressziós modell vizsgálata. Megfigyelések hatása a becsült együtthatókra Eltérésváltozó viselkedése Magyarázó változók közötti összefüggés (multikollinearitás) Eredményváltozó szórásának változása (heteroszkedaszticitás). Regressziós modell.

edena
Download Presentation

Többváltozós adatelemzés

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Többváltozós adatelemzés 7. előadás

  2. Regressziós modell vizsgálata • Megfigyelések hatása a becsült együtthatókra • Eltérésváltozó viselkedése • Magyarázó változók közötti összefüggés (multikollinearitás) • Eredményváltozó szórásának változása (heteroszkedaszticitás)

  3. Regressziós modell

  4. Megfigyelések hatása a becsült együtthatókra • b_kalap=(XTX)-1XTy • y_kalap=X*b_kalap=X(XTX)-1XTy=H*y • H mátrix angol neve: ‘hat matrix’ • Ez teremt kapcsolatot a megfigyelt és becsült értékek között

  5. Megfigyelések hatása a becsült együtthatókra • A mátrix diagonális elemei egy adott megfigyelés hatását mutatják. A diagonális elemek összege p+1 (változók száma a konstanst is beleértve), tehát az átlagos érték (p+1)/n. • Egy megfigyelést akkor tartunk jelentős befolyással bírónak, ha értéke nagyobb, mint az átlag kétszerese

  6. Megfigyelések hatása a becsült együtthatókra Az SPSS programcsomag az ún. centralizált leverage értékeket közli, ami az eredeti értékekből levon 1/n –t A mi esetünkben (2p+1)/n=0,22

  7. Regressziós modell

  8. Regressziós modelloutlierek nélkül

  9. Megfigyelések hatása a becsült együtthatókra Mivel változott a hat mátrix, ezért változnak a leverage értékek is

  10. Megfigyelések hatása a becsült együtthatókra • Cook féle D statisztika • Minden megfigyelésre számítható • Azt vizsgálja, hogy ha az i-edik megfigyelést kihagyjuk a regressziós illesztésnél, mennyire változnak a becsült együtthatók • Hüvelykujj szabály: a mutató 1-nél nagyobb értékeire kell odafigyelni

  11. Megfigyelések hatása a becsült együtthatókra

  12. Eltérésváltozó eloszlása

  13. Studentizált reziduálisok • A megfigyelések azonos szórása még akkor sem biztosított, ha az elméletileg megalapozott • Ezért szokták a reziduálisokat studentizálni: • ri=ei/[s*sqrt(1-hii)], ahol s az eltérésváltozó szórása • külső/belső studentizálás (a szórás kiszámításánál figyelembe vesszük-e az i-edik eltérést)

  14. Studentizált eltérések

  15. Magyarázó változók egymásra hatása • Multikollinearitás • Ideális esetben a magyarázó változók korrelálatlanok • Ha a magyarázó változók korrelálatlanok, akkor egy új változó bevonása nem változtatja meg a többi változó becsült együtthatóját • Ha a magyarázó változók korrelálatlanok, nehéz szétválasztani a változók hatását

  16. Kísérlet • X1, X2 változók sztenderd normális eloszlásúak • Y=20*X1-10*X2+zaj • Három különböző eset • X1, X2 független • X1, X2 között közepes korreláció van • X1, X2 között magas korreláció van

  17. Korreláció hatása a becsült együtthatókra

  18. Korreláció hatása a t értékekre

  19. Honnan lehet észrevenni • ‘furcsa’ végeredmény: pl. a becsült együttható a ellentétes előjelű • Tolerancia, VIF • Kondíciós index

  20. Tolerancia, VIF • Azt méri, hogy a magyarázó változók mennyire magyarázzák egymást. Regressziós modellt illesztünk, ahol az egyik magyarázó változót (mint eredményváltozót) magyarázzuk a többi magyarázó változó segítségével. Egy mínusz az illesztett regresszió R négyzete a tolerancia

  21. Tolerancia, VIF

  22. Tolerancia, VIF • VIF = 1/ Tolerancia • Pl.: 1,425= 1 / 0,702 • Hüvelykujj szabály: ha a tolerancia kisebb 0,2-nél (VIF nagyobb 5-nél) multikollinearitásra utal

  23. Kondíciós index • Egzakt multikollinearitás esetén az (XT*X)-1 invertálása nem végezhető el. Ha az invertálás nem végezhető el, a (XT*X)-1 mátrix invertálása, akkor ez azt jelenti, hogy a sajátértékek között van 0. • Amennyiben az invertálás elvégezhető, kérdés, hogy mennyire ‘stabil’ az inverz mátrix

  24. Példa Egzakt multikollinearitás Nem egzakt multikollinearitás

  25. Inverzmátrix Inverz mátrix Inverz mátrix

  26. Kondíciós index • Az (XT*X)-1 mátrix sajátértékeit vizsgáljuk. • Ha az összes sajátérték 1, akkor a magyarázó változók korrelálatlanok • Ha a sajátértékek között van 0-hoz közeli érték, akkor a magyarázó változók között erős összefüggés van • Kondíciós index: sqrt(lambda_max / lambda_i) • Ha a kondíciós index maximális értéke 15-nél nagyobb, akkor problémára utal, ha 30-nál nagyobb, komoly problémára utal

  27. Kondíciós index

  28. Multikollinearitás • Mit lehet tenni? • Nem sokat: a multikollinearitás adatprobléma és nem modellprobléma • A legnagyobb probléma, hogy lényeges változókat kihagyunk a modellből. Ezért ha tudjuk növeljük az elemszámot. • Változócsoportokat hozzunk létre • Ha indokolható, hagyjunk el változókat. • Ha előrejelzés a cél, nincs probléma

  29. Heteroszkedaszticitás • Az eredményváltozó szórása konstans (homoszkedaszticitás) • Az eredményváltozó szórása (vagy a hibatagok) a magyarázó változók mentén konstans

  30. Heteroszkedaszticitás

  31. Heteroszkedaszticitás • Mit lehet tenni? • Változók transzformációja • Pl. egy főre jutó jövedelem • logaritmálás • Másfajta becslési módszer (ökonometria)

  32. Intervallumbecslés • Ugyanolyan, a szerepe, mint a konfidencia intervallumnak paraméterbecslés esetén • Minden megfigyelésre (sor) lehet az Y változó értékére intervallumbecslést adni • Megkülönböztetjük hogy az Y változó átlagára adunk becslést, vagy pedig magára a változóra

  33. Regressziós egyenes változékonysága

  34. Predikciós intervallum • Predikciós intervallum esetén az eredményváltozó átlagának ingadozásához hozzáadódik még az eredményváltozó ingadozása is

  35. Predikciós intervallum

More Related