350 likes | 519 Views
Többváltozós adatelemzés. 7. előadás. Regressziós modell vizsgálata. Megfigyelések hatása a becsült együtthatókra Eltérésváltozó viselkedése Magyarázó változók közötti összefüggés (multikollinearitás) Eredményváltozó szórásának változása (heteroszkedaszticitás). Regressziós modell.
E N D
Többváltozós adatelemzés 7. előadás
Regressziós modell vizsgálata • Megfigyelések hatása a becsült együtthatókra • Eltérésváltozó viselkedése • Magyarázó változók közötti összefüggés (multikollinearitás) • Eredményváltozó szórásának változása (heteroszkedaszticitás)
Megfigyelések hatása a becsült együtthatókra • b_kalap=(XTX)-1XTy • y_kalap=X*b_kalap=X(XTX)-1XTy=H*y • H mátrix angol neve: ‘hat matrix’ • Ez teremt kapcsolatot a megfigyelt és becsült értékek között
Megfigyelések hatása a becsült együtthatókra • A mátrix diagonális elemei egy adott megfigyelés hatását mutatják. A diagonális elemek összege p+1 (változók száma a konstanst is beleértve), tehát az átlagos érték (p+1)/n. • Egy megfigyelést akkor tartunk jelentős befolyással bírónak, ha értéke nagyobb, mint az átlag kétszerese
Megfigyelések hatása a becsült együtthatókra Az SPSS programcsomag az ún. centralizált leverage értékeket közli, ami az eredeti értékekből levon 1/n –t A mi esetünkben (2p+1)/n=0,22
Megfigyelések hatása a becsült együtthatókra Mivel változott a hat mátrix, ezért változnak a leverage értékek is
Megfigyelések hatása a becsült együtthatókra • Cook féle D statisztika • Minden megfigyelésre számítható • Azt vizsgálja, hogy ha az i-edik megfigyelést kihagyjuk a regressziós illesztésnél, mennyire változnak a becsült együtthatók • Hüvelykujj szabály: a mutató 1-nél nagyobb értékeire kell odafigyelni
Studentizált reziduálisok • A megfigyelések azonos szórása még akkor sem biztosított, ha az elméletileg megalapozott • Ezért szokták a reziduálisokat studentizálni: • ri=ei/[s*sqrt(1-hii)], ahol s az eltérésváltozó szórása • külső/belső studentizálás (a szórás kiszámításánál figyelembe vesszük-e az i-edik eltérést)
Magyarázó változók egymásra hatása • Multikollinearitás • Ideális esetben a magyarázó változók korrelálatlanok • Ha a magyarázó változók korrelálatlanok, akkor egy új változó bevonása nem változtatja meg a többi változó becsült együtthatóját • Ha a magyarázó változók korrelálatlanok, nehéz szétválasztani a változók hatását
Kísérlet • X1, X2 változók sztenderd normális eloszlásúak • Y=20*X1-10*X2+zaj • Három különböző eset • X1, X2 független • X1, X2 között közepes korreláció van • X1, X2 között magas korreláció van
Honnan lehet észrevenni • ‘furcsa’ végeredmény: pl. a becsült együttható a ellentétes előjelű • Tolerancia, VIF • Kondíciós index
Tolerancia, VIF • Azt méri, hogy a magyarázó változók mennyire magyarázzák egymást. Regressziós modellt illesztünk, ahol az egyik magyarázó változót (mint eredményváltozót) magyarázzuk a többi magyarázó változó segítségével. Egy mínusz az illesztett regresszió R négyzete a tolerancia
Tolerancia, VIF • VIF = 1/ Tolerancia • Pl.: 1,425= 1 / 0,702 • Hüvelykujj szabály: ha a tolerancia kisebb 0,2-nél (VIF nagyobb 5-nél) multikollinearitásra utal
Kondíciós index • Egzakt multikollinearitás esetén az (XT*X)-1 invertálása nem végezhető el. Ha az invertálás nem végezhető el, a (XT*X)-1 mátrix invertálása, akkor ez azt jelenti, hogy a sajátértékek között van 0. • Amennyiben az invertálás elvégezhető, kérdés, hogy mennyire ‘stabil’ az inverz mátrix
Példa Egzakt multikollinearitás Nem egzakt multikollinearitás
Inverzmátrix Inverz mátrix Inverz mátrix
Kondíciós index • Az (XT*X)-1 mátrix sajátértékeit vizsgáljuk. • Ha az összes sajátérték 1, akkor a magyarázó változók korrelálatlanok • Ha a sajátértékek között van 0-hoz közeli érték, akkor a magyarázó változók között erős összefüggés van • Kondíciós index: sqrt(lambda_max / lambda_i) • Ha a kondíciós index maximális értéke 15-nél nagyobb, akkor problémára utal, ha 30-nál nagyobb, komoly problémára utal
Multikollinearitás • Mit lehet tenni? • Nem sokat: a multikollinearitás adatprobléma és nem modellprobléma • A legnagyobb probléma, hogy lényeges változókat kihagyunk a modellből. Ezért ha tudjuk növeljük az elemszámot. • Változócsoportokat hozzunk létre • Ha indokolható, hagyjunk el változókat. • Ha előrejelzés a cél, nincs probléma
Heteroszkedaszticitás • Az eredményváltozó szórása konstans (homoszkedaszticitás) • Az eredményváltozó szórása (vagy a hibatagok) a magyarázó változók mentén konstans
Heteroszkedaszticitás • Mit lehet tenni? • Változók transzformációja • Pl. egy főre jutó jövedelem • logaritmálás • Másfajta becslési módszer (ökonometria)
Intervallumbecslés • Ugyanolyan, a szerepe, mint a konfidencia intervallumnak paraméterbecslés esetén • Minden megfigyelésre (sor) lehet az Y változó értékére intervallumbecslést adni • Megkülönböztetjük hogy az Y változó átlagára adunk becslést, vagy pedig magára a változóra
Predikciós intervallum • Predikciós intervallum esetén az eredményváltozó átlagának ingadozásához hozzáadódik még az eredményváltozó ingadozása is