330 likes | 636 Views
Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése -. Petrovics Petra Doktorandusz. Többváltozós lineáris regressziós modell. x 1 , x 2 , …, x p és y közötti kapcsolatot ábrázoló egyenes. Az y függ:
E N D
Többváltozós lineáris regressziós modell feltételeinek tesztelése I.- A hibatagra vonatkozó feltételek tesztelése - Petrovics Petra Doktorandusz
Többváltozós lineáris regressziós modell • x1, x2, …, xp és y közötti kapcsolatot ábrázoló egyenes. • Az y függ: • x1, x2, …, xp – p db magyarázó változótól • A véletlen ingadozásától (ε) • β0, β1, …, βp regressziós együtthatóktól. Y = β0 + β1x1 + β2x2 +…+ βpxp +ε
A hibatagra vonatkozó feltételek • Várható értéke 0 M(ε) = 0 • Varianciája konstans Var(ε) = 2 • A hibatag értékei nem autokorreláltak. • Normális eloszlású valószínűségi változó.
A magyarázó változókra vonatkozó feltételek • Egymástól lineárisan függetlenek legyenek. (egyik magyarázó változót se lehessen a többi magyarázó változó lineáris kombinációjaként előállítani) • Értékeik rögzítettek legyenek, ne változzanak mintáról mintára. • Mérési hibát nem tartalmaznak. • Nem korrelálnak a hibatényezővel.
Standard lineáris regressziós modell Ahol az előbb említett feltételek teljesülnek. Amennyiben a mintabeli adatok nem igazolják a feltételek teljesülését, bonyolultabb modellre és becslési eljárásokra van szükség.
A hibatagra vonatkozó feltételek ellenőrzése Várható értéke 0 M(ε) = 0 Varianciája konstans Var(ε) = 2 A hibatag értékei nem autokorreláltak. Normális eloszlású valószínűségi változó.
1. M(ε) = 0 • A hibatagok pozitív és negatív értékei kiegyenlítik egymást. • Ha eltér a 0-tól, annak oka lehet, hogy kihagytunk a modellből egy szignifikáns magyarázó változót. • Nehéz a gyakorlatban ellenőrizni. • Ha feltételezzük, hogy a legkisebb négyzetek módszere érvényesül, akkor teljesül ez a feltétel.
A hibatagra vonatkozó feltételek ellenőrzése Várható értéke 0 M(ε) = 0 Varianciája konstans Var(ε) = 2 A hibatag értékei nem autokorreláltak. Normális eloszlású valószínűségi változó.
2. Homoszkedaszticitás (Var(ε) = 2) • A hibatag varianciája állandó. Ha nem: heteroszkedaszticitás • Tesztelése: • Grafikus – a becsült reziduumokat a kiválasztott magyarázó változó vagy az ŷ függvényében ábrázoljuk • Statisztikai tesztek – Goldfeld-Quandt-féle teszt
Homoszkedaszticitás grafikus tesztelése Homoszkedasztikus hibatag Heteroszkedasztikus hibatag e e e xi xi xi ŷ ŷ ŷ e – reziduum xi – becsült érték
HomoszkedaszticitásGoldfeld-Quandt-féle tesztelése • H0: j2 = 2 H1: j2 ≠ 2 • Lépései: • Rangsor • Független részminták ( , ahol r > 0, > p ) • Regressziós függvények, reziduális szórásnégyzet (se2) • F-próba: (a varianciák eloszlást követnek és ezek egymástól függetlenek) H0 F(α/2) F(1-α/2);ν1,ν2
SPSS (Feladat) 10 véletlenszerűen kiválasztott vállalat adatai a következők:
SPSS Analyze / Regression / Linear… - Plots Függő változó Standardizált becsült érték Standardizált reziduum Törölt reziduum Korrigált becsült érték Studentizáltreziduum Studentizált törölt reziduum Standardizált becsült érték (ZPRED) és a standardizált reziduum (ZRESID) viszonya – Homoszkedaszticitás?
Output A reziduumok varianciája ~konstans Homoszkedaszticitás
A hibatagra vonatkozó feltételek ellenőrzése Várható értéke 0 M(ε) = 0 Varianciája konstans Var(ε) = 2 A hibatag értékei nem autokorreláltak. Normális eloszlású valószínűségi változó.
A hibatag értékei korrelálatlanok • Egyszerű véletlen mintavétel esetében ez a feltétel automatikusan teljesül. • Ha a modell idősoros adatokra épül, gyakran előfordul a hibatagok autokorreláltsága. • Autokorreláció oka: • Nem megfelelő függvénytípus. • Nem véletlen jellegű mérési hiba. • A modellben nem szerepel valamennyi lényeges magyarázó változó (nem tudjuk, hogy kell / túl rövid idősor / nincs adat).
Autokorreláció grafikus tesztelése e A kihagyott változók miatt a reziduumok nem véletlenszerűek, hanem az egymást követő értékek között jelentős korreláció van. e t t e Az autokorreláció a függvénytípus helytelen megválasztásának a következménye. t + KVANTITATÍV TESZTEK!
Autokorreláció tesztelése Durbin-Watson próbával H0: ρ = 0 korrelálatlan H1: ρ ≠ 0 autokorreláció • Határai: • Pozitív autokorreláció: • Negatív autokorreláció: • Bizonytalansági tartomány: nem tudunk dönteni • Növelni kell a megfigyelések számát • Új változót kell bevonni a modellbe - zavaró autokorreláció + zavaró autokorreláció 0 dl du2 4-du 4-dl 4 Elfogadási tartomány
A Durbin-Watson próba döntési táblázata du illetve dl értékét a Durbin-Watson táblázatból határozzuk meg Forrás: Kerékgyártó-Mundruczó [1999]
Durbin-Watson próba - SPSS Analyze / Regression / Linear… - Statistics
Durbin-Watson statisztika (5%-os szignifikanciaszint mellett) Forrás: Statisztikai képletgyűjtemény
0 dl du2 4-du 4-dl 4 0,95 1,54 2,46 3,05 1,381 dl<d<du → nincs döntés →Be kell venni még változót a modellbe / Növelni kell a megfigyelések számát!
A hibatagra vonatkozó feltételek ellenőrzése Várható értéke 0 M(ε) = 0 Varianciája konstans Var(ε) = 2 A hibatag értékei nem autokorreláltak. Normális eloszlású valószínűségi változó.
A hibatag eloszlása normális Tesztelése: • Grafikusan – a reziduumokat várható értékük függvényében ábrázoljuk haranggörbe – normális eloszlás • Kvantitatív módszerekkel – illeszkedésvizsgálat - próba • Ferdeségi, csúcsossági mérőszámokkal
Illeszkedésvizsgálat H0: Pr(εj) = Pj (normális eloszláshoz tartozó megfelelő valószínűségi érték) H1: Jj: Pr(εj)≠ Pj Ha< H0 –t fogadjuk el
Grafikus tesztelés - SPSS Analyze / Regression / Linear… - Plots Függő változó Standardizált becsült érték Standardizált reziduum Törölt reziduum Korrigált becsült érték Studentizáltreziduum Studentizált törölt reziduum Hisztogram
Output • A harang alakú standard normális eloszlás középértéke 0, szórása 1. • Közelítőleg NORMÁLIS • (de nem egyértelműen)
2. megoldás Analyze / Regression / Linear… - SAVE
Normális eloszlás grafikus tesztelése 2. - SPSS • Graphs/ Histogram - Display normalcurve A normális eloszlásgörbe harang alakú. Közelítőleg normális eloszlás.
Nonparametric Test Analyze / Nonparametric Test / 1-Samle K-S... H0 - normális eloszlás H1 - nem normális eloszlás
Output Ha a szignifikanciaszint (p) kisebb mint 5% (0,05), elutasítjuk a nullhipotézist. Most nagyobb 0,05-nél, vagyis elfogadjuk, hogy normális eloszlású a görbe. Normális eloszlású