250 likes | 366 Views
Kvantitatív módszerek. 4. Korreláció- és regressziószámítás I. Dr. Kövesi János. 56. Determinisztikus és sztochasztikus kapcsolatok.
E N D
Kvantitatív módszerek 4. Korreláció- és regressziószámítás I. Dr. Kövesi János
56 Determinisztikus és sztochasztikus kapcsolatok • A korreláció- és regresszió- számítás során arra keressük a választ, hogy egy adott állapot milyen tényezők hatására jött létre, az egyes tényezők milyen mértékben befolyásolják a jelenség alakulását, a tényezők milyen szoros kapcsolatban vannak egymással. • A korrelációs és regressziós számítás a kapcsolatot jellemzi, de semmit nem mond az oksági viszonyról. Tehát két, vagy több változó közötti sztochasztikus kapcsolat megállapításából nem következik, hogy a változók oksági összefüggésben vannak, azaz, hogy egyik tényező változása oka a másik tényező változásának. Az oksági kapcsolatot csak alapos szakmai és statisztikai vizsgálattal lehet megállapítani.
Y Y = = - - 8 8 . . 6 6 E E - - 0 0 2 2 + + 0 0 . . 6 6 9 9 0 0 2 2 8 8 6 6 X X Y Y = = 5 5 . . 0 0 7 7 E E - - 0 0 2 2 - - 0 0 . . 6 6 4 4 7 7 8 8 7 7 2 2 X X 3 3 R R - - S S q q = = 6 6 2 2 . . 5 5 % % 3 3 R - S q = 7 0 . 9 % R - S q = 7 0 . 9 % 2 2 2 2 1 1 1 1 0 0 0 0 - - 1 1 - - 1 1 - - 2 2 - - 2 2 - - 3 3 - - 3 3 - 3 - 2 - 1 0 1 2 3 - 3 - 2 - 1 0 1 2 3 - - 3 3 - - 2 2 - - 1 1 0 0 1 1 2 2 3 3 P P o o z z i i t t í í v v k k o o r r r r e e l l á á c c i i ó ó N N e e g g a a t t í í v v k k o o r r r r e e l l á á c c i i ó ó Y = - 7 . 4 E - 0 2 + 0 . 2 0 8 3 4 8 X Y = - 7 . 4 E - 0 2 + 0 . 2 0 8 3 4 8 X Y = 1 2 . 0 9 5 8 + 6 . 0 7 6 8 4 X + 1 . 1 6 6 8 6 X * * 2 Y = 1 2 . 0 9 5 8 + 6 . 0 7 6 8 4 X + 1 . 1 6 6 8 6 X * * 2 R - S q = 3 . 4 % R - S q = 3 . 4 % 3 3 R - S q = 8 8 . 4 % R - S q = 8 8 . 4 % 4 0 4 0 2 2 3 0 3 0 1 1 0 0 2 2 0 0 - 1 - 1 1 0 1 0 - 2 - 2 - 3 - 3 0 0 - - 3 3 - - 2 2 - - 1 1 0 0 1 1 2 2 3 3 - 2 - 1 0 1 2 - 2 - 1 0 1 2 N i n c s k o r r e l á c i ó N i n c s k o r r e l á c i ó N e m l i n e á r i s k o r r e l á c i ó N e m l i n e á r i s k o r r e l á c i ó 57 A kapcsolat szemléltetése
- 12 2 = = r 0 , 71 e 14 58-59 Az előjel–korrelációs együttható Feladat: 14 év adatai alapján vizsgáljuk meg az 1 ha szántóterületre vonatkoztatott műtrágya felhasználás (xi=kg/ha) és az évi búza termés átlagok (yi=q/ha) közötti kapcsolatok jellegét és szorosságát.
60 A (lineáris) regresszió és korreláció A regresszió számítás feladata a változók közötti összefüggés jellegének meghatározása. Ennek során a pontdiagramos ábrázolással érzékeltetett tendenciát valamilyen analitikusan ismert függvénnyel próbáljuk leírni. A regressziós függvényt a legkisebb négyzetek elve és módszere alapján határozzuk meg. Ez azt a követelményt támasztja, hogy az adott függvénytípust (egyenes, parabola, exponenciális, stb.) használata során a összeg minimális legyen. Az eltérések (rezidiumok) négyzeteinek összege jól jellemzi a ponthalmaz és a regressziós vonal kölcsönös viszonyát.
63 A (lineáris) regresszió és korreláció A korrelációs együttható értéke nulla, ha X és Y függetlenek. Ez fordítva általában nem igaz: abból, hogy két valószínűségi változó korrelációs együtthatója nulla, nem feltétlenül következik, hogy a két változó független is egymástól (kivétel, ha X és Y együttes eloszlása normális). Ha a két változónál csak azt tudjuk, hogy r(x,y)=0, akkor korrelálatlannak nevezzük őket.
63 A (lineáris) korrelációs együttható Az elméleti korrelációs együtthatót a mintabeli, tapasztalati korrelációs együtthatóból becsülhetjük: ahol: és
64 Feladat: Számítsuk ki a mintapéldában szereplő változó korrelációs együtthatóját! Emlékeztetőül: az előjel – korrelációs együttható értéke 0,71 volt.
BUX napi adatok autokorrelációja '94 -'99 1,0 0,8 0,6 0,4 0,2 0,0 Autocorrelation -0,2 -0,4 -0,6 -0,8 -1,0 1 2 3 4 5 6 7 8 9 10 Lag Corr T LBQ Lag Corr T LBQ 9,58 1 0,09 3,09 8 0,10 3,39 32,36 2 0,05 1,68 12,45 9 0,02 0,54 32,67 3 -0,06 -2,11 17,02 10 0,08 2,85 41,30 4 -0,01 -0,22 17,07 5 -0,05 -1,65 19,90 6 -0,02 -0,53 20,19 7 0,01 0,45 20,40 65 Auto- és keresztkorreláció idősorok elemzése
Kvantitatív módszerek 11. Korreláció- és regressziószámítás II. Dr. Kövesi János
142 A (lineáris) korrelációs együttható A korrelációs együttható értéke nulla, ha X és Y függetlenek. Ez fordítva általában nem igaz: abból, hogy két valószínűségi változó korrelációs együtthatója nulla, nem feltétlenül következik, hogy a két változó független is egymástól (kivétel, ha X és Y együttes eloszlása normális). Ha a két változónál csak azt tudjuk, hogy R(X,Y)=0, akkor korrelálatlannak nevezzük őket.
143 A (lineáris) korrelációs együttható Az elméleti korrelációs együtthatót a mintabeli, tapasztalati korrelációs együtthatóból becsülhetjük: ahol: és
143 A (lineáris) korrelációs együttható szignifikancia vizsgálata Ho: R (X, Y) = 0 A két változó egymástól független normális eloszlású Ha H0 igaz, akkor r(x,y) alábbi függvénye DF=n-2 szabadság fokkal t - eloszlást követ: Ha adott mellett tsz>tkrit, akkor H0-t elvetjük és =1- megbízhatósággal állíthatjuk, hogy a két változó között sztochasztikus kapcsolat áll fenn.
143 A (lineáris) korrelációs együttható Feladat: Számítsuk ki a mintapéldában szereplő változó korrelációs együtthatóját és végezzük el a szignifikancia vizsgálatot! Ho: R (X, Y) = 0 DF= n-2 =14-2 = 12 =0,05 tkrit = 2,17 Mivel tsz tkrit, ezért a nullhipotézist elvetjük és nagy biztonsággal állíthatjuk, hogy a két változó között korrelációs (sztochasztikus) kapcsolat van. (Emlékeztetőül: az előjel – korrelációs együttható értéke 0,71 volt).
144 Az r(x,y) és a regressziós egyenes összefüggése Az r2 (x, y) – amelyet determinációs együtthatónak is neveznek – azt fejezi ki, hogy a sztochasztikus kapcsolatban a teljes változás hányad része tulajdonítható x-nek. Értékét %-os formában is megadhatjuk.
144 Feladat A mintapélda adatai alapján határozzuk meg a determinációs index értékét! Az eredményt úgy értelmezhetjük, hogy a termésátlagok változásában a műtrágya felhasználás 72%-ban játszott szerepet.
145 A regressziós becslés pontossága Nyilvánvaló, hogy a sztochasztikus kapcsolat mérőszámaiból csak akkor vonhatunk le helyes következtetéseket, ha megfelelően nagy mintánk van. Így, az eredmények értékeléséhez hozzátartozik a mérőszámok hibájának vizsgálata is. A pontosság jellemzése céljából tehát most az a, b, paraméterek becslésének szórását (standard hibáját) kell meghatároznunk: 1. A regressziós együtthatók standard hibái (pontbecslés). 2. Konfidencia intervalluma becsült paraméterekre. 3. A lineáris kapcsolat szignifikancia vizsgálata. 4. Az átlagos, vagy az egyedi yi értékek becslése.
145 1. A regressziós együtthatók standard hibái (pontbecslés). A standard hibák azt mutatják meg, hogy végtelen sok n elemű mintát véve az alapsokaságból az egyes mintákból becsült b0 és b1 paraméterek átlagosan sb0 és sb1 egységgel szóródnak az alapsokasági regressziófüggvény körül.
145 2. Konfidencia intervallum a becsült paraméterekre A becsült paraméterekre konfidencia intervallumokat is konstruálhatunk. Nagy minták esetén normális eloszlás táblázatot-, kis minták esetén a Student-eloszlás t- táblázatát használjuk (DF= n-2):
146 3. A lineáris kapcsolat szignifikancia vizsgálata t- próba segítségével azt is ellenőrizhetjük, hogy az Y és X változók között szignifikáns lineáris kapcsolat van-e. Nullhipotézisünk és ellenhipotézisünk: A próbastatisztika: A tkritértéket szignifikancia szinten DF=n – 2 szabadsági foknál találjuk meg. Ha tsz tkrit, elvetjük Ho-t és valós lineáris összefüggést tételezünk fel X és Y között.
147 4. Az átlagos, vagy az egyedi yi értékek becslése
148 Feladat Korábban már többször foglalkoztunk a BUX havi hozamainak statisztikai elemzésével (leíró statisztika, hipotézisvizsgálatok). Az alábbi táblázat alapján vizsgáljuk meg, hogy az 1998. VII.-1999.VI. közötti időszakban a havi hozam (%) alapján kimutatható-e sztochasztikus kapcsolat a BUX és a Zwack hozamai között? Adjunk – előzetes – szakmai magyarázatot az eredményekre!
149 Feladat A diagram és/vagy a táblázat alapján határozzuk meg az előjel – korrelációs együtthatót! Határozzuk meg a tapasztalati korrelációs együtthatót és = 5 % mellett végezzük el a szignifikancia vizsgálatot! Következtetés: tsz > tkrit Ho: R(x,y) = 0 DF = 12-2 = 10 = 5% H0 nem igaz ! tkrit = 2,23
149 Feladat Becsüljük meg a lineáris regressziófüggvény együtthatóit! Határozzuk meg a determinációs együtthatót és értelmezzük az eredményt! Következtetés: A Zwack hozamának változásában a BUX hozama 46,2 %-ban játszott szerepet.
se = 7,47 sb0 = 2,157 sb1 = 0,143 = = 5% Int(1-α)(βo) = 1,47 4,841 Int(1-α)(β1) = 0,463 0,32 t 2 , 23 a - 1 2 DF = 10 tsz = 3,24 tkrit = 2,23 Következtetés: Mivel tsz >tkrit a H0 (β1=0) nem igaz, tehát x és y között szignifikáns lineáris kapcsolat van. 150 Feladat Határozzuk meg a regressziós becslés pontosságát! Készítsünk 95 %-os konfidencia intervallumot a becsült paraméterekre! Ellenőrizzük = 5 % mellett, hogy a lineáris kapcsolat szginifikáns-e?