510 likes | 675 Views
8. Gyakorisági táblázatok elemzése (statisztikai elemzések arányokkal, illetve diszkrét változókkal). Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat 2 -próbával) Arányok összehasonlítása összetartozó és független minták segítségével Diszkrét változók kapcsolatvizsgálata.
E N D
8. Gyakorisági táblázatok elemzése (statisztikai elemzések arányokkal, illetve diszkrét változókkal)
Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat 2-próbával) Arányok összehasonlítása összetartozó és független minták segítségével Diszkrét változók kapcsolatvizsgálata Tartalom
Diszkrét változók eloszlásában Hol találkozunk arányokkal?
Példa diszkrét eloszlásra Érték: 0 1 2 3 Arány: 0,20 0,35 0,40 0,05
Személy neme (x1 = férfi, x2 = nő) Iskolázottsági szint (x1 = Alsófok, x2 = Középfok, x3 = Felsőfok) 5-fokú skálaváltozók Diagnózis(x1 = Neurózis, x2 = Szkizofrénia, ...) Kor(x1 = 18-35 év, x2 = 36-55 év, x3 = 56-99 év) Néhány példa diszkrét változóra
Kiemelt fontosságú diszkrét változók Változó típusa Kvantitatív Kvalitatív Arány Intervallum Nominális Ordinális
Csoki nyuszitojást milyen színű papírban viszik (veszik) a leginkább? (piros, zöld ...) Fiúból, vagy lányból születik-e több? Szmogriadó esetén, ha csak a páratlan rendszámú autók közlekedhetnek: Kisebb-e a páros rendszámúak aránya? Kisebb-e 1/3-nál a páros rendszámúak aránya? 1. Eloszlásvizsgálatok
Igaz-e, hogy a nők között több neurotikus van, mint a férfiak között? Ugyanolyan-e Bp.-en a Koronás, a Kádár- és a Kossuth-címer kedveltsége, mint vidéken? 2a. Homogenitásvizsgálatok (Arányok összehasonlításafüggetlen mintáksegítségével)
Változik-e a dohányosok aránya egy előadássorozat hatására különböző időpontokban? Változik-e a pártok kedveltségi aránya két vagy több időpont között? 2b. Homogenitásvizsgálatok (Arányok összehasonlításaösszetartozó mintáksegítségével)
Függ-e a pártpreferencia az iskolázottságtól? Milyen szoros kapcsolatban van a fenti két változó egymással? 3. Két diszkrét változó kapcsolatának vizsgálata(Kapcsolatvizsgálatok)
Példa: A Koronás, a Kádár és a Kossuth címer kedveltsége egy 939 fős mintában. 1. Eloszlásvizsgálatok
a) H0: Koronás: 60%, Kádár: 20%, Kossuth: 20% b) H0: Koronás: 40%, Kádár: 20%, Kossuth: 40% c) H0: Koronás = Kádár = Kossuth = 33,3% Lehetséges nullhipotézisek
A khi-négyzet-próba alapötlete Amintabeli kapott és anullhipotézis igaz volta esetén várt gyakoriságok összehasonlítása és a köztük lévő különbségekből egy c2 próbastatisztika kiszámítása. Szabadságfok: f = g - 1
Minél nagyobb az eltérés a kapott és a várt gyakoriságok között, annál valószínűbb, hogy H0 nem igaz. Az eltérés egyik mértéke a c2 próbastatisztika. Ha igaz H0, ez a mennyiség közelítőleg c2-eloszlású. Ha c2 elég nagy, akkor H0-t elutasítjuk. Eloszlásvizsgálat khi-négyzet-próbával
A c2-próba végrehajtása Kapott gyak. 708 109 122 S=939 Várt gyak. S=939 313 313 313 c2 =(708-313)2/313 + ...=892,09 > c20,01= 9,21 (f = 2;p < 0,01 szignifikáns) Mivel a c2-értékelég nagy, anullhipotézist elutasítjuk. ‘A 3 címert kedvelők aránya szignifikánsan különbözik.’
Adatok: 1000 személy pártpreferencia értékei: melyik pártra szavazna? Értékek: FIDESZ, MDF, MSZP, SZDSZ, JOBBIK, Egyéb (más párt vagy nem válaszol) Kapott gyakoriságok: n1 = 515, n2 = 13, n3 = 145,n4 = 12, n5 = 115 Másik példa: Választás 2010
Bekerül-e a parlamentbe az SZDSZ? Nullhipotézis: P(SZDSZ) = 0,05 Adatok: n1 = 12, n2 = 790, várt gyak. = ? Győz-e az MSZP-vel szemben a FIDESZ? Nullhipotézis: P(FIDESZ) = P(MSZP) Adatok: n1 = 515, n2 = 145, várt gyak. = ? Megválaszolandó kérdések
Kérdés: Budapestiek és vidékiek között van-e különbség a címerpreferencia tekintetében? Nullhipotézis: A két populációban a címerválasztási arányok ugyananazok 2a. Két populáció összehasonlítása diszkrét változó segítségével
Kétszempontosgyakoriságitáblázat Koronás Kádár Kossuth Össz. 116 15 32 n1 =163 Bpest n2 =776 592 94 90 Vidék Össz.: 708 109 122 N =939
Arányok összehasonlítása (sorösszegek szerinti százalékok) Koronás Kádár Kossuth Össz. 71,2% 9,2% 19,6% 100% Bpest 76,3% 12,1% 11,6% 100% Vidék
Általános khi-négyzet-próba H0igaz volta esetén a próbastatisztika c2-eloszlást követ.Szabadságfok: f = (sorok száma -1)×(oszlopok száma -1). c2 < c20,05: H0-t 5%-os szinten nem utasítjuk el. c2 ³ c20,05 :H0-t 5%-os szinten elutasítjuk.
A címeres példa eredménye Sorok száma: g = 2 Oszlopok száma: h = 3 Szabadságfok: f = (2-1)×(3-1) = 1×2 = 2 Kritikus értékek: - c20,05 = 5,991 - c20,01 = 9,210 Kiszámított khi-négyzet-érték: c2 = 8,144 Döntés: H0-t 5%-os szinten elutasítjuk.
A várt gyakoriságok ne legyenek kb. 5-nél kisebbek. Engedmény: elég, ha 80%-ra teljesül. Például egy 22-es táblázatban 4 cella van, ezért ezekre mind teljesülnie kell. Ac2-próba alkalmazási feltétele
Kis gyakoriságú sorok vagy oszlopok összevonása. Nagyobb minta választása. 22-es táblázat esetén a 22-es c2-próba helyett a Fisher-egzakt-próba. Mit tehetünk, ha az alkalmazási feltétel nem teljesül?
Példa oszlopok összevonására h6 változó értékei
Férfiak és nők feminitása (CPI) százalék
2 = 12,286 (f = 1, p < 0,01), vártmin = 1,9 Fisher-egzakt-próba: p = 0,0027 Példa a Fisher-egzakt-próbára Fem ≤ 11 Fem > 11 Férfi (n = 12) 6 6 Nő (n = 70) 7 63
Két dichotóm változó összehasonlítása (McNemar-próba, Előjelpróba) Ketőnél több dichotóm változó összehasonlítása (Cochran-féle Q-próba) Két tetszőleges diszkrét változó összehasonlítása (Általános McNemar-próba, Bowker-féle szimmetria-próba) 2b. Összetartozó mintás homogenitásvizsgálatok
Példa:Középiskolai osztályban előadást tartanak a dohányzás ártalmáról. 36 tanuló közül 8 leszokik, 3 rászokik a dohányzásra. Hatásos-e az előadás? Nullhipotézis:A dohányzás változójának eloszlása az előadás előtt és után ugyanaz. Különbségváltozó: x1= leszokik, x2 = rászokik Nullhipotézis: H0: P(leszokás) = P(rászokás) Kéthelyzet vagy időpont összehasonlítása egy dichotóm változó segítségével
Adattáblázat: - - 2 2 ( b c ) ( 8 3 ) 25 c = = = = < c 2 2 2 , 27 0 , 10 + + b c 8 3 11 Dohányzik? Utána igen Utána nem Előtte igen a b = 8 Előtte nem c = 3 d • Képlet és számolás: McNemar-próba • Alkalmazási feltétel: (b+c)/2³ 5 • Hogyan lehetne itt az előjelpróbát alkalmazni?
1. általánosítás: X dichotóm, h számú összetartozó minta összehasonlítása Nullhipotézis:A h számú dichotóm változó eloszlása ugyanaz
Szakmai példa: h számú tesztkérdés nehézségének azösszehasonlítása
Másik szakmai példa: elvonó kúra után állapotrögzítés több időpontban
Nullhipotézis:A h számú dichotóm változó eloszlása ugyanaz az 1 (és úgyszintén a 0) érték elméleti arányai megegyeznek Alkalmazási feltétel:nh 24 n: személyek száma; h: változók száma Próbastatisztika: Q, mely H0 igaz volta esetén közelítőleg 2-eloszlást követ Cochran-féle Q-próba
2. általánosítás: X tetszőleges, de csak két összetartozó mintát hasonlítunk össze (változik-e X eloszlása az egyik helyzetről/időpontról a másikra?) Sima McNemar-próba általánosítása: Általános McNemar-próba (vagy Bowker-féle szimmetria-próba)
2 diszkrét változó kapcsolatának vizsgálata 15 éves lányok Könnyen teremt baráti kapcsolatokat Dohányzik Igen Nem Összesen Igen 105 17 122 Nem 469 340 809 Összesen 574 357 931 Kapcsolatvizsgálat homogenitásvizsgálat
Sorösszegek szerinti százalékok táblázata 15 éves lányok Könnyen teremt baráti kapcsolatokat Dohányzik Igen Nem Összesen Igen 86,1 13,9 100 Nem 58,0 42,0 100 Összesen 61,7 38,3 100
A pártpreferencia függése az életkortól és a nemtől • Apártpreferencia nem függ a kortól, ha a pártpreferencia eloszlása különböző életkori szinteken ugyanaz. • Apártpreferencia nem függ a nemtől, ha a pártpreferencia eloszlása férfiaknál és nőknél ugyanaz.
Iskolázottság és szimpátia Függ-e ennek a személynek a kedveltsége az iskolai végzettségtől?
X és Y függetlensége • X független Y-tól, ha Y eloszlása ugyanaz X minden értéke mellett • Yfüggetlen X-től, ha X eloszlása ugyanaz Yminden értéke mellett • A függetlenség kölcsönös
Cramér-féle V kontingencia-együttható: A kapcsolat szorosságának mérése diszkrét változók esetén • Ha X és Y független, V = 0. • 0 ≤ V ≤ 1.
A kapcsolat szorosságának mérése dichotóm változók esetén • Dichotóm (kétértékű) változók esetén V φkontingencia együttható, |φ| = V • -1 ≤φ≤ 1 • φ = Pearson-féle r korrelációs együttható a sor- és az oszlopváltozó között
Kontingencia-együttható (φ) Pearson korreláció a numerikusan kódolt dichotóm változók között Yule-féle asszociációs együttható (,Y) Kendall-féle gamma dichotóm változókkal Alfa esélyhányados A kapcsolat szorosságának mérése dichotóm változók esetén
Az alfa esélyhányados X= „-” X=„+” Y = férfi a b Y = nő c d • Alfa = (b/a) : (d/c) • Ha alfa = 1, nincs különbség a 2 csoport között • Ha alfa nagyon kicsi vagy nagyon nagy, komoly különbség van a 2 csoport között
Kódoljuk X értékeit az 1 és a 2 számmal (pl. 1 = férfi, 2 = nő). Kódoljuk Y értékeit ugyancsak az 1 és a 2 számmal (pl. 1 = igen, 2 = nem). φ a Pearson-féle korrelációs együttható X és Y között A φ együttható jelentése
Kódoljuk X értékeit az 1 és a 2 számmal (pl. 1 = férfi, 2 = nő). Kódoljuk Y értékeit ugyancsak az 1 és a 2 számmal (pl. 1 = igen, 2 = nem). a pozitív és a negatív együttjárás %-os arányának különbsége (Kendall-féle Γ) A együttható jelentése