450 likes | 759 Views
Többváltozós adatelemzés. 2. előadás. Keresztábla elemzés. Más néven kontingencia tábla Két kategória változó együttes eloszlását mutataja Általában nominális vagy ordinális mérési szintű változókra használjuk. Kereszttábla. Kereszttábla. Kereszttábla. Mit vizsgálunk?.
E N D
Többváltozós adatelemzés 2. előadás
Keresztábla elemzés • Más néven kontingencia tábla • Két kategória változó együttes eloszlását mutataja • Általában nominális vagy ordinális mérési szintű változókra használjuk
Mit vizsgálunk? • Független-e a két változó eloszlása, vagy valamilyen (a véletlen ingadozáson túlmutató) összefüggés van a változók között. • Pl.: akik tornateremmel rendelkeznek, nagyobb valószínűséggel rendelkeznek könyvtárral is. • Pl.: vannak olyan fenntartók, akik nagyobb gondot fordítanak (több forrás áll rendelkezésükre) a tornateremre.
Hogy vizsgáljuk • Amennyiben a változók függetlenek, akkor az együttes bekövetkezési valószínűség a parciális bekövetkezési valószínűségek szorzata.
Függetlenség tesztelése • Pearson: • Likelihood arány:
A függetlenség nemcsak az arányoktól függ, hanem a mintanagyságtól is
Asszociáció szorosságának mérése • Χ2 alapú mutatószámok: • Phi • Cramer V • Kontingencia együttható
Asszociáció szorossága • A mutatók értékei 0 és 1 között vannak (elméleti határ) • 0, ha nincs kapcsolat a két változó között (függetlenség) • 1, ha determinisztikus kapcsolat van a két változó között
Az asszociáció mutató számai nem függnek a csoport méretétől
Asszociáció szorosságának mérése • PRE (Proportional Reduction of Errors) alapú mutatószámok • Guttman féle lambda • Azt vizsgálja, hogy mi a legjobb becslés különböző kategóriák esetén, és ezáltal mennyivel csökkenthető a bizonytalanság
Guttman féle lambda • (30-19)+(69-46)+(135-43)+ (343-138)+(171-57)+(70-28)=487 lambda=1-487/(818-239)=1-0,841=0,159 • A besorolási bizonytalanság 16%-kal csökkenthető, ha figyelembe vesszük a tanulók szorgalmát • A mutató értéke 0 és 1 között van: • 0: nem tudunk semmit javítani a besoroláson • 1: a besorolás tökéletes (determinisztikus kapcsolat)
Guttman féle lambda • Hátránya, hogy ha valamelyik kategória gyakrabban fordul elő a többinél, akkor a lamba-ra 0 adódik a szignifikáns kapcsolat esetén is.
Associáció mérése • További PRE alapú mutatószámok: • Goodman-Kruskal féle tau • ‘Uncertainty coefficient’ • Nemcsak a leggyakoribb kategóriaértéket veszik figyelembe, hanem a többit is.
Ordinális változók esetén a kapcsolat szorossága • Ordinális változók esetén nemcsak a kacsolat szorosságát lehet meghatározni, hanem annak irányát is (nagyobb értékhez inkább nagyobb érték tartozik, vagy épp fordítva)
Kapcsolat szorossága • Goodman Kruskal féle gamma: • Hány olyan pár van az adatbázisban, ahol az első változó értékéhez a második változó nagyobb értéke társul • Hány olyan pár van, amikor az első változó nagyobb értékéhez a második változó kisebb értéke térsul • Hány olyan eset áll fenn, ami egyik fenti kategóriába sem fér bele (ún. csomósodás)
Goodman Kruskal féle gamma Pozitív irány: 1-3 1-4 2-3 2-4 Negatív irány: 2-5 3-5 4-5 Csomósodás:1-2 1-5 3-4
Goodman Kruskal féle gamma • Az értékek kereszttáblából is számolhatók: Pozitív irány: 19*(46+43+56+...+28)+17*(43+56+11+…+28)+ +…+51*28 Negatív irány 17*(7+2+2+0+0)+15*(7+46+2+…+0)+…+ +20*(0+0+1+3+14)
Goodman Kruskal féle gamma • Pozitív irányok (concordant) számát jelölje P • Negativ irányok (disconcordant) számát jelölje Q • gamma=(P-Q)/(P+Q)
Goodman Kruskal féle gamma • A mutató értéke -1 és 1 között van. Amennyiben a két változó kapcsolatában nem mutatható ki összefüggés a mutató értéke 0. Ha kimutatható és a nagyobb értékhez nagyobb tartozik, akkor pozitív, ha nagyobb értékhez kisebb tartozik negatív a mutató értéke
Probléma nagysága ötfokú skálán: A tanulók iskolai magatartása
További mutatók • Abban különböznek, hogy hogyan kezelik a ‘csomósodást’ • Sommers féle d • Kendall féle tau-b • Kendall féle tau-c
Vélemények egyezősége • Négyzetes táblákra alkalmazható csak, ahol a két vizsgált változó ugyanazokat az értékeket veszi fel • Azt vizsgálja csak, hogy a két változó ugyanazokat az értékeket veszi-e fel vagy sem, azaz csak a fődiagonálisban lévő cellákat vizsgálja • Tipikus alkalmazása, ha egy kisérlet előtt és után is megkérdezzük a vizsgált személy véleményét, vagy ha két különböző személy (pl házaspár) véleményét kérdezzük ugyanarról a dologról
Kappa • Kappa értéke: • 0, ha az egyezőség csak a véletlennek tudható be, • pozitív, ha a vélemények egyeznek (1, ha tökéletes egyezőség van), • negatív, ha nem egyeznek (legkisebb értéke nem -1) • Inkább csak tesztelésre alkalmas, összehasonlításra nem
Szimmetrikusság tesztelése • Alapevetően nem a függetlenséget teszteljük, hanem egyfajta változatlanságot • Először gyógyszerkisérleteknél alkalmazták. Feljegyezték, hogy egy adott betegség a vizsgált személynél megállapítható-e vagy sem, utána kapott kezelték egy vegyülettel és később megint megvizsgálták, hogy a betegség nála kimutatható-e vagy sem. A kérdés az, hogy a gyógyszernek van-e hatása vagy nincs.
Szimmetrikusság tesztelése • Lehet, hogy alapvetően nem független a két időpontban diagnosztizált betegség, mert például a páciens védettséget szerez. Tehát a χ2 teszt nem ad kielégítő bizonyítékot a gyógyszer hatékonyságára