310 likes | 607 Views
UK FHS Historická sociologie (LS 2012). Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky. Jiří Šafr jiri.safr(zavináč)seznam.cz. poslední aktualizace 22.5. 2012. Asociace mezi znaky. Asociace (korelace) a kauzalita.
E N D
UK FHS Historická sociologie (LS 2012) Analýza kvantitativních dat II.Korelace a asociace:vztahy mezi kardinálními/ ordinálními znaky Jiří Šafrjiri.safr(zavináč)seznam.cz posledníaktualizace 22.5. 2012
Asociace (korelace) a kauzalita • Asociace (korelace) neznamená automaticky kauzální vztah • Podmínky kauzality (připomenutí): • Naměřená korelace • Časová souslednost (k A došlo před B) • Vyloučení vlivu třetí proměnné • Vztah mezi proměnnými (pro kategoriální data kontingenční tabulky) sestavujeme tak, aby vyjadřovali naší výzkumnou otázku resp. pracovní hypotézu.
Základní možnosti pro vztah dvou proměnných A x B (opakování) • Nominální A (kategoriální či „kvalitativní“ proměnná) a nominální B → procentní podíly (podmíněné pravděpodobnosti) kontingenční tabulka (+ chí kvadrát test), znaménkové schéma, koeficient kontingence • Dtto ale ordinální → dtto + pořadové korelace (Sperman, Tab-B) • Nominální A x kardinální (číselná) → průměry B v podskupinách A (+ T-test či One-way Anova, 95% konf. intervaly), koeficient asociace Eta = míra jednostranné závislosti kvantitativní vysvětlované proměnné na proměnné nominální
Korelace • Korelační koeficient – Pearsonůvpro číselné znaky (s normálním rozdělením) 1 = přímá závislost 0 = žádná statisticky zjistitelná lineární závislost → i při nulovém korelačním koeficientu na sobě veličiny mohou záviset ! −1 = nepřímá závislost: čím více se zvětší hodnoty v první skupině znaků, tím více se zmenší hodnoty v druhé skupině znaků,
Korelace: test hodnoty v populaci • Je třeba pomocí T-testu otestovat, zda je korelace přítomná i v populaci (základním souboru). • Testujeme, zda se jeho hodnota ve výběru lišší od populační hodnoty. • H0: korelace v základním souboru je nulová (je způsobená náhodou) r = 0 • Porovnáme s tabulkovou hodnotou (dle stupňů volnosti) na hladině významnosti, např. (oboustranný test). Je-li tabulkové t0,05 > t pak H0 nezamítáme → hodnota r není významně rozdílná od 0; korelace je v populaci nulová.
Korelace a vysvětlená variance • Umocněním r – korelačního koeficientu dostanemeR2 (Rsq) – koeficient determinace. • Ten nám říká kolik variance znaku X jsme vysvětlili pomocí znaku Y
Parciální korelaceaneb výprava do tří (a více) rozměrného prostoru Intervalové (a ordinální) znaky
Korelace: parciální korelace • kontrolovaný vliv 3 proměnné Parciální korelace pro X,Y/U s kontrolou vlivu U(vzoreček platí i pro neparametrické korelace, např. Spearmanovo Rho) Příklad: korelace příjmu a věku, při kontrole vlivu vzdělání („čistý“ efekt)
Parciální korelace v SPSS Kontrolní proměnná(é) PARTIAL CORRprijem vek BY s3 /SIGNIFICANCE=TWOTAIL /STATISTICS=CORR /MISSING=LISTWISE. Lze zařadit i více kontrolních proměnných. V SPSS pouze pro Pearsonův korelační koeficient(tj. kardinální znaky). Neparametrické korelace nutno nejprve každou zvlášť (→ Bivariate) a potom parciální spočítat „ručně“ pomocí vzorečku. [Data: ISSP 2007]
Lineární regrese Odhadujeme hodnotu závislého znaku (y) na základě znalosti jiných veličin - nezávisle proměnných (x, ….). y = a + bxy = hodnota závislé, a = konstanta (typická závislé při nejnižší hodnotě nezávislé, b = regresní koeficient → „o kolik vzroste Y, když se x změní o jednotku“, x = hodnota nezávislé proměnné Na rozdíl od korelace předpokládáme směr působení: nezávislá → závislá Mnohonásobná regrese uvažuje vliv více nezávislých proměnných souběžně
Více k regresní analýze viz prezentaci Regresní analýza(AKD2_regrese.ppt)
Pořadová korelace: pro ordinální proměnné • Spermanův korelační koeficient Rho • +1 = úplná shoda pořadí jednotek podle obou znaků • Kendallovo Tau • ve srovnání s Pearsonovým r, ale i Spearmanovým Rho má několik výhod → větší citlivost na některé nelineární vztahy. Více k porovnání korelačních koeficientů viz [Hendl 2004: 259-262].
Pořadové korelace (pro ordinální znaky) • Spearmanův koeficient pořadové korelace (ρ nebo rs). Počítá se ze vzorce na výpočet Pearsonova koeficientu, místo původních hodnot se použijí jejich pořadová čísla. • Na některé druhy závislostí ovšem není citlivý, proto je lepší použít • Kendallův pořadový korelační koeficient (Kendaulovo Tau) je neparametrický test nezávislosti • vyjadřuje rozdíl mezi pravděpodobností, že hodnoty dvou proměnných jsou ve stejném pořadí oproti pravděpodobnosti, že ve stejném pořadí nejsou. • Tau-b→ pro větší počet výskytu nerozhodnutých párů • pokud znaky mají odlišný počet unikátních hodnot (kontingenční tabulka m×n) → Tau-cnebo • Goodman-Kruskalův gama koeficient → pro vysoký počet výskytu nerozhodnutých párů Gama = 0,70 → poznání hodnoty jedné proměnné sníží chybovost při předpovídání pořadí (ne hodnoty!) druhé proměnné o 70 %.
úlohy • [data ISSP 2007] • Jak souvisí příjem s věkem? • Souvisí pocit štěstí se vzděláním? [data Rodiče a výchova 2010] Jaký je vztah (asociace) mezi nominální proměnnou (typ_dom) a kardinální proměnnou (prijem).
Nominální a kardinální znak • koeficient asociace Eta = míra jednostranné závislosti kvantitativní vysvětlované proměnné na proměnné nominální • EtaSq nabývá hodnot 0=žádná asociace až 1=úplná. Vyjadřuje podíl vysvětlené variance závislé kardinální proměnné pomocí kategorií kategoriální proměnné . Hodnoty 0-1 tedy odpovídají procentům. • Ale pozor, nejde obecné vysvětlení variance znaku, ale pouze za pomocí této jedné proměnné! • V SPSS využijeme buď příkaz MEANS a jeho podpříkaz ANOVA nebo CROSSTAB • EtaSq je rovněž ve vícenásobné analýze rozptylu MANOVA (větší počet nezávislých znaků) (v SPSS procedura GLM zahrnující též regresní analýzu)
Asociace nominálních znaků Podrobněji o kontingenční tabulce viz AKD2_kontg_tab
Asociace nominálních znaků: Kontingenční koeficient (CC) • Analogie korelačního koeficientu (ten je pro kardinální/ordinální znaky) → míra těsnosti závislosti. Neurčuje směr. • Výsledek není kontingenčních tabulkách v intervalu (0,1) → existují různé korekce CC je rozšíření koef. Phi pro >2x2 tabulky. V menu SPSS: Analyze, Descriptive Statistics, Crosstabs; vložitRow a Column variables; → Statistics; → Contingency Coefficient / Phi & Cramer‘s V
Interpretace korelačních koeficientů • Korelace pod 0,1 je triviální, • 0,1–0,3 malá, • 0,3–0,5 střední • nad 0,5 velká. • Před interpretací korelačních koeficientů je vhodné zkonstruovat X-Y graf. • Pomůže nám odhalit odlehlá pozorování (outliers) a nelineární vztahy • Pozor zejména při malém počtu případů ve výběru a tedy hlavně u agregovaných dat (viz dále Simpsonův paradox)
Pozor korelační koeficient ukazuje jen na míru souvislosti, ale neříká nic o kauzalitě – směru působení mez dvěma znaky.
A ZNOVU…Asociace (korelace) a kauzalita • Asociace (korelace) neznamená automaticky kauzální vztah • Podmínky kauzality (připomenutí podruhé): • Naměřená korelace • Časová souslednost (k A došlo před B) • Vyloučení vlivu třetí proměnné→ eliminace (kontrola): pro kardinální či ordinální znaky pomocí parciální korelace nebo regresní analýzy;pro kategoriální (nominální/ordinální) znaky třídění 3. stupně případně standardizace podle třetího faktoru (viz prezentaci Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru (AKD2_kontg_tab_standardizace.ppt)) • Směr působení nám může pomoci určit silná teorie
Posouzení vlivu třetí proměnné • Vyloučení vlivu třetí proměnné → eliminace (kontrola společného působení na závislou i nezávislou proměnnou): • pro kardinální či ordinální znaky pomocí parciální korelace nebo regresní analýzy; • pro kategoriální (nominální/ordinální) znaky třídění 3. stupně případně standardizace podle třetího faktoru(viz prezentaci Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru (AKD2_kontg_tab_standardizace.ppt))
Na co si dát pozor Vícerozměrná analýza
Odlehlá pozorování (outliers) R = 0,88 R = 0,08 Téměř všech rozptyl byl vnesen pouze jedním pozorováním.Outliers mohou významně ovlivnit vztah dvou (a více) znaků! Vždy nejprve zjistit odlehlá pozorování → Scatterplot
Simpsonův / reversal paradox – špatná inference z agregovaných dat • Obrácení závislosti (směru působení) v konntingenční tabulce způsobeného působením třetí proměnné. • Hrozí při agregaci dat. V agregovaných datech (černá čára) je negativní souvislost V oddělených podskupinách (modrá a červená čára) je ovšem pozitivní trend
Konfigurace v datech na základě podskupin [Disman 1993: 210-211]
Neparametrické testy (Non-parametric Tests) • Parametrické metody předpokládají: náhodný výběr, normální rozdělní (distribuce znaku), velké výběry z populace, známé (shodné) rozptyly v sub/populacích, z nichž byl proveden výběr • Neparametrické metody: - nezávislé na rozdělní - méně citlivé na odchylky extrémních hodnot • i pro výběry velmi malého rozsahu • vhodné pro nominální i ordinální znaky • Ale dochází častěji k chybnému nezamítnutí nepravdivé H0. • Chí-kvadrát testy,