1 / 45

Analýza kvantitativních dat II. Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru

UK FHS Historická sociologie (LS 2013). Analýza kvantitativních dat II. Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru. Jiří Šafr jiri.safr(zavináč)seznam.cz. poslední aktualizace 8.6. 2013. Přímá standardizace v kontingenční tabulce.

lilika
Download Presentation

Analýza kvantitativních dat II. Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. UK FHS Historická sociologie (LS 2013) Analýza kvantitativních dat II.Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru Jiří Šafrjiri.safr(zavináč)seznam.cz posledníaktualizace 8.6. 2013

  2. Přímá standardizace v kontingenční tabulce • Navazujeme na elaboraci – kontrolu vlivu • Standardizace je metoda původně používaná v demografii, kdy jde o kontrolu proměny nějaké struktury (kontrolovanou proměnnou je tak vlastně čas – skrze vliv proměny struktury např. z hlediska věku) • Princip viz přednášku Standardizace intenzitních údajů http://metodykv.wz.cz/Standardizace.ppt • Tento princip jde aplikovat i na kontingenční tabulku (nebo tabulku průměrů v podskupinách) • Ukazujeme tzv. čistý vztah dvou proměnných při kontrole vlivu třetí proměnné

  3. Přímá standardizace v kontingenční tabulce • Princip: převážení dle kategorií třetí proměnné, čímž kontrolujeme její vliv → ukazujeme vztah dvou kategoriálních proměnných, jako kdyby hodnoty třetí byly v celé populaci stejné • Porovnáme původní s hypotetickou - převáženou tabulkou (v níž je vztah X a Y jako kdyby v kategoriích X-nezávislá měla stejné rozložení v kategoriích Z) • Jde o analogický postup k parciálním korelacím v případě tří kardinálních (ordinálních) znaků.

  4. Nejprve připomenutí principu:Tabulky třídění třetího stupně

  5. Testování/ kontrola vlivu dalšího faktoru • Vytvořením samostatných tabulek podle kategorií třetí proměnné je testovaný faktor (třetí proměnná) udržován na konstantní hodnotě. → souvislost mezi původními proměnnými je očištěna od zkreslujícího vlivu této další proměnné.

  6. Testování vlivu dalšího faktoru • Porovnáme intenzitu souvislosti v původní tabulce se souvislosti zjištěnou v nových tabulkách s kontrolou 3 faktoru . • Když v nových tabulkách souvislost mezi původními daty zmizí/ je podstatně oslabena → souvislost v původní tabulce je funkcí třetího faktoru

  7. Třídění 3 st.: kontrola vlivu 3 proměnné:interpretace a uspořádání tabulky Souvisí účast ve volbách s věkem, i při kontrole vlivu vzdělání? Rozdíly mezi krajními kategoriemi věku: 14 % 13 % 30 % Ptáme se: 1. Nacházíme rozdíly v X (věk) a Y (volil) uvnitř kategorií kontrolní proměnné Z (vzdělání)? Porovnáme s tabulkou třídění 2. st. Pro X a Y. 2. Jsou rozdíly mezi krajními kategoriemi X (věk) v rámci kategorií kontrolní proměnné Z (vzdělání) stejné? Zatímco v případě ZŠ a SŠ jsou rozdíly mezi nejmladšími a nejstaršími stejné, tak u VŠ je rozdíl větší. → Vzdělání tedy do vztahu mezi volební účastí a věkem částečně intervenuje.

  8. Dalším krokem pak může být Přímá standardizace vztahupodle třetí proměnné

  9. Rosenberg, M. 1962. „Test FactorStandardization as a Method of Interpretation.“ Social Forces41(1): 53-61.http://metodykv.wz.cz/SF1962_Rosenberg_Test_Factor_Standardization.pdf Příklad1 Náboženskost rodiny x Sebeúcta dítěte (x Vzdělání otce)

  10. Výsledek: Původní (hrubý) a Standardizovaný (čistý) vztah → tabulku původního vztahu X a Y parcializujeme pro kategorie faktoru M (kontrolní proměnné) → Standardizujme (převážíme) políčka dle struktury faktoru M (zde vzdělání otce) → Porovnáme hrubou a čistou míru X a Y Zdroj: [Rosenberg 1962]

  11. Náboženskost a Sebeúcta, kontrola vzdělání otce:Standardizace/vážení pro katolíky (Vys. sebeúcta): 0,1579 * 0,681=0,1075 Standardizace → převážení dle vzdělání otceváhahodnota v daném poli Váhy (podíl vzdělanostních kategorií → třídění 1.st.) spočítáme z absolutních četností Váhy(vzdělání otce) Zdroj: [Rosenberg 1962]

  12. Pokračování tabulky • Tabulka má 6 panelů pro vzdělání Zdroj: [Rosenberg 1962]

  13. Váhy: podíl (pravděpodobnost) vzdělanostních kategorií otce

  14. Přímá standardizace: Vážený čistý procentní rozdíl • Váhy získáme z tabulky → z absolutních četností (viz další příklad) Máme-li původní mikro-data, můžeme je rychle spočítat pomocí třídění 1. stupně. • Ukazujeme Vážený čistý procentní rozdíl a porovnáme ho s hrubým rozdílem (původní vztah bez kontroly) • Redukce v pozorovaném vztahu dvou proměnných, způsobené zavedením 3 proměnné • Spočítáme váženou sumu % závislé proměnné (zde sebeúcty) napříč kategoriemi kontrolního faktoru (vzdělání otce)

  15. Postup standardizace podle testového faktoru • Váhy: spočítáme podíly v každé testové kategorii (zde vzdělání otce), = marginální součet / celkovým počtem případů(pro všechny pole platí součet 1 resp. 100%) Pro první pole (8th Grade): 360 + 39 + 193 = 592 tj. 15,79% resp. 0,1579 - to je naše váha pro kat. vzdělání I. • Násobíme každou kategorii v políčku odpovídajícím podílem testového faktoru, tj. váhou Pro první pole High Self-esteem: 0,1579 * 0,681 a 0,1579 * 0,718 a 0,1579 * 0,648 a 0,1579 * 0,258 atd. Podobně pro všechna pole každého panelu tabulky. • Parciální standardizované údaje sepíšeme do nové tabulky: Pro Jews (vysoká sebeúcta): 0,1134 + 0,157 + 2154 + 0,083 + 0,1153 + 0,589 = 75,8 atd. (viz další snímek)

  16. + pro další tři panely tabulky

  17. Vážený podíl: pro High Self-Esteem Vážený podíl získáme jakosoučet převážených hodnot provzdělanostní kategorie v kategoriích náboženské orientace rodin:

  18. Příklad1: SebeúctaPorovnání hrubého a čistého % rozdílu mezi kategoriemi nezávislé proměnné • Hrubý rozdíl (nevážený) mezi Katolíky a Židy je v nejvyšší úrovni sebeúcty 7,8%(69,7 - 77,5) • Čistý (vážený pro vzdělání) je 6 %(69,8 - 75,8) • To zde odpovídá 23 % redukci po kontrole vzdělání (1-(6/7,8))

  19. Příklad 2.Religiozita a militantnost v boji za občanská práva mezi afroameričany v USA (60. léta)se standardizací podle vzdělání [Treiman 2009: 30-33] Kapitola 2. More on the tables Úloha a tabulky jsou z původního článku Gary T. Marxe[1967]. Religion: Opiate or Inspiration of Civil Rights Militancy Among Negroes?

  20. Religiozita a militantnost (operacionalizace) • Religiozita měřena pomocí kombinace 3 otázek (frekvence návštěv bohoslužeb, ortodoxnosti přesvědčení, význam víry) sloučené do proměnné se 4 hodnotami. • Militantnost v otázce boje za lidská práva měřena pomocí 7 otázek na protesty za občanská práva (názory, ochota účastnit se atd.) → index konvenční militantnosti, který byl posléze rekódován na 2 kategorie (militantní/nemilitantní)

  21. Militantnost podle Religiozity→ bivariátní vztah, který nás zajímá Po sloučení kategorií „Not Very Religious“ a „Not at All Religious“

  22. Militantnost podle vzdělání (třídění 2.stupně)

  23. Militantnost podle religiozity a vzdělání: základní tabulka třídění 3. stupně s panely pro kontrolní proměnnou (zde vzdělání) V = Very religious, S = Somewhat religious, N = Not religious

  24. Zjednodušená prezentace předchozí tabulky: pouze % Militantních + otočeno o 90 st.→ viz předchozí snímek Závislý znak je dichotomický, proto, u % Militantních dopočet do 100 = % nemilitantních. → úsporná forma prezentace v tabulce

  25. Z ní získáme – spočteme váhy:(protože nemáme původní mikro-data a nemůžeme počítat rovnou jen frekvenci vzdělání) Pokud by absolutní četnosti nebyly uvedeny u každé buňky, spočítáme si je nejprve na základě % z celkového N 1. Celkový počet případů = (108 + 96 + … + 49) =993 pro ZŠ (Grammar school) je počet (108 + 201 + 44) = 353 atd. 2. Určíme váhy(podíly ve vzdělanostních kategoriích): • pro ZŠ (Grammar school): 353 / 993 = 0,356 • pro SŠ (High school): 304 / 993 = 0,508 • pro VŠ (College): 136 / 993 = 0,137 Součet pro váhy je 1 (po zaokrouhlení).

  26. A vážíme – standardizujeme: V principu „rušíme“ kontrolní faktor → všichni jsou jako kdyby stejně vzdělaní Váhy (podíly vzdělání): ZŠ (Grammar School) 0,356 SŠ (High School) 0,508 VŠ (College) 0,137 Váhy: ZŠ SŠ VŠ • pro Velmi silně věřící: 17 % *0,356 + 34 %*0,508 +38 % *0,137 = 29 % • pro Částečně věřící: 22 % *0,356 + 32 %*0,508 +48 % *0,137 = 31 % • pro Velmi slabě věřící a nevěřící: 32 % *0,356 + 47 %*0,508 +62 % *0,137 = 45 % Standardizované – čisté podíly porovnáme s původními hrubými

  27. Militantnost podle religiozity:Hrubá míra, čistá standardizovaná a procentní rozsah mezi krajními kategoriemi nezávislého znaku REDUKCE vlivem kontrolní proměnné/ faktoru: (1 – (Čistý rozdíl / Hrubý rozdíl))*100 Pozor platí pouze pro ordinální znaky → porovnáváme krajní kategorie. Hrubé (nevážené) četnosti Hrubý (nevážený) % rozdíl mezi krajními kategoriemi Vážený % rozdíl mezi krajními kategoriemi Rozsah procent mezi krajními kategoriemi nezávislé proměnné pro vztah bez a s kontrolou faktoru (zde vzdělání): 21 % hrubý rozdíl oproti 16 % čistému rozdílu (s kontrolou vzdělání) odpovídá 24 % redukci díky vlivu vzdělání (=(1-(16/21))*100). Lze tak říci, že vzdělání „vysvětluje“ cca ¼ vztahu mezi religiozitou a militantností. Ale pozor: Předpokladem této interpretace je ordinalita kategorií nezávislé proměnné (zde religiozita) a monotónnost vztahu závislé a nezávislé proměnné.[Treiman 2009: 29-31]

  28. Redukce efektu vysvětlující proměnné po kontrole vlivu kontrolní proměnné (faktoru) REDUKCE vlivem kontrolní proměnné (faktoru) → rozdíl hrubý (původní bez kontroly) a čistý (po převážení kontrolním faktorem) pro krajní kategorie nezávislé proměnné (min a max): (1 – (Čistý rozdíl / Hrubý rozdíl))*100 → K jaké redukci vztahu mezi závislou a nezávislou proměnnou dochází díky vlivu kontrolní proměnné. • Pozor platí pouze pro ordinální znaky, tj. tam kde porovnáváme krajní kategorie a pro monotónní vztah(tj. plynulá proměna hodnot závislé proměnné mezi kategoriemi nezávislé – ordinální proměnné).

  29. Přímá standardizace pro kontrolu vlivu dvou proměnných • Kontrolovat můžeme souběžně i vliv dvou proměnných, např. vzájemný vztah vzdělání a kategorií věku • Váhy budou kombinací vzájemného podílu kontrolních proměnných (zde např. vzdělání a věk). Získáme je jejich vzájemnou kontingenční tabulkou, kde budou procenta z celku (% of total)

  30. Vzdělanostní aspirace žáků 8.-9.tříd ZŠ mezi dvěma typy škol, při kontrole vlivu vzdělání rodičů Příklad 3. [Šafr, Kalný 2012] Data z výzkumu žáků 8. a 9 tříd ve školním roce 2010/11 z odlišného prostředí čtyř základních škol, z nichž dvě se nacházely v lokalitách „zasažených sociálním vyloučením“ a dvě v residenčních oblastech s „majoritní populací“.

  31. Vzdělanostní aspirace žáku podle typu ZŠ a vzdělání rodičů → bivariátní vztah, který nás zajímá Na SŠ s maturitou aspiruje na školách v sociálně vyloučených lokalitách méně dětí naž na školách v lokalitách s majoritní populací. → potencionálně intervenující faktor, jehož vliv chceme ověřit a kontrolovat Na aspirace má také vliv vzdělání rodičů: ve vzdělanějších rodinách jsou aspirace dětí vyšší. Vliv vzdělání rodiny (CV= 0,21) je větší než v případě typu školy (CV=0,10).

  32. Zároveň ale … Na školy v sociálně vyloučených lokalitách chodí více dětí s nižším vzděláním rodičů. → Nejsou odlišné vzdělanostní aspirace na rozdílných typech škol způsobeny právě (pouze) odlišným vzdělanostním zázemím rodin žáků? (a tudíž nikoliv sociálním/institucionálním prostředím školy) Pokud ano, do jaké míry? (na základě poznatků teorie zde předpokládáme, že formativní vliv na aspirace má primárně rodina) → (1.) Třídění 3. stupně (kontingenční tabulka a asociační koeficienty) a (2.) standardizace podílu aspirací (na min. SŠ-maturita) mezi dvěma typy škol podle vzdělání rodiny (max. Vyučení / min. SŠ)

  33. 1. Třídění 3. stupně: Vzdělanostní aspirace žáků podle typu školy a vzdělání rodičů: uspořádání tabulek Výstup z SPSS pro kontingenční tabulku 3. stupně vypadá takto (panely dle vzdělání rodičů jsou pod sebou → lze přehodit pomocí Pivoting Trays): Výstup z SPSS upravíme (pomocí Pivoting Trays nebo v Excelu) pro klasický formát, kde kontrolní proměnná (vzdělání rodičů) je v panelech Vzdělání rodičů je zde kontrolní proměnná, proto je v panelech tabulky • Ideální je úsporný 3-dimenzionální formát tabulky: (s ním dále pracujeme při vážení) • vynechána % pro aspirace na ZŠ/VY (tvoří dopočet do 100 %) • Otočeno o 90 st. Alternativně – úsporná 3-dimenzionální tabulka otočena o 90 st. Podíl žáků aspirujících min. na maturitu podle typu školy a vzdělání rodičů

  34. Vzdělanostní aspirace žáků podle typu školy a vzdělání rodičů: interpretace • Rozdíl mezi vzděláním rodičů (s/bez maturity) → mezi panely tabulky: • ve školách ze sociálně vyloučených lokalit: 45 – 63 = 18 % bodů • ve školách z lokalit s majoritní populací : 44 – 75 = 31 % bodů • Rozdíly mezi typy škol jsou v kategoriích vzdělání rodičů odlišné: pro nižší vzdělání rodičů (ZŠ/VY) nezáleží na typu školy (koeficient asociace CrV=0), zatímco u vyššího vzdělání rodičů (SŠ/VŠ) je ve školách z lokalit s majoritní populací vyšší podíl zájmu o maturitní obory (SŠ/VŠ) (CrV=0,13). • → interakční efekt vzdělání rodičů a typu školy (byť relativně slabý): nejvyšší aspirace mají žáci z výše vzdělaných rodin a v prostředí škol z lokalit s majoritní populací. Možné sociologické interpretace: • Podmínkou nutnou k osvojení si aspirací je vzdělání rodičů, načež záleží na škole, kam děti rodiče pošlou (respektive v případě škol z lokalit se sociálně znevýhodněnými žáky se „nesnaží, aby tam jejich děti nezůstaly“). • Prostředí školy v lokalitách s majoritní populací se uplatňuje pouze v případě žáků z rodin s vyšším vzděláním: kvalita výuky a aspirace spolužáků (celková hladina ve třídě/škole) pravděpodobně zvyšuje jejich aspirace na maturitu. • Pozor ovšem, neznáme mnoho okolností – podmínek, za kterých mechanismus působí (zda žáci přímo bydlí / nebydlí v sociálně znevýhodněné lokalitě, zda rodiče školu vybírali nebo ne, jaká je forma výuky na školách atd.).

  35. Standardizace – převážení aspirací na SŠ/VŠ v typech škol podle vzdělání rodičů Váhy: máme-li mikro-data získáme je z třídění 1. stupně (Frequencies v SPSS), jinak je musíme spočítat z absolutních četností (viz předchozí příklad 2.) Tabulka 3. stupně% aspirujících na maturitu podle typu školy a vzdělání rodičů s hrubým (neváženým) vztahem: Standardizace (převážení dle vzdělání rodičů): 9,82 % oproti 9,75 %, odpovídá -0,1 % rozdílu díky vlivu vzdělání rodičů (=(1-(9,82/9,75)).Lze tedy říci, že vzdělání rodiny k vysvětlení vztahu mezi typem školy a vzdělanostními aspiracemi nic nepřidává. Zřejmě tedy prostředí školy působí nezávisle na rodině, tj. „navíc“nad vliv rodiny. Interpretace je to ale značně omezená, neznáme mnoho dalších podmínek.

  36. Poznámky k příkladům 1, 2, 3 • Př. 1 – Sebeúcta dětí: závislý znak Sebeúcta je ordinální (má 3 kategorie), nezávislý Náboženská orientace rodiny je nominální a kontrolní faktor Vzdělání otce je ordinální (6 kategorií). Tabulka je uvedena v pravděpodobnostech (nikoliv %). Protože nezávislý znak je nominální, porovnáván je hrubý-čistý % rozsah vždy navzájem pro dvě kategorie (nábož. orient. rodiny: např. Katolíci-Židé, Katolíci-Protestanti …) • Př. 2 – Militantnost afroameričanů: závislý znak Militantnost je dichotomický (má 2 kategorie), nezávislý Náboženskost je ordinální a kontrolní faktor Vzdělání je ordinální (3 kategorie). Proto porovnání hrubého-čistého % rozsahu je provedeno pro krajní kategorie (Velmi silně věřící - Velmi slabě věřící/nevěřící). Váhy pro vzdělání zde byly spočítány přímo z tabulky. • Př. 1 – Aspirace dětí: závislý znak Vzdělanostní aspirace je dichotomický (má 2 kategorie), nezávislý Typ školy je nominální (2 kategorie) a kontrolní faktor Vzdělání rodiny je nominální (2 kategorie).K dispozici byla mikro-data (v SPSS), proto jsme váhu určili snadno pomocí třídění 1. stupně pro vzdělání rodičů. Porovnání % rozsahu ukazuje, že rozdíl mezi hrubým a čistým podílem zde není (-0,1%).

  37. Jak na to s tabulkami z SPSS:úprava tabulek třídění 3. stupně A ještě jeden příklad (č. 4): Chození do kina podle vzdělání při kontrole vlivu věku

  38. Krok 1. bivariátní vztah:Chození do kina podle vzdělání Pokud jde o ordinální znak má smysl sledovat pro krajní kategorie nezávislé proměnné (zde vzdělání) hrubý % rozdíl. U nominálního znaku porovnáváme jednotlivé kategorie mezi sebou(viz příklad se Sebeúctou dítěte podle náboženské orientace rodiny: protestantská/ židovská/katolická). Hrubý rozdílv krajních kategoriích vzdělání: 6,5% – 13,8% = 7,3 % Zdroj: ISSP 2007

  39. 2. krok. třídění 3.stupně → přidáme do panelu kontrolní faktor (věk)V SPSS pro třídění 3.stupně • dostaneme tuto tabulku: panely s kategoriemi kontrolní proměnné (zde věk) jsou pod sebou. Pro rychlý výpočet nám to stačí – označíme si pouze ty buňky, které použijeme pro vážení, pro standardní presentaci tabulky v textu ji ale musíme upravit.

  40. Úprava tabulky tř. 3. st. v SPSS • My ale chceme panely (s kontrolní proměnnou) vedle sebe. → Pivoting trays (rozkliknout tabulku) → a poměrně dost složitě myší přetáhneme proměnné, jak je chceme: • 1. vzdělaní v COLUMN o řádek dolů, • 2. pak nad něj přetáhneme věk původní stav naše úprava

  41. Příprava tabulky třídění 3. st. z SPSS pro standardizaci • Výsledkem je tato tabulka, kde je „panelizován„ kontrolní faktor (věk) – uvnitř něj sou kategorie nezávislé proměnné (vzdělání) • Tuto tabulku je vhodné ještě zjednodušit – promazat „negativní“ kategorie, tvoří dopočet do 100 % (zde 0 - Nechodí do kina) A pak případně pootočit o 90 st.

  42. A nebo jiné zadání pořadí proměnných v CROSSTABS rovnou pro standardizaci • Musíme ale ještě promazat „negativní“ kategorie (0 – nechodí do kina) a nebo stačí příslušný řádek si označit a můžeme začít vážit

  43. Rychle upravená předchozí tabulka z SPSS a samotné vážení-standardizace • v Excelu upravená (promazaná) tabulka, ze které již můžeme snadno vážit-standardizovat podle věku: Váhy: tř. 1.stupně pro věk – kontrolní faktor (% dělíme 100 → pravděpodobnost)FREQ vek3. Vážíme-standardizujeme podle věku. Váhy věku zde máme přímo spočítané z frekvence věku: 10-29let = 0,18 30-49 let = 0,30 50+let = 0,52) pro ZŠ+VY: 33 * 0,18 + 5 * 0,30 + 2 * 0,52 = 8,2 pro SŠ: 36 * 0,18 + 11* 0,30 + 5 * 0,52 = 13,8 pro VŠ: 31 * 0,18 + 13 * 0,30 + 9 * 0,52 = 13,8 Čistý rozdíl (vážený podle věku) mezi krajními kategoriemi vzdělání: 8,2 – 13,8 = 5,6%

  44. Velikost redukce ve vztahu (kino x vzdělání) způsobená kontrolním faktorem (věk) • Rozdíl mezi krajními kategoriemi vzdělání ZŠ+VY a VŠ: • Čistý (vážený podle věku) = 5,6 % • Hrubý (původní bivariátní) = 7,3 % • Rozdíl hrubý – čistý (7,3 – 5,6) = 1,7 % • Redukce díky vlivu věku: =(1-(5,6 /7,3) = 0,233 = 23 %

  45. Literatura • Rosenberg, M. 1962. „Test FactorStandardization as a Method of Interpretation.“ Social Forces41(1): 53-61. • Marx, G. T. 1967. „Religion: Opiate orInspiration of Civil Rights Militancy Among Negroes?“ American Sociological Review 32 (1): 64-72. • Šafr, J., B. Kalný. 2012 (v recenzi). „Vzdělanostně–profesní aspirace žáků z rodin ohrožených sociálním vyloučením.“ in Sborník z 4. mezinárodní konference Dilemata sociální pedagogiky v postmoderním světě, Institut mezioborových studií Brno, 19.–20. dubna 2012. • Treiman, Donald J. 2009. Quantitative data analysis: doing social research to test ideas. San Francisco: Jossey-Bass.

More Related