450 likes | 571 Views
UK FHS Historická sociologie (LS 2013). Analýza kvantitativních dat II. Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru. Jiří Šafr jiri.safr(zavináč)seznam.cz. poslední aktualizace 8.6. 2013. Přímá standardizace v kontingenční tabulce.
E N D
UK FHS Historická sociologie (LS 2013) Analýza kvantitativních dat II.Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru Jiří Šafrjiri.safr(zavináč)seznam.cz posledníaktualizace 8.6. 2013
Přímá standardizace v kontingenční tabulce • Navazujeme na elaboraci – kontrolu vlivu • Standardizace je metoda původně používaná v demografii, kdy jde o kontrolu proměny nějaké struktury (kontrolovanou proměnnou je tak vlastně čas – skrze vliv proměny struktury např. z hlediska věku) • Princip viz přednášku Standardizace intenzitních údajů http://metodykv.wz.cz/Standardizace.ppt • Tento princip jde aplikovat i na kontingenční tabulku (nebo tabulku průměrů v podskupinách) • Ukazujeme tzv. čistý vztah dvou proměnných při kontrole vlivu třetí proměnné
Přímá standardizace v kontingenční tabulce • Princip: převážení dle kategorií třetí proměnné, čímž kontrolujeme její vliv → ukazujeme vztah dvou kategoriálních proměnných, jako kdyby hodnoty třetí byly v celé populaci stejné • Porovnáme původní s hypotetickou - převáženou tabulkou (v níž je vztah X a Y jako kdyby v kategoriích X-nezávislá měla stejné rozložení v kategoriích Z) • Jde o analogický postup k parciálním korelacím v případě tří kardinálních (ordinálních) znaků.
Testování/ kontrola vlivu dalšího faktoru • Vytvořením samostatných tabulek podle kategorií třetí proměnné je testovaný faktor (třetí proměnná) udržován na konstantní hodnotě. → souvislost mezi původními proměnnými je očištěna od zkreslujícího vlivu této další proměnné.
Testování vlivu dalšího faktoru • Porovnáme intenzitu souvislosti v původní tabulce se souvislosti zjištěnou v nových tabulkách s kontrolou 3 faktoru . • Když v nových tabulkách souvislost mezi původními daty zmizí/ je podstatně oslabena → souvislost v původní tabulce je funkcí třetího faktoru
Třídění 3 st.: kontrola vlivu 3 proměnné:interpretace a uspořádání tabulky Souvisí účast ve volbách s věkem, i při kontrole vlivu vzdělání? Rozdíly mezi krajními kategoriemi věku: 14 % 13 % 30 % Ptáme se: 1. Nacházíme rozdíly v X (věk) a Y (volil) uvnitř kategorií kontrolní proměnné Z (vzdělání)? Porovnáme s tabulkou třídění 2. st. Pro X a Y. 2. Jsou rozdíly mezi krajními kategoriemi X (věk) v rámci kategorií kontrolní proměnné Z (vzdělání) stejné? Zatímco v případě ZŠ a SŠ jsou rozdíly mezi nejmladšími a nejstaršími stejné, tak u VŠ je rozdíl větší. → Vzdělání tedy do vztahu mezi volební účastí a věkem částečně intervenuje.
Dalším krokem pak může být Přímá standardizace vztahupodle třetí proměnné
Rosenberg, M. 1962. „Test FactorStandardization as a Method of Interpretation.“ Social Forces41(1): 53-61.http://metodykv.wz.cz/SF1962_Rosenberg_Test_Factor_Standardization.pdf Příklad1 Náboženskost rodiny x Sebeúcta dítěte (x Vzdělání otce)
Výsledek: Původní (hrubý) a Standardizovaný (čistý) vztah → tabulku původního vztahu X a Y parcializujeme pro kategorie faktoru M (kontrolní proměnné) → Standardizujme (převážíme) políčka dle struktury faktoru M (zde vzdělání otce) → Porovnáme hrubou a čistou míru X a Y Zdroj: [Rosenberg 1962]
Náboženskost a Sebeúcta, kontrola vzdělání otce:Standardizace/vážení pro katolíky (Vys. sebeúcta): 0,1579 * 0,681=0,1075 Standardizace → převážení dle vzdělání otceváhahodnota v daném poli Váhy (podíl vzdělanostních kategorií → třídění 1.st.) spočítáme z absolutních četností Váhy(vzdělání otce) Zdroj: [Rosenberg 1962]
Pokračování tabulky • Tabulka má 6 panelů pro vzdělání Zdroj: [Rosenberg 1962]
Přímá standardizace: Vážený čistý procentní rozdíl • Váhy získáme z tabulky → z absolutních četností (viz další příklad) Máme-li původní mikro-data, můžeme je rychle spočítat pomocí třídění 1. stupně. • Ukazujeme Vážený čistý procentní rozdíl a porovnáme ho s hrubým rozdílem (původní vztah bez kontroly) • Redukce v pozorovaném vztahu dvou proměnných, způsobené zavedením 3 proměnné • Spočítáme váženou sumu % závislé proměnné (zde sebeúcty) napříč kategoriemi kontrolního faktoru (vzdělání otce)
Postup standardizace podle testového faktoru • Váhy: spočítáme podíly v každé testové kategorii (zde vzdělání otce), = marginální součet / celkovým počtem případů(pro všechny pole platí součet 1 resp. 100%) Pro první pole (8th Grade): 360 + 39 + 193 = 592 tj. 15,79% resp. 0,1579 - to je naše váha pro kat. vzdělání I. • Násobíme každou kategorii v políčku odpovídajícím podílem testového faktoru, tj. váhou Pro první pole High Self-esteem: 0,1579 * 0,681 a 0,1579 * 0,718 a 0,1579 * 0,648 a 0,1579 * 0,258 atd. Podobně pro všechna pole každého panelu tabulky. • Parciální standardizované údaje sepíšeme do nové tabulky: Pro Jews (vysoká sebeúcta): 0,1134 + 0,157 + 2154 + 0,083 + 0,1153 + 0,589 = 75,8 atd. (viz další snímek)
Vážený podíl: pro High Self-Esteem Vážený podíl získáme jakosoučet převážených hodnot provzdělanostní kategorie v kategoriích náboženské orientace rodin:
Příklad1: SebeúctaPorovnání hrubého a čistého % rozdílu mezi kategoriemi nezávislé proměnné • Hrubý rozdíl (nevážený) mezi Katolíky a Židy je v nejvyšší úrovni sebeúcty 7,8%(69,7 - 77,5) • Čistý (vážený pro vzdělání) je 6 %(69,8 - 75,8) • To zde odpovídá 23 % redukci po kontrole vzdělání (1-(6/7,8))
Příklad 2.Religiozita a militantnost v boji za občanská práva mezi afroameričany v USA (60. léta)se standardizací podle vzdělání [Treiman 2009: 30-33] Kapitola 2. More on the tables Úloha a tabulky jsou z původního článku Gary T. Marxe[1967]. Religion: Opiate or Inspiration of Civil Rights Militancy Among Negroes?
Religiozita a militantnost (operacionalizace) • Religiozita měřena pomocí kombinace 3 otázek (frekvence návštěv bohoslužeb, ortodoxnosti přesvědčení, význam víry) sloučené do proměnné se 4 hodnotami. • Militantnost v otázce boje za lidská práva měřena pomocí 7 otázek na protesty za občanská práva (názory, ochota účastnit se atd.) → index konvenční militantnosti, který byl posléze rekódován na 2 kategorie (militantní/nemilitantní)
Militantnost podle Religiozity→ bivariátní vztah, který nás zajímá Po sloučení kategorií „Not Very Religious“ a „Not at All Religious“
Militantnost podle religiozity a vzdělání: základní tabulka třídění 3. stupně s panely pro kontrolní proměnnou (zde vzdělání) V = Very religious, S = Somewhat religious, N = Not religious
Zjednodušená prezentace předchozí tabulky: pouze % Militantních + otočeno o 90 st.→ viz předchozí snímek Závislý znak je dichotomický, proto, u % Militantních dopočet do 100 = % nemilitantních. → úsporná forma prezentace v tabulce
Z ní získáme – spočteme váhy:(protože nemáme původní mikro-data a nemůžeme počítat rovnou jen frekvenci vzdělání) Pokud by absolutní četnosti nebyly uvedeny u každé buňky, spočítáme si je nejprve na základě % z celkového N 1. Celkový počet případů = (108 + 96 + … + 49) =993 pro ZŠ (Grammar school) je počet (108 + 201 + 44) = 353 atd. 2. Určíme váhy(podíly ve vzdělanostních kategoriích): • pro ZŠ (Grammar school): 353 / 993 = 0,356 • pro SŠ (High school): 304 / 993 = 0,508 • pro VŠ (College): 136 / 993 = 0,137 Součet pro váhy je 1 (po zaokrouhlení).
A vážíme – standardizujeme: V principu „rušíme“ kontrolní faktor → všichni jsou jako kdyby stejně vzdělaní Váhy (podíly vzdělání): ZŠ (Grammar School) 0,356 SŠ (High School) 0,508 VŠ (College) 0,137 Váhy: ZŠ SŠ VŠ • pro Velmi silně věřící: 17 % *0,356 + 34 %*0,508 +38 % *0,137 = 29 % • pro Částečně věřící: 22 % *0,356 + 32 %*0,508 +48 % *0,137 = 31 % • pro Velmi slabě věřící a nevěřící: 32 % *0,356 + 47 %*0,508 +62 % *0,137 = 45 % Standardizované – čisté podíly porovnáme s původními hrubými
Militantnost podle religiozity:Hrubá míra, čistá standardizovaná a procentní rozsah mezi krajními kategoriemi nezávislého znaku REDUKCE vlivem kontrolní proměnné/ faktoru: (1 – (Čistý rozdíl / Hrubý rozdíl))*100 Pozor platí pouze pro ordinální znaky → porovnáváme krajní kategorie. Hrubé (nevážené) četnosti Hrubý (nevážený) % rozdíl mezi krajními kategoriemi Vážený % rozdíl mezi krajními kategoriemi Rozsah procent mezi krajními kategoriemi nezávislé proměnné pro vztah bez a s kontrolou faktoru (zde vzdělání): 21 % hrubý rozdíl oproti 16 % čistému rozdílu (s kontrolou vzdělání) odpovídá 24 % redukci díky vlivu vzdělání (=(1-(16/21))*100). Lze tak říci, že vzdělání „vysvětluje“ cca ¼ vztahu mezi religiozitou a militantností. Ale pozor: Předpokladem této interpretace je ordinalita kategorií nezávislé proměnné (zde religiozita) a monotónnost vztahu závislé a nezávislé proměnné.[Treiman 2009: 29-31]
Redukce efektu vysvětlující proměnné po kontrole vlivu kontrolní proměnné (faktoru) REDUKCE vlivem kontrolní proměnné (faktoru) → rozdíl hrubý (původní bez kontroly) a čistý (po převážení kontrolním faktorem) pro krajní kategorie nezávislé proměnné (min a max): (1 – (Čistý rozdíl / Hrubý rozdíl))*100 → K jaké redukci vztahu mezi závislou a nezávislou proměnnou dochází díky vlivu kontrolní proměnné. • Pozor platí pouze pro ordinální znaky, tj. tam kde porovnáváme krajní kategorie a pro monotónní vztah(tj. plynulá proměna hodnot závislé proměnné mezi kategoriemi nezávislé – ordinální proměnné).
Přímá standardizace pro kontrolu vlivu dvou proměnných • Kontrolovat můžeme souběžně i vliv dvou proměnných, např. vzájemný vztah vzdělání a kategorií věku • Váhy budou kombinací vzájemného podílu kontrolních proměnných (zde např. vzdělání a věk). Získáme je jejich vzájemnou kontingenční tabulkou, kde budou procenta z celku (% of total)
Vzdělanostní aspirace žáků 8.-9.tříd ZŠ mezi dvěma typy škol, při kontrole vlivu vzdělání rodičů Příklad 3. [Šafr, Kalný 2012] Data z výzkumu žáků 8. a 9 tříd ve školním roce 2010/11 z odlišného prostředí čtyř základních škol, z nichž dvě se nacházely v lokalitách „zasažených sociálním vyloučením“ a dvě v residenčních oblastech s „majoritní populací“.
Vzdělanostní aspirace žáku podle typu ZŠ a vzdělání rodičů → bivariátní vztah, který nás zajímá Na SŠ s maturitou aspiruje na školách v sociálně vyloučených lokalitách méně dětí naž na školách v lokalitách s majoritní populací. → potencionálně intervenující faktor, jehož vliv chceme ověřit a kontrolovat Na aspirace má také vliv vzdělání rodičů: ve vzdělanějších rodinách jsou aspirace dětí vyšší. Vliv vzdělání rodiny (CV= 0,21) je větší než v případě typu školy (CV=0,10).
Zároveň ale … Na školy v sociálně vyloučených lokalitách chodí více dětí s nižším vzděláním rodičů. → Nejsou odlišné vzdělanostní aspirace na rozdílných typech škol způsobeny právě (pouze) odlišným vzdělanostním zázemím rodin žáků? (a tudíž nikoliv sociálním/institucionálním prostředím školy) Pokud ano, do jaké míry? (na základě poznatků teorie zde předpokládáme, že formativní vliv na aspirace má primárně rodina) → (1.) Třídění 3. stupně (kontingenční tabulka a asociační koeficienty) a (2.) standardizace podílu aspirací (na min. SŠ-maturita) mezi dvěma typy škol podle vzdělání rodiny (max. Vyučení / min. SŠ)
1. Třídění 3. stupně: Vzdělanostní aspirace žáků podle typu školy a vzdělání rodičů: uspořádání tabulek Výstup z SPSS pro kontingenční tabulku 3. stupně vypadá takto (panely dle vzdělání rodičů jsou pod sebou → lze přehodit pomocí Pivoting Trays): Výstup z SPSS upravíme (pomocí Pivoting Trays nebo v Excelu) pro klasický formát, kde kontrolní proměnná (vzdělání rodičů) je v panelech Vzdělání rodičů je zde kontrolní proměnná, proto je v panelech tabulky • Ideální je úsporný 3-dimenzionální formát tabulky: (s ním dále pracujeme při vážení) • vynechána % pro aspirace na ZŠ/VY (tvoří dopočet do 100 %) • Otočeno o 90 st. Alternativně – úsporná 3-dimenzionální tabulka otočena o 90 st. Podíl žáků aspirujících min. na maturitu podle typu školy a vzdělání rodičů
Vzdělanostní aspirace žáků podle typu školy a vzdělání rodičů: interpretace • Rozdíl mezi vzděláním rodičů (s/bez maturity) → mezi panely tabulky: • ve školách ze sociálně vyloučených lokalit: 45 – 63 = 18 % bodů • ve školách z lokalit s majoritní populací : 44 – 75 = 31 % bodů • Rozdíly mezi typy škol jsou v kategoriích vzdělání rodičů odlišné: pro nižší vzdělání rodičů (ZŠ/VY) nezáleží na typu školy (koeficient asociace CrV=0), zatímco u vyššího vzdělání rodičů (SŠ/VŠ) je ve školách z lokalit s majoritní populací vyšší podíl zájmu o maturitní obory (SŠ/VŠ) (CrV=0,13). • → interakční efekt vzdělání rodičů a typu školy (byť relativně slabý): nejvyšší aspirace mají žáci z výše vzdělaných rodin a v prostředí škol z lokalit s majoritní populací. Možné sociologické interpretace: • Podmínkou nutnou k osvojení si aspirací je vzdělání rodičů, načež záleží na škole, kam děti rodiče pošlou (respektive v případě škol z lokalit se sociálně znevýhodněnými žáky se „nesnaží, aby tam jejich děti nezůstaly“). • Prostředí školy v lokalitách s majoritní populací se uplatňuje pouze v případě žáků z rodin s vyšším vzděláním: kvalita výuky a aspirace spolužáků (celková hladina ve třídě/škole) pravděpodobně zvyšuje jejich aspirace na maturitu. • Pozor ovšem, neznáme mnoho okolností – podmínek, za kterých mechanismus působí (zda žáci přímo bydlí / nebydlí v sociálně znevýhodněné lokalitě, zda rodiče školu vybírali nebo ne, jaká je forma výuky na školách atd.).
Standardizace – převážení aspirací na SŠ/VŠ v typech škol podle vzdělání rodičů Váhy: máme-li mikro-data získáme je z třídění 1. stupně (Frequencies v SPSS), jinak je musíme spočítat z absolutních četností (viz předchozí příklad 2.) Tabulka 3. stupně% aspirujících na maturitu podle typu školy a vzdělání rodičů s hrubým (neváženým) vztahem: Standardizace (převážení dle vzdělání rodičů): 9,82 % oproti 9,75 %, odpovídá -0,1 % rozdílu díky vlivu vzdělání rodičů (=(1-(9,82/9,75)).Lze tedy říci, že vzdělání rodiny k vysvětlení vztahu mezi typem školy a vzdělanostními aspiracemi nic nepřidává. Zřejmě tedy prostředí školy působí nezávisle na rodině, tj. „navíc“nad vliv rodiny. Interpretace je to ale značně omezená, neznáme mnoho dalších podmínek.
Poznámky k příkladům 1, 2, 3 • Př. 1 – Sebeúcta dětí: závislý znak Sebeúcta je ordinální (má 3 kategorie), nezávislý Náboženská orientace rodiny je nominální a kontrolní faktor Vzdělání otce je ordinální (6 kategorií). Tabulka je uvedena v pravděpodobnostech (nikoliv %). Protože nezávislý znak je nominální, porovnáván je hrubý-čistý % rozsah vždy navzájem pro dvě kategorie (nábož. orient. rodiny: např. Katolíci-Židé, Katolíci-Protestanti …) • Př. 2 – Militantnost afroameričanů: závislý znak Militantnost je dichotomický (má 2 kategorie), nezávislý Náboženskost je ordinální a kontrolní faktor Vzdělání je ordinální (3 kategorie). Proto porovnání hrubého-čistého % rozsahu je provedeno pro krajní kategorie (Velmi silně věřící - Velmi slabě věřící/nevěřící). Váhy pro vzdělání zde byly spočítány přímo z tabulky. • Př. 1 – Aspirace dětí: závislý znak Vzdělanostní aspirace je dichotomický (má 2 kategorie), nezávislý Typ školy je nominální (2 kategorie) a kontrolní faktor Vzdělání rodiny je nominální (2 kategorie).K dispozici byla mikro-data (v SPSS), proto jsme váhu určili snadno pomocí třídění 1. stupně pro vzdělání rodičů. Porovnání % rozsahu ukazuje, že rozdíl mezi hrubým a čistým podílem zde není (-0,1%).
Jak na to s tabulkami z SPSS:úprava tabulek třídění 3. stupně A ještě jeden příklad (č. 4): Chození do kina podle vzdělání při kontrole vlivu věku
Krok 1. bivariátní vztah:Chození do kina podle vzdělání Pokud jde o ordinální znak má smysl sledovat pro krajní kategorie nezávislé proměnné (zde vzdělání) hrubý % rozdíl. U nominálního znaku porovnáváme jednotlivé kategorie mezi sebou(viz příklad se Sebeúctou dítěte podle náboženské orientace rodiny: protestantská/ židovská/katolická). Hrubý rozdílv krajních kategoriích vzdělání: 6,5% – 13,8% = 7,3 % Zdroj: ISSP 2007
2. krok. třídění 3.stupně → přidáme do panelu kontrolní faktor (věk)V SPSS pro třídění 3.stupně • dostaneme tuto tabulku: panely s kategoriemi kontrolní proměnné (zde věk) jsou pod sebou. Pro rychlý výpočet nám to stačí – označíme si pouze ty buňky, které použijeme pro vážení, pro standardní presentaci tabulky v textu ji ale musíme upravit.
Úprava tabulky tř. 3. st. v SPSS • My ale chceme panely (s kontrolní proměnnou) vedle sebe. → Pivoting trays (rozkliknout tabulku) → a poměrně dost složitě myší přetáhneme proměnné, jak je chceme: • 1. vzdělaní v COLUMN o řádek dolů, • 2. pak nad něj přetáhneme věk původní stav naše úprava
Příprava tabulky třídění 3. st. z SPSS pro standardizaci • Výsledkem je tato tabulka, kde je „panelizován„ kontrolní faktor (věk) – uvnitř něj sou kategorie nezávislé proměnné (vzdělání) • Tuto tabulku je vhodné ještě zjednodušit – promazat „negativní“ kategorie, tvoří dopočet do 100 % (zde 0 - Nechodí do kina) A pak případně pootočit o 90 st.
A nebo jiné zadání pořadí proměnných v CROSSTABS rovnou pro standardizaci • Musíme ale ještě promazat „negativní“ kategorie (0 – nechodí do kina) a nebo stačí příslušný řádek si označit a můžeme začít vážit
Rychle upravená předchozí tabulka z SPSS a samotné vážení-standardizace • v Excelu upravená (promazaná) tabulka, ze které již můžeme snadno vážit-standardizovat podle věku: Váhy: tř. 1.stupně pro věk – kontrolní faktor (% dělíme 100 → pravděpodobnost)FREQ vek3. Vážíme-standardizujeme podle věku. Váhy věku zde máme přímo spočítané z frekvence věku: 10-29let = 0,18 30-49 let = 0,30 50+let = 0,52) pro ZŠ+VY: 33 * 0,18 + 5 * 0,30 + 2 * 0,52 = 8,2 pro SŠ: 36 * 0,18 + 11* 0,30 + 5 * 0,52 = 13,8 pro VŠ: 31 * 0,18 + 13 * 0,30 + 9 * 0,52 = 13,8 Čistý rozdíl (vážený podle věku) mezi krajními kategoriemi vzdělání: 8,2 – 13,8 = 5,6%
Velikost redukce ve vztahu (kino x vzdělání) způsobená kontrolním faktorem (věk) • Rozdíl mezi krajními kategoriemi vzdělání ZŠ+VY a VŠ: • Čistý (vážený podle věku) = 5,6 % • Hrubý (původní bivariátní) = 7,3 % • Rozdíl hrubý – čistý (7,3 – 5,6) = 1,7 % • Redukce díky vlivu věku: =(1-(5,6 /7,3) = 0,233 = 23 %
Literatura • Rosenberg, M. 1962. „Test FactorStandardization as a Method of Interpretation.“ Social Forces41(1): 53-61. • Marx, G. T. 1967. „Religion: Opiate orInspiration of Civil Rights Militancy Among Negroes?“ American Sociological Review 32 (1): 64-72. • Šafr, J., B. Kalný. 2012 (v recenzi). „Vzdělanostně–profesní aspirace žáků z rodin ohrožených sociálním vyloučením.“ in Sborník z 4. mezinárodní konference Dilemata sociální pedagogiky v postmoderním světě, Institut mezioborových studií Brno, 19.–20. dubna 2012. • Treiman, Donald J. 2009. Quantitative data analysis: doing social research to test ideas. San Francisco: Jossey-Bass.