190 likes | 443 Views
UK FHS Historická sociologie. Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod. Jak psát empirickou část odborného textu: Popisné statistiky a bivariátní vztahy. Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 5/6/2014.
E N D
UK FHS Historická sociologie Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod Jak psát empirickou část odborného textu:Popisné statistiky a bivariátní vztahy Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 5/6/2014
Jak psátempirickou část textu (nejen) v diplomce (bude doplněno)
Postup jak (začít) psát … • 1. závislá proměnná(é) • s ní si vyhrajte, nepůjde již v hotovém textu měnit • Koncept/operacionalizace/jednotky/ rekódování, deskripce (variance, rozložení,…),, zakotvení (porovnání s výsledky jiných výzkumů)
Postup jak (začít) psát … • Rozpracovat si projekt (diplomovou práci) na otázky • Podle těchto otázek udělat (pod)kapitoly (v1. kroku stačí nadpisy + anotace) • otázky by měly být stupňovitě do sebe zapadající (→ co je třeba vyřešit nejdříve, co nelze bez jiného předchozího kroku, co naopak ano a co tedy lze odložit na později … ?)
Struktura textu empirické části • popis závislé proměnné – ne tupě ale zakotveně interpretovat (např. vývoj v čase) • bivariátní vztahy – ty nejdůležitější z hlediska teorie • multivariační analýza (např. regrese, modely=hypotézy) • interakce (nejlépe dle teorie) • grafické znázornění čistých efektů (estimated effect size)
Presentace tabulek s s popisnými statistikami nejen pro závislou (vysvětlovanou) proměnnou
Popisné statistiky pro závislou i nezávislé proměnné Základní tabulka třídění 1. stupně pro několik znaků dohromady.Máme zde počet platných případů,střední hodnotu (průměr) což nemusí být vždy ideální, směrodatnou odchylkua popis hodnot u kategoriálních znaků.Někdy se tato tabulka dává pouze do přílohy. Zdroj: [Katrňák 2006: 181]
Efektivní presentace tabulek • Jednou z možností je „Linkova“ tabulka: Kombinované tabulky třídění 2.stupně pro několik nezávislých proměnných → bivariátní profil naší hlavní závislé proměnné(ých)
Komplexní „profilová“ tabulka třídění 2. stupně (několik nezávislých znaků), pro dvě závislé proměnné Závislé proměnné jsou sice spojité-kardinální (dále analyzovány v OLS), zde ale pro přehlednost pouze % souhlasu a nesouhlasu. Nezávislé proměnné mají co nejmenší počet kategorií → přehlednost rozdílů. Alternativně by šlo ukazovat průměry závislé proměnné, ale takto máme z věcného hlediska mnohem lepší materiál k interpretaci. Vytvořeno v Excelu ze série kontingenčních tabulek z SPSS. V SPSS by bylo možno udělat celou tabulku pomocí modulu Tables. Zdroj: [Šafr, nepublikovaný rukopis]
Prezentace základních bivariátních vztahů Většinou máme jednu (či více) závislou-vysvětlovanou proměnnou a naše hlavní hypotézy (a v nich nezávislé znaky). Nejprve vztahy dané hypotézami můžeme sledovat jednoduše bivariátně.
Základní bivariátní vztahPříklad (oba znaky kategoriální-ordinální). závislá proměnná: vzdělanostní aspirace dítěte, nezávislá: aspirace rodičů Zdroj: [Katrňák 2006: 180]
Základní bivariátní vztahPříklad (oba znaky kategoriální: nominální a ordinální). závislá proměnná: způsob získání 1. pracovního místa, nezávislá: vzdělání Zdroj: [Hauberer, Šafr 2012: 58]
Základní bivariátní vztahPříklad: závislá proměnná (kardinální): Pro-čtenářské klima rodiny ve 3 dimenzích, nezávislá (kategoriální-ordinální): vzdělání Závislé proměnné jsou spojité-kardinální a standardizované na z-skóry, tj. mají stejnou metriku-rozsah (dále byly analyzovány v OLS). Pokud i nezávislá proměnná je kardinální, lze X-Y (scatterplot) graf, ale někdy je interpretačně zajímavější jednu z proměnných kategorizovat a pak ukazovat průměry v podskupinách. Zdroj: [Gorčíková, Šafr 2012: 75]
Pochopitelně jsou i jiné varianty znaků a možnosti prezentace Doplníme …
Průnik pro platné případy (effective sample) Analýzy v textu by měly být provedeny na konsistentním podsouboru se stejným počtem platných případů (průnik)
Průnik pro platné případy (effective sample) • Zvolte průnik pro platné případy (princip LISTWISE vyřazení missingů), který se v textu nebude měnit (effective sample), může jít jen o kapitolu (její části) nebo o celý text. • Tj. všechny tabulky/analýzy by měly být založeny na jednom podsouboru, tj. stejném počtu případů. • Proto nejprve vše zkontrolovat, nejjednodušeji velikost průniku zjistíme pomocí DESCRIPTIVES (viz dále) • Počet chybějících hodnot (missingů) u závislé proměnné je pořád stejný, ale může se měnit podle nezávislých proměnných. • Problém může být, že celkový průnik missingů všech analyzovaných proměnných může být již příliš velký (> 5%). → kontrolovat reprezentativitu analyzovaného podsouboru. • Pak lze zvážit pro nezávislé proměnné:a) „zahrnutí chybějících hodnot“ do analýzy nejjednodušeji pomocí nahrazení průměrem (Replace with Mean). To samotné se ale nedoporučuje, lepší volba je to doplnit o indikaci, zda u konkrétní proměnné hodnota chyběla (dummy var) a testovat její statistickou významnost. b) Imputaci hodnot - existují sofistikované metody doplnění (aproximace) chybějících hodnot pro nezávislé proměnné na základě odhadu z hodnot jiných proměnných.
Chybějící hodnoty v datech mohou být: • Missing completely at random (MCAR)→ ideální situace, výsledky nejsou zkreslené (biased) • Missing at random (MAR)→ chybějící hodnoty jsou jen u některé proměnné, ale nejsou ničím systematicky ovlivněny • Not missing at random (NMAR) → chybějící hodnoty jsou něčím (nenáhodně) podmíněny → problém zkreslení výsledků
Kontrola reprezentativity analyzovaného podsouboru celkově platných případů, filtr na effective sample • Pro kontrolu si vytvoříme filtr s celkovým průnikem platných případů (prostým součtem všech platných hodnot všech proměnných): COMPUTEFi_Lsw6v = Závislá+Nezávislá1+Nezávislá2+Nezávislá3 atd.RECODE Fi_Lsw6v (low thru highest =1). • Nebo COUNT Fi_Lsw6v = s27 vek prijem s30 s18 vzd3 (SYSMIS MISSING). /* pozor toto zadání předpokládá, že jsou již ošetřeny missingy a je ve výsledku opačné.RECODE Fi_Lsw6v (0 =1) (1 thru highest =0). • A jednoduchá kontrola reprezentativity, např. CROSS vekkat by Fi_Listw /cel col. • A na všechny bivariátní analýzy zapneme filtr pro podskupinu platných případů.FILTER BYFi_Lsw6v.
Sedm principů psaní „o číslech“ • Ustavte kontext pro čísla, která budete prezentovat tím, že specifikujete „Ws“ (Co/Kdo/Kde/Kdy?). • Zvolte adekvátní příklady a analogie. • Zvolte slovník (pojmy), které zavedete. Definujte synonyma pro koncepty, které budete užívat (a jen ty používejte v textu). Nahraďte matematicko-statistický slovník a symboly výrazy běžného jazyka srozumitelného pro netechnické čtenáře. • Rozhodněte se, zda čísla budete presentovat v tabulkách nebo grafech. Zamyslete se kolik času bude čtenář potřebovat na zpracování čísel → omezte ukazování čísel (opisování z tabulek do textu). Používejte krom čísel také slovní vyjádření (místo čísla s % lze slovně vyjádřené zlomky). • Uveďte čísla a interpretujte je v textu. Uveďte je a uveďte jejich význam a smysl. Interpretujte je a to ve vztahu k hlavnímu tématu. • Specifikujte směr a velikost asociace mezi proměnnými.Pokud je trend: roste/ klesá? Pokud rozdíly mezi skupinami/místy: kdo má nejvyšší/ nejnižší hodnotu? • K popisu vztahu mezi mnoha čísly: sumarizujte celkový vzorec spíš než všechna jednotlivá čísla.Najděte nejlepší generalizaci pro data. Uveďte jí na příkladech čísel z tabulky grafu. A také, je-li, popište trend, který tomuto obecnému trenduneodpovídá (tj. výjimky z trendu/ vzorce asociace). Zdroj: [Miller 2005: 33]