1 / 17

Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

UK FHS Historická sociologie. Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod. Doplnění z AKD II.: t-test a ANOVA - testování hypotéz pro průměry (rozptyly). Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014.

tannar
Download Presentation

Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. UK FHS Historická sociologie Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod Doplnění z AKD II.:t-test a ANOVA - testování hypotéz pro průměry (rozptyly) Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014

  2. Testování hypotéz pro průměry (rozptyly) Doplnění z AKD II.

  3. t-test: testy pro průměry • Jednovýběrový t-test (One-sample t-test) → rozdíl od populačního průměru μ0 (nebo porovnání s jinou testovou-teoretickou hodnotou). Hypotézou je, že střední hodnota normálního rozdělení (průměr), z něhož výběr pochází, se rovná μ0. (např. H0: výběrová hodnota průměrného příjmu se neliší od hodnoty 10,5 tis.) T-TEST /TESTVAL10.5 /VARIABLES prijem. • Párový t-test (Pair-sampled t-test) porovnání dvou průměrů v závislých výběrech, tj. při uspořádání pozorování ve dvojicích (měřené proměnné jsou na sobě závislé). Nejčastěji jde o zjišťování velikosti či obměny znaku u téže osoby ve dvou časových okamžicích(např. názor před a po shlédnutí filmu). A nebo porovnání průměrů u dvou věcně „srovnatelných“ proměnných, tj. hodnoty musí mít stejný rozsah. Např. intenzita sledování TV (q1_a) a intenzita chození do kina (q1_b) (H0: Průměry sou shodné.) T-TEST PAIRS q1_a WITH q1_b (PAIRED). • Dvouvýběrový t-test(Independent-samples t-test) → porovnání dvou průměrů v nezávislých výběrech, tj. test rozdílu průměrných hodnot znaku u dvou podskupin podle dichotomického znaku Např. Příjem (prijem) podle pohlaví (S30) (H0: Rozdíl mezi průměry v podskupinách je nulový.) Nejprve provedeme test rovnosti rozptylů → různý způsob výpočtu t-testu. T-TESTGROUPS s30(1 2)/ VARIABLES prijem.

  4. Dvouvýběrový t-test (Independent-samples t-test) T-TESTGROUPS Treat (0 1)/ VARIABLES Bloodprs. Ve výstupu máme k dispozici:1. konvenční t-test (Equal variances assumed)2. modifikovaný Welch's t-test (equal variances not assumed). Pokud je Levenův test statisticky signifikantní (tj. předpoklad o rovnosti rozptylů je porušen) → interpretujeme výsledek Welchova t-testu (equal variances not assumed). Jeho použití se ostatně obecně doporučuje. Output: Sig. > 0,05 → skupiny mají stejné rozptyly → čteme první řádek: konvenční t-test Výsledek t-testu: P-value < 0,05 → hypotézu o rovnosti průměrů nemůžeme přijmout.→ Krevní tlak je ve skupině s novým lékem (new drug) o 26 bodů nižší než ve skupině s placebem. Naměřená statistika t = (rozdíl průměrů / S.E. rozdílu průměrů) = 6,9 / 26,1 = 3,783Tabulková hodnota Studentova t-rozdělení: pro Alfa 5 % a 18 df je 2,101 < 3,783 → H0 zamítáme. Zdroj: [SPSS Base User's Guide 13.0: 358-59]

  5. Dvouvýběrový t-test: Předpoklady Test variables with extreme or outlying values should be carefully checked; boxplots can be used for this. • Note that the assumption of equal variances is not the only • assumption that may apply to a t-test. A t-test also assumes • normal distributions of the variable within each group (although • it's reasonably robust to this assumption). Depending on your • perspective on measurement, and the type of inferences desired, it • may also not be appropriate to use parametric statistics with • "ordinal" data. • For the equal-variance t test, • Pozorování musí být na sobě nezávislá • Náhodný výběr • Normální rozložení distribuce hodnot • Stejný rozptyl ve výběru jako v populaci • from normal distributions with the same population variance. • For the unequal-variance t test, the observations should be independent, random samples from normal distributions. • The two-sample t test is fairly robust to departures from normality. When checking distributions graphically, look to see that they are symmetric and have no outliers. Zdroj: [SPSS Base User's Guide 13.0: 358]

  6. Poznámka - neparametrické testy • Pokud nejsou dodrženy předpoklady (malé výběry, normalita rozložení, ordinální závislý znak atd.) pak bychom měli pro testy střeních hodnot používat neparametrických testů: • Independent-samples t-test → Mann-Whitney U test • One-Way ANOVA → Kruskal-Wallis one-way analysis of variance

  7. Pokud má nezávislá proměnná více kategorií než dvě pak alternativou pro dvouvýběrový t-test je jednoduchá analýza rozptylu (one-way ANOVA)

  8. One-Way Analysis of VarianceANOVA jednoduchá analýza rozptylu

  9. One-way ANOVA - předpoklady • Předpokladem je rovnost rozptylů v testovaných podskupinách. • Vizuálně ověříme pomocí ErrorBar grafuGRAPH /ERRORBAR (STDDEV 1)=prijem BY vzd4. • Zde tomu tak není: Vysokoškoláci mají větší rozptylv příjmech než ostatní. • (viz také Levenův test) Zdroj: [data ISSP 2007, ČR]

  10. One-way ANOVA – zadání Závislá proměnná (číselná-kardinální) ONEWAYprijem BY vzd4 /STATISTICS DESCRIPTIVESHOMOGENEITY /PLOT MEANS /POSTHOC=BONFERRONI ALPHA(0.05). *Zde máme navíc zadány: popisné statistiky, Levenův test homogeneity rozptylů, graf průměrů, a tzv. post-hoc test pro statistický test, které skupiny se navzájem odlišují (Bonferroniho test). Nezávislá proměnná (kategoriální)

  11. One-way ANOVA – Output (1) Popisné statistiky: průměry v podskupinách, STD, S.E., Intervaly spolehlivosti. Tyto výsledky posléze věcně interpretujeme (samotný F-test je až v další tabulce). Levenův test (Homogeneity of variance test)→ stejnosti rozptylů v podskupinách • H0 (shoda rozptylů) nemůžeme přijmout: P value < 0,05. Homogenita je porušena. → alternativní postupy: • Provedeme transformaci (např. zlogaritmování závislé proměnné) • použijeme neparatmetrickýtestKruskal-Wallis one-way analysis of variance • - také to můžeme ignorovat. ANOVA je vůči této podmínce poměrně robustní, pokud jsou podskupiny (v nezávislé proměnné) přibližně stejně velké.

  12. One-way ANOVA – Output (2): hlavní výsledek F-test F test: Sig. < 0,05 proto zamítáme H0 (o shodě průměru v podskupinách). Pozor: samotný tento F-test neříká, které podskupiny se liší navzájem, pouze víme, že minimálně jedna vzdělanostní skupina se liší v průměrném příjmu od ostatních. Proto dále provedeme: Post-hoc test a nebo porovnáme Intervaly spolehlivosti mezi skupinami.

  13. One-way ANOVA – Output (3)Post-hoc test (Bonferroni) → rozdíly mezi skupinami Test porovnává každou kategorii s každou, hvězdička * nám ukazuje, kde jsou rozdíly v průměru statisticky signifikantní na Alfa min. 5 %. Výsledek si můžeme přehledně znázornit: ZŠ VY SŠ VŠ (spojnice značí shodu průměru, na Alfa 0,05) Mnohem praktičtější je ale grafické zobrazení průměrů a intervalů spolehlivosti (viz dále).

  14. Intervaly spolehlivosti mezi skupinami (ERROR-BAR) GRAPH ERRORBAR (CI) prijem BY vzd4. Zde máme mnohem více informací, interval spolehlivosti v sobě zahrnuje informaci o rozptylu (standardní chybě) i počtu případů ve skupině. A nezapomeňte, že záleží, jaké je na ose Y rozpětí (SPSS v grafu „optimalizuje“ zobrazení).

  15. Neparametrické testy NPar Tests→ „pořadové (Rank) testy“ • K porovnání souborů statistických dat, u nichž není normální rozdělení pravděpodobností sledovaného znaku → náhodná veličina má neznámé rozdělení, které neumíme charakterizovat pomocí průměru a rozptylu (µ, s). • nulová hypotéza, se proto vztahuje jen k obecným vlastnostem rozdělení: (shodu tvaru křivky rozdělení v porovnávaných souborech dat). • Výpočty jsou založeny na pořadových číslech jednotlivých hodnot variační řady (→ pořadové testy), • Můžeme je proto použít i pro ordinální proměnné (hodnoty, které nemají přesný číselný význam, odráží jen pořadí)

  16. Neparametrický test:Two-Independent-Samples TestsMann-Whitneyův pořadový test Ekvivalent dvouvýběrového t-testu NPAR TESTS /M-W=prijem BY vzd4(1 4) /STATISTICS DESCRIPTIVES. Mann-Whitney Test Sig. < 0,5 → Nulovou hypotézu o shodě rozdělení (pořadí v podskupinách) veličin zamítáme.

  17. Neparametrický test:Kruskal-Wallis one-way analysis of variance Ekvivalent jednoduché analýzy rozptylu One-Way ANOVA NPAR TESTS /K-W=prijem BY vzd4(1 4) /STATISTICS DESCRIPTIVES. Kruskal-Wallis Test Sig. < 0,5 → Nulovou hypotézu o shodě rozdělení (pořadí v podskupinách) veličin zamítáme.

More Related