320 likes | 516 Views
Neparametrické metody a analýza rozptylu (lekce 3-7). Statistika II FSV UK Petr Soukup ISS FSV UK. Neparametrické testy. Obecně testy nevyžadující tolik předpokladů jako parametrické testy (t-testy, analýza rozptylu apod. viz předpoklady normality, kardinalita proměnných apod.)
E N D
Neparametrické metody a analýza rozptylu (lekce 3-7) Statistika II FSV UK Petr Soukup ISS FSV UK
Neparametrické testy Obecně testy nevyžadující tolik předpokladů jako parametrické testy (t-testy, analýza rozptylu apod. viz předpoklady normality, kardinalita proměnných apod.) Některé testy obdoby výše zmíněných parametrickýcht-testů V SPSS: Analyze- Nonparametric tests Datový soubor pro demonstrace: nepar.sav
Typy neparametrických testů 1. Obdoby parametrických T- testů a analýzy rozptylu 2. Neparametrické testy pro nominální a dichotomické proměnné (Binomial Test, Chi-Square test, Runs test) viz pozdější lekce 3. Neparametrické testy pro rozložení proměnných (Kolmogorov-Smirnov test pro 1 a 2 výběry) viz též lekce 1 (1 výběrový)
1. Obdoby parametrických testů založené zejm. na mediánech a pořadí tedy určeny zejm. pro ordinální proměnné a malé soubory Pozn. předpoklady parametrických testů- kardinální veličina s normálním rozdělením (u t-testů nevadí, pokud je normalita porušena- testy jsou „robustní“) a alespoň 30 pozorování Předpoklady pro neparametrické testy: malé výběry (cca do 30) nekardinální charakter proměnných nebo kardinální proměnné s nenormálním rozložením (malých výběrů)
1. Obdoby parametrických testů a) Dva nezávislé výběry Mann- Whitney test SPSS: Analyze- Nonparametric tests-2 Independent Samples pro dva nezávislé výběry pro malé výběry, ordinální veličiny Ho: mediány ve výběrech se rovnají H1: mediány se liší v SPSS se rozhodujeme podle Sig Vysvětlení výpočtů přesných Sig. (modul Exact v SPSS pro výběry menší než 15 použití Exact Sig. (přesná signifikace) pro výběry větší použití přibližné statistické významnosti (Asymp. Sig.) Monte Carlo simulace namísto přesné hodnoty statistické významnosti s intervalem spolehlivosti (přednosti) Př. Rozdíl v míře spokojenosti mužů a žen
1. Obdoby parametrických testů a) Dva nezávislé výběry Další testy pro dva nezávislé výběry: Kolmogorov-Smirnov test, Wald-Wolfowitz test – testují nejen různou polohu dvou výběrů (medián) ale i tvar jejich rozdělení Moses extreme reactions test pro experimenty, zjišťuje zda v experimentální skupině jsou výrazná vychýlení oproti kontrolní (Pozn. v SPSS kontrolní skupina skupina 1 při definici skupin)
1. Obdoby parametrických testů b) Dva závislé výběry Wilcoxonův test pro dva závislé výběry SPSS: Analyze- Nonparametric tests-2 Related Samples pro ordinální veličiny, kdy neplatí normalita a je malý počet pozorování Ho: mediány u dvou závislých proměnných (výběrů) se rovnají H1: mediány u dvou závislých proměnných se liší př.: jednomu respondentovi 2 otázky, ptáme se po nějaké době toho samého respondenta znovu, ptáme se členů jedné rodiny, ptáme se na související otázky atd.
1. Obdoby parametrických testů b) Dva závislé výběry Další testy v SPSS: Sign (Znaménkový) – slabší síla oproti Wilcoxon,
1. Obdoby parametrických testů c) Více nezávislých výběrů Kruskal- Wallisův test SPSS: Analyze- Nonparametric tests-K Independent Samples obdoba analýzy rozptylu pro ordinální proměnné nebo pro kardinální proměnné, kde se rozptyly ve skupinách výrazně liší při teoretickém výpočtu se hodnota testového kritéria porovnává s tabulkou normálního rozdělení nebo s kvantity v přesných tabulkách Ho zamítáme méně často než při parametrickém testu (máme méně kvalitní data)- účinnost testu v porovnání s analýzou rozptylu cca 90% H0: mediány ve všech skupinách (výběrech) se rovnají H1: mediány alespoň dvou skupin se liší ;Po zamítnutí H0 nutno zkoumat které skupiny se liší
1. Obdoby parametrických testů c) Více nezávislých výběrů Jiné testy v SPSS: Mediánový test H0: mediány ve skupinách v populaci se rovnají H1: mediány alespoň dvou skupin se liší Méně silný test než K-W test Jonckheere- Terpstra test Ho: mediány se rovnají H1: mediány ve skupinách se postupně zvyšují vhodnější než Kruskal- Wallis- zamítáme Ho s pravděpodobností cca 95% v porovnání s analýzou rozptylu, když jsou mediány postupně narůstající
1. Obdoby parametrických testů d) Více závislých výběrů Friedmanův test V SPSS:Analyze- Nonparametric tests-K Related Samples Otázka: existuje rozdíl mezi mediány v jednotlivých závislých skupinách? H0: rozdělení ve více závislých výběrech jsou shodné H1: rozdělení v alespoň dvou závislých výběrech se liší po zamítnutí Ho musí následovat další test, abychom zjistili, které skupiny se mezi sebou liší- vytvoříme dvojice a následně použijeme např. Wilcoxův test (pro dva závislé výběry, cesta: Analyze- Nonparametric tests- 2 related samples)
1. Obdoby parametrických testů d) Více závislých výběrů Další testy v SPSS Kendall (stejné jako Friedman, jen navíc počítá Kendallův koeficient konkordance W od 0 do 1 čím více shoda v jednotlivých výběrech tím větší hodnota koeficientu) Cochranovo Q (Friedman pouze pro dichotomické proměnné) Př. Posouzení shody hodnocení u několika porotců, shoda
Stručně o názvu NÁZEV: Analýza rozptylu ALE CÍL: hledat rozdíly v průměrech několika skupin Anglicky ANOVA – ANalysis Of VAriance V SPSS několik procedur
Základní myšlenka IDEÁLNÍ PŘÍPAD 2 IDEÁLNÍ PŘÍPAD 1 JSOU ROZDÍLY V PRŮMĚRECH NEJSOU ROZDÍLY V PRŮMĚRECH ? JAK JE TO S ROZPTYLEM?
1. VNITROSHLUKOVÝ ROZPTYL Rozdíly ve složkách rozptylu IDEÁLNÍ PŘÍPAD 2 IDEÁLNÍ PŘÍPAD 1 VELKÝ VNITR. ROZPTYL MALÝ VNITR. ROZPTYL ? A CO ROZPTYL MEZI SHLUKY?
2. MEZISHLUKOVÝ ROZPTYL Rozdíly ve složkách rozptylu IDEÁLNÍ PŘÍPAD 2 IDEÁLNÍ PŘÍPAD 1 x x x x x x MALÝ MEZISHL. ROZPTYL RESP. 0 VELKÝ MEZISHL. ROZPTYL
Základní myšlenka IDEÁLNÍ PŘÍPAD 2 IDEÁLNÍ PŘÍPAD 1 MALÝ MEZISHL. ROZPTYL VELKÝ MEZISHL. ROZPTYL =? =? VELKÝ VNITR. ROZPTYL MALÝ VNITR. ROZPTYL PODÍL ROZPTYLŮ POMŮŽE URČIT, ZDA JE ROZDÍL ALESPOŇ MEZI 2 PRŮMĚRY STATISTICKY VÝZNAMNÝ
Základní hypotézy analýzy rozptylu nulová hypotéza (H0): všechny průměry ve sledovaných skupinách jsou stejné (obecně nulové hypotézy většinou tvrdí, že neexistují rozdíly resp. závislosti) alternativní hypotéza (H1): alespoň mezi dvěmi skupinami existuje statisticky významný (zobecnitelný) rozdíl Základní možnosti rozhodnutí ve statistickém testu: A) nezamítnutí nulové hypotézy B) zamítnutí nulové hypotézy (přijetí hypotézy alternativní), tedy alespoň mezi 2 skupinami existuje statisticky významný rozdíl v průměrech Pomůcka pro rozhodnutí: vypočtená hladina statistické významnosti (Sig., P, P-level, alfa-level apod.) Rozhodnutí: Při malé hodnotě (většinou do 0,05 zamítáme H0 při větších nezamítáme)
Ukázka na tabulce z analýzy rozptylu TEST Složky rozptylu
Předpoklady použití analýzy A. 1 kardinální proměnná (ZÁVISLÁ) – př. příjem, spokojenost, prestiž profese B. 1 proměnná určující příslušnost alespoň do tří skupin (FAKTOR) – př. vzdělání, region, typ zákazníka (Poznámka:v případě dvou skupin lze užít t-testy) C. Požadavek shodných rozptylů ve skupinách (Levene test), nezávislosti skupin
Ukázka na datech v SPSS Příprava dat (vzdělání a Internet) Zadání: Analyze»Compare Means»One-Way-Anova Základní výstupy a komentář Následné testy (Post-hoc) 2 typy Eta2 – měření důležitosti třídícího faktoru
Poznámky závěrem Lze posuzovat vliv více faktorů-vícefaktorová analýza rozptylu Lze kromě faktorů použít i kardinální proměnné (Covariate) jako nezávislé-viz GLM V případě malých výběrů a nedodržení předpokladů analýzy rozptylu lze užít neparametrické testy (K-W, Friedman)
1. Obdoby parametrických testů b) Dva závislé výběry (testy shody rozdlěení dvou závislýchg proměnných) McNemar-pouze pro dichotomické proměnné, posun názoru u sdružených (opakovaných) měření Marginal Homogenity rozšíření McNemar pro kategoriální proměnné s více než 2 hodnotami
2. Neparametrické testy pro nomin. a dichotomické proměnné Chi-kvadrát test o podílu (relativní četnosti) v SPSS Analyze- Nonparametric tests-Binomial Test H0: Podíl určitého jevu (v kategorii označené nižší hodnotou) v populaci je roven předem stanovené hodnotě (přednastaveno 0,5 možno změnit dle úlohy) H1: Podíl určitého jevu (v kategorii označené nižší hodnotou) není roven předem přednastavené hodnotě Př. Podíl voličů určité strany se rovná 10% jako loni, podíl firmy na trhu je 30 % jako loni atd.
Chi-kvadrát test o rozložení četností v SPSS Analyze- Nonparametric tests-Chi-Square test H0: Rozložení kategorií určité proměnné v populaci odpovídá naší představě (např. z loňského roku, jiné země atd.) H1: Rozložení kategorií určité proměnné v populaci neodpovídá naší představě Př. Rozdělení zákazníků dle zájmu o různé země v cestovní kanceláři je obdobné jako loni, rozložení politické přízně stranám rok po volbách odpovídá volebnímu výsledku atd. 2. Neparametrické testy pro nomin. a dichotomické proměnné
Test náhodnosti pořadí v SPSS Analyze- Nonparametric tests-Runs test Testuje, zda hodnoty dichotomické proměnné jdoucí po sobě jsou uspořádané náhodně H0: Uspořádání hodnot je náhodné (tedy hodnoty se náhodně střídají) např. při hodu mincí panna a orel H1: Uspořádání hodnot není náhodné Pozn. Lze testovat i náhodné střídání hodnot větších a menších než je medián modus, průměr nebo jiná uživatelem zadaná hodnota) v případě že proměnná je jiná než dichotomická 2. Neparametrické testy pro nomin. a dichotomické proměnné
3. Neparametrické testy pro rozložení proměnných Kolmogorov-Smirnov test pro 1výběr v SPSS Analyze- Nonparametric tests-One-Sample K-S test Testuje zda rozdělení námi vybrané proměnné odpovídá některému z teoretických (normální, rovnoměrné, poissonovo, exponenciální) H0: Rozdělení sledované proměnné odpovídá teoretickému rozdělení H1: Rozdělení sledované proměnné neodpovídá teoretickému rozdělení Pozn. Tento test je vhodný zejména pro ověřování předpokladů pro určité statistické procedury (např. normalita proměnné u analýzy rozptylu a t-testů)
3. Neparametrické testy pro rozložení proměnných Kolmogorov-Smirnov test pro 2výběry v SPSS Analyze- Nonparametric tests-2-Independent Samples Testuje zda rozdělení námi vybrané proměnné je shodné ve dvou skupinách H0: Rozdělení proměnné ve dvou nezávislých výběrech je shodné H1: Rozdělení proměnné ve dvou nezávislých výběrech není shodné Pozn. Tento test je vhodný zejména pro ověřování předpokladů pro určité statistické procedury (např. normalita proměnné u analýzy rozptylu a t-testů)