780 likes | 1.05k Views
UK FHS Historická sociologie. Analýza kvantitativních dat II. Testování hypotéz (1) a asociace mezi znaky v kontingenční tabulce Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 26/1/2014. OBSAH. 1. Princip testování statistických hypotéz Spojitá (číselná) data
E N D
UK FHS Historická sociologie Analýza kvantitativních dat II. Testování hypotéz (1) a asociace mezi znaky v kontingenční tabulce Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 26/1/2014
OBSAH 1. Princip testování statistických hypotéz Spojitá (číselná) data 2. Testování hypotéz rozdílu mezi dvěma průměry a rozptyly 3. Kategoriální data → Chí-kvadrát testy dobré shody: • homogenity četností kategorií jedné proměnné • asociaci dvou znaků v kontingenční tabulce • Chíkvadrát test pro četnosti kategorií v rámci jedné proměnné(One-dimensional "goodness of fit" test) 4. Souvislosti uvnitř kontingenční tabulky: Adjustovaná residua a znaménkové schéma (poznámky, viz jinou presentaci) 5. Vícerozměrná analýza & statistické testování hypotéz (několik poznámek) 6. Třídění třetího stupně a elaborace vztahů (několik poznámek) 7. Neparametrické testy 8. Webové nástroje pro analýzu Upozornění: Jednou tato presentace bude rozdělena min. do tří (1+2+7; 3+4; 5+6).
Proč testujeme hypotézy?(statistická indukce) • Protože pracujeme (většinou pouze) s výběrovými daty → potřebujeme vědět, zda (a do jaké míry) to, co jsme naměřili ve vzorku platí v celé populaci, tj. zda výsledky ze výběrového souboru lze zobecnit na celou populaci. Zdroj: [Příručka pro sociology 1980: 218-220]
Statistická kritéria a ověřování hypotéz • K ověřeni nulové hypotézy se používá specielně zvolená náhodná veličina - statistické kriterium (K), její přesné rozdělení je známé - je v tabulkách. • Pro kritérium K se volí kritická oblast - soubor hodnot kritéria, pro něž odmítáme nulovou hypotézu. Bod K je kritický bod (Kkr) tehdy, když odděluje kritickou oblast od oblasti, v níž hypotézu přijímáme. • Přijetí/odmítnutí hypotézyprovádíme na základě odpovídajícího statistického kriteria s určitou pravděpodobností. Zdroj: [Příručka pro sociology 1980: 218-220]
Statistická kritéria a ověřování hypotéz • Předpokládáme, že nulová hypotéza je pravdivá tehdy, jestliže pravděpodobnost toho, že kriterium K bude mít hodnotu vyšší než Kkr tzn. že se bude nacházet v kritické oblasti, se rovná zvolené pravděpodobnosti → hladina významnosti Zdroj: [Příručka pro sociology 1980: 218-220]
Obecný postup přijetí / odmítnutí nulové hypotézy • zvolíme odpovídající kritérium (hl. dle typu znaku), • vypočítáme pozorovanou hodnotu kriteria KH(vycházíme ze zjištěného empirického rozdělení), • zvolíme hladinu statistické významnosti(většinou 0,05 nebo 0,01) • Z tabulek rozděleni kritéria K pro danou hladinu významnosti najdeme kritický bod KKR • Jestliže: KH> Kkr → nulovou hypotézu H0 odmítáme KH< Kkr → H0nemůžeme zamítnout. Alternativně pomocí software spočítáme p-hodnotu(viz dále). Tento postup ovšem nelze používat mechanicky, protože …
Statistická hypotéza • je tvrzení o rozdělení pozorované náhodné veličiny,např. o rozdělení nějaké statistiky (parametru jako průměr, podíl, rozptyl) náhodného výběru. • Pokud rozdělení výběrové statistiky známé, pak lze hypotézu formulovat přímo jako tvrzení o hodnotě parametru příslušného rozdělení (např. že určitá politická strana má podporu 25 %). • Hypotéza se týká celého základního souboru, z nějž jsme vybírali (nebo který experimentálně zkoumáme), např. všech dospělých osob v ČR, • ale její testování se odehrává pouze na vybraných jedincích, které jsme skutečně zkoumali. • Smyslem testování je správně zobecnit z vybrané podmnožiny (výběru) na celek. [Soukup 2010: 79]
Testování statistických hypotéz • Z výběrových dat vypočteme testovou statistiku • na základě porovnání s kvantily rozdělení této statistiky (za předpokladu platnosti nulové hypotézy) • zjistíme, zda je na zvolené hladině spolehlivosti možno nulovou hypotézu zamítnout. [Soukup 2010: 79]
Platnost H0: Testová a kritická hodnota • Pokud vypočítaná testová < kritická (tabulková) hodnota → nelze zamítnout H0(→ „rozdíly v populaci nejsou“) K testování hypotéz podrobněji viz [Hendl 2006: 176-188]
Testování hypotéz Statistická hypotéza H0: „žádný rozdíl“ (variabilita v datech je náhodná) → testem hodnotíme sílu dokladu proti tomuto předpokladu H1: alternativní, platí, když neplatí H0 „existence rozdílů / závislosti“ • Hladina významnosti α= pravděpodobnost, že zamítneme H0, ačkoliv ona platí. → „míra naší ochoty smířit se s výskytem chyby“. Obvykle 0,05 či 0,01, což je ale pouze konvence. • Hodnota významnosti p- pravděpodobnost realizace hodnoty testovací statistiky, pokud platí H0. Dosažená hladina hodnoty p <α ukazuje na neplatnost H0. Hodnota p-value vyjadřuje nejmenší hodnotu α, při které ještě zamítneme H0 a přijmeme H1(alternativní hypotézu).
Platnost hypotéz o základním souboru a možná rozhodnutí na základě testování • chyba I. druhu → když je nulová hypotéza zamítnuta, přestože H0 platí. • chyba II. druhu → když nulová hypotéza zamítnuta není, přestože neplatí. • Kvalita testu je dána pravděpodobnostmi, s jakými tyto chyby mohou nastat (α a β v tabulce). • Pro výběrový soubor nelze současně minimalizovat pravděpodobnosti obou druhů chyb. • Proto se statistici rozhodli omezit riziko chyby prvního druhu na rozumnou velikost, nejčastěji na 5 % (α = 0,05). Chyba I. druhu → H0 ve skutečnosti-v populaci platí, ale my jí ale zamítneme. Chyba II druhu → H0 neplatí, ale my jí nezamítneme (přijmeme). [Soukup 2010: 80]
Testování hypotéz • Zamítání nulové hypotézy se tedy děje nejčastěji s 5% rizikem,tj. stanovujeme pravděpodobnost zamítání nulové hypotézy při její platnosti v základním souboru na maximální hodnotu 0,05. • Protože chybu druhého druhu nemáme jasně pod kontrolou, volíme v případě, že nedokážeme na základě hodnoty testové statistiky zamítnout nulovou hypotézu, opatrný závěr: „nezamítáme H0“ místo závěru „zamítáme H1 a přijímáme H0“. [Soukup 2010: 80]
Normální rozložení ukazující hladinu významnosti α = 0,05 • Hladinou významnosti rozumíme pravděpodobnost zamítnutí nulové hypotézy, pakliže ve skutečnosti (v základním souboru-populaci) platí. • Pokládat hodnotu za významnou na hladině 0,05 znamená, že má pravděpodobnost 0,05 nebo menší, že se vyskytne na jednom z konců normálního rozložení. Poněvadž je rozložení symetrické, jsou oba konce rozložení stejné a hladina významnosti 0,05 znamená useknutí konců ukázané v grafu → vyšrafovaná plocha je pravděpodobnost 0,05/2 = 0,025. • Hladina významnosti 0,05 znamená, že u 100 výběrů bude mít 5 z nich větší než očekávanou hodnotu pozorovaného rozdílu způsobenou náhodně. [Köniová a kol. 1988: 140]
Co znamená „statisticky významný výsledek“? • Tvrzeni, že výsledky jsou statisticky významné na hladině a = 0,05 má přesně tento (a žádný jiný) význam [Rabušic, Soukup 2007: 381]: • U náhodného reprezentativního výběru znamená, že riziko nesprávného zobecnění z náhodného reprezentativního výběru na cely základní soubor je nejvýše 0,05 (tj. 5 %).Např. riziko, že v základním souboru studentů není procento spokojenosti vyšší než 50 %. • Jde o riziko tzv. chyby I. druhu, že nesprávně zamítneme statistickou nulovou hypotézu H0. Tj. zde hypotézu, že rozdíl mezi skutečným procentem spokojených v základním souboru a zadaným procentem 50 % je nulový. • Chybně zamítneme hypotézu, že rozdíl mezi hodnotou u výběru (60 %) a pesimisticky předpokládanou možnou hodnotou v základním souboru (50 %) je jen náhodný. Tedy chybně učiníme závěr, že z výběru lze provést zobecnění (zde zobecnění, že v souboru studentů je počet spokojených větší než 50 %). • Statistická významnost tedy znamená pouze, že výsledek je „‚statisticky zobecnitelný z reprezentativního-randomizovaného výběru na základní soubor, a to se zvoleným rizikem. [Blahuš 2000]
Testování hypotéz -důležité vlastnosti a omezení • p-hodnoty nevypovídají nic o síle evidence → mj. jsou závislé na velikosti výběru • Nezamítnutí H0 neznamená její důkaz.
Statistická indukce a testování hypotéz → zobecňování výsledků z výběrového souboru na základní soubor Při tom musí být splněny předpoklady: • velkého náhodného výběru (n > 30) • z dostatečně velké populace (min 100x větší než plánovaný vzorek), • musí jít o výběr, pro celou populaci (census) nedává smysl Podrobně viz [Soukup, Rabušic 2007].
Statistická významnost a síla testu • Chyba I.druhu. Hodnota je pravděpodobnost zamítnutí nulové hypotézy za předpokladu, že ona platí. • Chyba II. druhu.Hodnotaje pravděpodobnost nezamítnutí nulové hypotézy za předpokladu, že ona neplatí. • Síla testunebo-li1-je pravděpodobnost zamítnutí nulové hypotézy za předpokladu, že ona neplatí.
Síla testu Síla testu (S) = 1 - , tj. jako pravděpodobnost, že test správně zamítne hypotézu, která ve skutečnosti neplatí.
Síla testu je určena třemi faktory • Velikostí účinku (ES):hodnota efektu (např.rozdíl mezi průměry nebo velikost korelace mezi proměnnými). • Alfa ():volba menší hodnoty, čím menší tak zmenšujeme sílu. Nejčastěji = 0.05. • Velikost výběru:větší výběr → větší síla.Proto při velkých výběrech i malou odchylku hodnotíme jako statisticky významnou. A na to pozor!
Velikost chyby I. a II. druhu Velikost chyby I. a II. druhu a síly testu je spolu úzce provázána. Pokud vzrůstá velikost jedné chyby, klesá velikost druhé a naopak. Jejich vzájemný vztah je také ovlivněn velikostí výběru a velikostí efektu:
Statistické testy Nejčastější statistické testy (dle testovacího kritéria): 1. Parametrické – jsou vázány splněním předpokladů o parametrech základního souboru, hl. testovaná proměnná je v základní souboru normálně rozdělena: Z-test → porovnání průměrů, když známe směrod. odchylku populace T-test → porovnání průměrů, stejné rozptyly neznáme směrod. odchylku populace F-test → porovnání rozptylů (pro více kategorií např. Oneway ANOVA) 2. Neparametrické – nejsou závislé na splnění předpokladů ohledně základního souboru:Chí-kvadrát, Komolgorův-Smirnovův rozdělení ve 2populacích, Mann-Whitney test (dvouvýběrový t-test Mediánu ve dvou subpopulacích) Wilkoxnův, … Konkrétní volba testu a jeho použití závisí mj. na charakteru/typu proměnné. Viz standardní učebnice statistiky, např. [Hendl 2006]
Statistické testy - Jednostranné testy (test zda hodnota leží napravo/nalevo, tj. vyšší /nižší, od očekávané hodnoty) • Dvoustranné testy: odchylky od H0 bez ohledu na směr (vyšší /nižší hodnota)
Testování hypotéz o statistické významnosti rozdílu mezi dvěma aritmetickými průměry a rozptyly
Z-test • Pro testování parametrů kvantitativních proměnných (průměry, ale i rozdíly hodnot nebo korelační koeficienty) • Podmínky: Náhodný výběr větší než 30, normální rozložení znaku a známe rozptyl v základním souboru (populaci) • Výběrový X – Populační (testovaný) μ průměr Pokud vypočítaná testová < kritická (tabulková) hodnota → nelze zamítnout H0
Normální rozložení a Z-skóry Normované (standardizované) normální rozdělení N(0;1) má parametry: Průměr µ =0 Směr.odch. σ = 1 (průměr = medián = modus) Násobky Směrodatné odchylky http://www.stat.tamu.edu/~west/applets/ci.html
Z-test příklad (neznáme populační rozptyl) Vypočtená hodnota Z je větší než obě tabelované hodnoty(1,96 pro α = 5 % i 2,58 pro α = 1 %), proto nulovou hypotézu zamítáme. Německé abstrakty jsou statisticky významně kratší než všechny abstrakty. [Köniová a kol. 1988: 149]
t-test: testy pro průměry • Jednovýběrový t-test (One-sample t-test) → rozdíl od populačního průměru μ0 (nebo porovnání s jinou testovou-teoretickou hodnotou). Hypotézou je, že střední hodnota normálního rozdělení (průměr), z něhož výběr pochází, se rovná μ0. (např. H0: výběrová hodnota průměrného příjmu se neliší od hodnoty 10,5 tis.) T-TEST /TESTVAL10.5 /VARIABLES prijem. • Párový t-test (Pair-sampled t-test) porovnání dvou průměrů v závislých výběrech, tj. při uspořádání pozorování ve dvojicích (měřené proměnné jsou na sobě závislé). Nejčastěji jde o zjišťování velikosti či obměny znaku u téže osoby ve dvou časových okamžicích(např. názor před a po shlédnutí filmu). A nebo porovnání průměrů u dvou věcně „srovnatelných“ proměnných, tj. hodnoty musí mít stejný rozsah. Např. intenzita sledování TV (q1_a) a intenzita chození do kina (q1_b) (H0: Průměry sou shodné.) T-TEST PAIRS q1_a WITH q1_b (PAIRED). • Dvouvýběrový t-test(Independent-samples t-test) → porovnání dvou průměrů v nezávislých výběrech, tj. test rozdílu průměrných hodnot znaku u dvou podskupin podle dichotomického znaku Např. Příjem (prijem) podle pohlaví (S30) (H0: Rozdíl mezi průměry v podskupinách je nulový.) Nejprve provedeme test rovnosti rozptylů → různý způsob výpočtu t-testu. T-TESTGROUPS s30(1 2)/ VARIABLES prijem.
Kategoriální data Testování rozložení kategorií u jedné proměnné a asociací v kontingenční tabulce
Kontingenční tabulka a statistické testování Statistické míry a testování • Nezávislost = oba znaky navzájem neovlivňují v tom, jakých konkrétních hodnot nabývají • Homogenita (shodnost struktury) = očekávané četnosti jsou v políčcích každého řádku ve stejném vzájemném poměru bez ohledu na konkrétní volbu řádku • → test dobré shody = porovnání očekávaných četností v jednotlivých polích tabulky - za předpokladu, že hodnoty obou sledovaných znaků na sobě nezávisí - a skutečných četností. • Pokud hypotéza nezávislosti (resp. homogenity) platí, má testová statistika přibližně rozdělení Chíkvadrát o (r-1)(s-1) stupních volnosti. Hodnota testové statistiky se tedy porovná s kritickou hodnotou (kvantilem) příslušné hladiny významnosti.
Chí-kvadrát testy: test dobré shody • Test pro homogenitu distribucí mezi kategoriemi znaku/ů • Pro nominální znaky (i ordinální a kardinální) • Nevyžaduje znalost předchozího rozdělení znaku • Očekávané-teoretické frekvence lze získat buď z našich dat (u kontingenční tabulky) nebo od jinud, např. z výsledků jiného výzkumu. • Odpovídá na otázku, zda jsou rozdíly mezi empirickými (pozorovanými - fO) četnostmi a teoretickými (očekávanými -fE) četnostmi náhodné nebo ne. • Počet stupňů volnosti: df =K -1 K =počet kategorií pro kontingenční tabulku df = (r-1) (s-1) r = počet řádků s = počet sloupců v tabulce
Testovací kritérium χ2má rozdělení dle stupňů volnosti Vyzkoušejte na:http://www.stat.tamu.edu/~west/applets/chisqdemo1.html
V zásadě existují dvě aplikace Chíkvadrát testu • Test dobré shody = Homogenita četností kategorií v rámci jedné proměnné (nebo obecněji odchylka od očekávané/teoretické četnosti) → One-dimensional "goodness of fit" test Na tom si dále vysvětlíme princip 2. Test nezávislosti 2 znaků → Asociace dvou znaků v kontingenční tabulce (3.) Aplikace One-dimensional "goodness of fit" testu s teoretickými četnostmi „od jinud“ (z jiného výzkumu / teorie) → varianta na 1.
Chíkvadrát test odpovídá na otázku, jsou-li rozdíly mezi empirickými a teoretickými četnostmi (ve výběrových datech) náhodné nebo ne.
Chí-kvadrát testy: test dobré shody • Test pro homogenitu distribucí mezi kategoriemi znaku/ů • test dobré shody = shody relativních četností ni/n a hypotetických pravděpodobností. • Pro nominální znaky (i ordinální a kategorizované kardinální) • Nevyžaduje znalost předchozího rozdělení znaku • Očekávané frekvence: dle rozložení kategorií 1 znaku nebo v kontingenční tabulce vztah 2 znaků • Odpovídá na otázku, zda jsou rozdíly mezi empirickými (pozorovanými - fO) četnostmi a teoretickými (očekávanými -fE) četnostmi náhodné nebo ne. • Počet stupňů volnosti df= (r-1) (s-1) nebo K - 1 pro jednodim.test r = počet řádků s = počet sloupců v tabulce Nebo také se lze setkat s určením stupňů volnosti df = k - 1 – r, kde k - počet kategorií r - počet parametrů předpokládaného rozdělní, kdy v tabulce třídění 1. stupně je r =2
1. Chí-kvadrát test dobré shody homogenity četností kategorií v rámci jedné proměnné Obecně: ověřujeme odchylku od očekávané/teoretické četnosti Očekávané-teoretické četnosti určujeme buď na základě rozložení v datovém souboru nebo dle „teorie“, např. porovnání s hodnotou z jiného výzkumu
1. Test dobré shody - jednodimenzionální Chí-kvadrát test: Shoda s teoretickými četnostmi Hypotéza o rovnoměrném zastoupení kategorií 1. znaku. Například: shodné zastoupení kategorií věku Pozorované absolutní četnosti kategorií věku (tabulka třídění 1.stupně, absolutní četnosti): 1. Velmi nízký 5 2. Střední 10 3. Vysoký 9 Celkem 24 H0: počet respondentů je ve všech kategoriích stejný Očekávané (teoretické) četnosti = 24 : 3 = 8.
1. Chí-kvadrát test pro homogenitu kategorií uvnitř jednoho znaku H0: Počet respondentů je ve všech kategoriích stejný. → Ověřujeme model stejných pravděpodobností (equal probabibilities) Příklad. pozorované absolutní četnosti kategorií: Očekávané (teoretické) četnosti = 24 : 3 = 8 → Stejná proporce zastoupení kategorií(33,3 % / 33,3 % / 33,3 %) Pozorované: Očekávané: Vypočítanou hodnotu χ2 porovnáme s kritickou hodnotou z tabulek (viz dále) [Příručka pro sociology 1980: 221-222]
Jednodimenzionální Chí-kvadrát test dobré shody • Nulová hypotéza vyjadřuje očekávání, že pozorované a očekávané četnosti se neliší. • Určení stupňů volnosti df = k - 1 • k - počet kategorií • Kritický bod z tabulky statistické významnosti pro hladinu statistické významnosti Alpha 0,05 • Pokud vypočítaná χ2 < χ2 kritická hodnota→ nelze zamítnout H0 (= četnosti jsou mezi kategoriemi stejné).
Zpět do příkladu Kritickou hodnotu χ2 najdeme pro v tabulkách pro zvolenou hladinu významnosti αa počtu stupňů volnosti dfzde: df = k – 1 kde k počet kategorií znaku ar je počet parametrů předpokládaného rozdělení, které hodnotíme na základě výběrového souboru (např. pro normální rozdělení dva parametry: μ a s2) Zde je to 3 kategorie znaku a 1 parametr (relativ. podíl): df = 3 – 1 = 2 Najdeme tabulkovou kritickou hodnotu χ2krit= 5,991 (viz dále) Protože ta je vyšší než námi naměřená χ2 = 1,74 → rozložení četností odpovídá H0 → nemůžeme H0 zamítnout, tj. rozdíly mezi skupinami v populaci nejsou. Obecně v kontingenční tabulce (pro dva znaky) je počet stupňů volnosti df = (r-1) (s-1) (viz dále) r = počet řádků s = počet sloupců v tabulce
Určení kritické hodnoty χ2 v tabulce Hladina významnosti (α) Stupeň volnosti
a nebo vyhodnocení podle hodnoty významnosti p-value Spočítali jsme: Chisq = 1,74 df =2 Při převodu testovací statistiky (zde Chisq) na p-hodnotu hledáme plochu pod normální křivkou pro hodnoty nad námi naměřenou hodnotou (zde 1,74). V grafu tak odečteme: Plochy pod hustotou na obou stranách rozdělení - každá má velikost 0,2095 násobíme 2x, protože jde o dvoustranný test (musíme brát v úvahu oba konce statistiky) p-hodnota = 0,2095 x 2 = 0,419 Ta je vyšší než 0,05 proto nulovou hypotézu nemůžeme zamítnout. Výpočet lze znázornit na: http://www.stat.tamu.edu/~west/applets/chisqdemo.html P-hodnotu nám spočítá většina statistických programů. p-hodnota je pravděpodobnost výskytu námi spočtené hodnoty testové statistiky, za předpokladu, že platí nulová hypotéza. Vyjadřuje nejmenší hodnotu α, při které ještě zamítneme H0 a přijmeme H1. Více k principu hladiny významnosti při testování hypotéz viz [Hendl 2009: 181-191], pro Chíkvadrát test [314-323].
Chí-kvadrát test → test nezávislosti polí v tabulce • Nulová hypotéza „o nezávislosti“ odpovídá na otázku, zda jsou rozdíly mezi empirickými-pozorovanými a teoretickými četnostmi náhodné nebo ne. • Očekávané četnosti lze získat z hodnot v populaci nebo porovnávat s teoretickou hodnotou, např. z jiného výzkumu. • Nejčastěji třídíme údaje podle dvou nebo více znaků v kontingenční tabulce. (viz dále) • Lze aplikovat na již existující agregovaná data (publikované tabulky apod.) • Příklad: porovnání vzdělanostní struktury v kohortě 50-64 a 65-79 (data ISSP 2007)
2. Chí-kvadrát test pro asociaci dvou znaků v kontingenční tabulce → hypotéza homogenity (nezávislost mezi zkoumanými znaky) Očekávané-teoretické četnosti → předpoklad nezávislosti četností znaku A a B, určujeme je na základě rozložení v datovém souboru: jsou dány marginálními distribucemi sledovaných znaků Řešíme podobný problém jako v analýze rozptylu (porovnání shody průměrů v podskupinách).
Příklad: Čtení knih a vzdělání Očekávaná četnost pro dané políčko = násobek odpovídajících marginálních četností vydělíme celkovou sumou četností Např. pro fE11 je 645*173/1202 = 92,8 Postup pro ruční výpočet
V SPSS: Očekávané četnosti (Expected count) a empirické (=absolutní) četnosti (Count)Příklad: Čtení knih a vzdělání
Příklad: Čtení knih a vzdělání df = (5-1)(3-1) = 8 při Alpha 0,05 naměřená hodnotaχ2 =112,17 >χ2krit= 15,507 → nemůžeme přijmout (zamítáme) H0„o nezávislosti“,tj., že ve čtení nejsou rozdíly mezi vzdělanostními kategoriemi → alespoň u jedné kategorie (buňce v tabulce) v porovnání s ostatními kategoriemi tabulky se liší očekávané od empirických četností (Test říká, že tuto skutečnost nalezneme s 95 % jistotou v celé populaci.) Místo porovnání hodnoty testovacího kritéria s kritickými – tabulkovými hodnotami se pro rozhodování o nulové hypotéze používá takép-hodnota, či significance kterou zjistíme pomocí statistického software (princip viz dále). p < αzamítáme H0 p > α nelze zamítnout H0
P-value – úroveň statistické významnosti (level of significance) • Hodnota p-value vyjadřuje nejmenší hodnotu α, při které ještě zamítneme H0 a přijmeme H1 (alternativní hypotézu). • Ve výstupech SPSS: Asymp. Sig. (2-sided) • Formálně tedy stačí porovnat zvolené α s vypočtenou hodnotou p a zamítnout H0, pokud α > p, a naopak α < p. • Výstupy z počítačových programů bohužel svádí k tomu, abychom hladinu α předem nevolili a hodnotili věrohodnost hypotéz až podle vypočtené hodnoty p. [Hebák 1995: 84-85] • Hladina významnosti α= pravděpodobnost, že zamítneme H0, ačkoliv ona platí. → „míra naší ochoty smířit se s výskytem chyby“.
Zpět do příkladu p-value – úroveň statistické významnosti Chis = 112.2 df = 8
Kontingenční tabulka a testy dobré shody – pozor na: • Pro použití testů založených na testu dobré shody (test nezávislosti nebo homogenity) je třeba, aby se v tabulce nevyskytlo méně než 20 % políček, v nichž by očekávané četnosti byly menší než 5.V případě, že se tak stane, můžeme zvážit transformaci — sloučení některých méně obsazených kategorií(např. "ano" a "spíše ano"). • Testování hypotéz můžeme provádět pouze na výběrovém souboru, tj. ne na celé populaci (census), navíc data musí být pořízena náhodným výběrem.