220 likes | 323 Views
statistické testy. z náhodného výbÄ›ru vyvozuji závÄ›ry ohlednÄ› základnÃho souboru Äasto potÅ™ebuji porovnat dva výbÄ›ry mezi sebou, porovnat průmÄ›r náhodného výbÄ›ru a teoretickou stÅ™ednà hodnotu, poÄty pozorované a oÄekávané atd. liÅ¡Ã se hmotnost samic a samců?. mám hypotézu H: m f ≠m m
E N D
statistické testy • z náhodného výběru vyvozuji závěry ohledně základního souboru • často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného výběru a teoretickou střední hodnotu, počty pozorované a očekávané atd.
liší se hmotnost samic a samců? • mámhypotézu H: mf≠mm • předpokládám, že se liší • hypotézu nemůžu potvrdit (verifikovat) → zkusím zamítnout (falzifikovat) nulovou hypotézu H0: mf = mm • mají stejnou hmotnost pokud ji zamítnu, přijmu opačnou alternativní hypotézu HA (tu moji původní) • průměr mf, mm se téměř určitě bude lišit. Bude se lišit tak, abych mohl zamítnout H0?
statistické testy • z dat spočítám testovou statistiku, která má známé teoretické rozdělení (t, F, 2, U….) • lze určit, jakou hodnotu bude testová statistika mít, pokud platí H0 • na základě stupňů volnosti (d.f., s.v. – z počtu nezávislých pozorování) stanovím, jestli odchylky jsou jen dílem náhody - p
statistické testy • definuji si hladinu významnosti α – pravděpodobnost, že zamítnu H0 ačkoli platí – chyba prvního druhu • většinou 5 % (= 0.05) • pokud spočítané p je menší než α – zamítám H0 a tím „přijímám“ HA
statistické testy • jako výsledek statistického testu uvádím • hodnotu testové statistiky (t, F, 2, U…..) • stupně volnosti (degrees of freedom – d.f., s.v.) • dosažená hladina významnosti (p) • t = 3.414, d.f. = 28, p = 0.0215 • t (28) = 3.414, p = 0.0215 • t28 = 3.414, p = 0.0215
testuji, zda můj výběr má střední hodnotu shodnou s danou hodnotou – jednovýběrový t-test (H0: μ = k) • dlouhodobá průměrná denní teplota v červnu je rovna 17.5 °C. Byla letos stejná? • testuji, zda dva náhodné výběry (nezávislé) pochází ze stejného základního souboru (mají stejnou střední hodnotu) – dvouvýběrový t-test (H0: μA = μB) • hmotnost samic a samců,…. • testuji, zda rozdíl párových hodnot (závislých) je roven dané hodnotě (větš. 0) - párový t-test (H0:μ1- μ2 = 0) • hmotnost před a po zásahu, délka pravé a levé nohy,….
Studentův t-test • předpoklad použití: • normalita dat • pracuji s průměry, pokud mám dostatek dat, tak se rozdělení blíží normálnímu (centrální limitní věta) • pokud mám dat málo, většinou nemůžu zamítnout že data nepochází z normálního rozdělení • ne kategoriální či ordinální stupnice! • shodnost variancí – ale různé modifikace
Příklad: • měřím zadní stehno bruslařky a chci porovnat, jestli se liší samci a samice • chci zjistit, jestli se liší znalosti (= počet bodů v testu) žáků 2 gymnázií • měřím střevle ve dvou řekách a chci zjistit, jestli jsou stejně velké dvouvýběrový t-test
Příklad: • měřím zadní stehno bruslařky a chci porovnat, jestli se liší levé a pravé • chci zjistit, jestli se liší znalosti (= počet bodů v testu) žáků před a po prázdninách / přednášce • vážím lidi (myši) před a po snězení 0.1 kg cukru – je změna 0.1 kg? párový t-test
formální provedení • chci ukázat: střevle z povodí Stropnice jsou jinak velké než střevle z povodí Černé (musím zdůvodnit proč!) • formuluji hypotézu: H0: Výběry naměřených délek střevlí pochází z jednoho základního souboru (průměry se neliší) • alternativní hypotéza: HA: Výběry naměřených délek střevlí z povodí Stropnice i Černé nepochází z jednoho základního souboru (= střevle obou povodí jsou různě velké) • provedu testování, jak moc je pravděpodobné že oba výběry pochází ze stejného souboru • pokud je pravděpodobnost malá (p < 0.05), zamítnu H0 a akceptuji HA • pokud je p > 0.05, nemůžu zamítnout H0 (ale ani HA!)
dvouvýběrový t-test • rovnají se rozptyly? • shodnost rozptylů testuji F-testem (H0: s21 = s22) • pokud p větší než 0.05 – nemůžu zamítnout H0 rozptyly se rovnají (asi) • pokud p menší než 0.05 – můžu zamítnout H0 rozptyly se nerovnají (asi)
Statistica • data se zadávají jinak než v Excelu • každý sloupec je jedna proměnná • u t-testu je jedna kategoriální proměnná (zde povodí) a jedna kvantitativní (zde délka)
dvouvýběrový t-test, data ve sloupci pod sebou dvouvýběrový t-test, data ve sloupcích vedle sebe (jako v Excelu) párový t-test, data ve sloupcích vedle sebe (jako v Excelu) jednovýběrový t-test na střední hodnotu
výsledek testů se ukládá v samostatném souboru výsledek F-testu výsledek t-testu
Grafické vyjádření • pro znázornění t-testu je vhodný krabicový graf
výsledek • Průměrná velikost střevlí z povodí Stropnice a Černé se signifikantně liší (t (33) = -2.61, p = 0.013) • dobré je i uvést výsledek F-testu: Po nezamítnutí homogenity variancí (F(15,18) = 1.429, p = 0.466)….. • formálně – zamítám H0 o shodnosti velikostí střevlí z obou povodí….
test jednostranný a dvoustranný • testuji zda A se liší od B (H0: A=B) – dvoustranný • testuji zda A je menší / větší než B (H0: A≤B) - jednostranný
chyby statistických testů testu pravděpodobnost chyby je α = hladina významnosti rozhodnutí realita pravděpodobnost chyby je β = neznáme