290 likes | 356 Views
Testov ání hypotéz Distribuce náhodných proměnných. Dominantní mládě ve snůšce: samec nebo samice?. Domnívám se, že šanci stát se dominantním mládětem nemají samci a samice stejnou Získal jsem údaje z dvaceti náhodně vybraných hnízd
E N D
Dominantní mládě ve snůšce:samec nebo samice? • Domnívám se, že šanci stát se dominantním mládětem nemají samci a samice stejnou • Získal jsem údaje z dvaceti náhodně vybraných hnízd • Ve 13 případech byl dominantním mládětem samec, v 7 hnízdech to byla samice • Jsou tyto údaje ve shodě s mojí hypotézou?
Nulová hypotéza - 1 • Ani jasně formulovanou hypotézu nemohudokázat. Pokud je ale ve zjevném rozporu s daty, mohu ji zamítnout (nemusí to být správné rozhodnutí) • Užívám proto „trik“ a formuluji tzv. nulovou hypotézu (H0), která je opakem (doplňkem) mé odborné hypotézy • H0 bývá jednoznačnější než výzkumná hypotéza, např. „neliší se“ – „není změna“: zde „četnost samců i samic je shodná“ P(samec) = P(samice)= 0.5
Nulová hypotéza - 2 • Pokud by byla H0 správná, stejně nemohu očekávat, že ve výběru 20 hnízd bude vždy 10 hnízd s dominantní samicí / samcem • Potřebuji zjistit, s jakou pravděpodobností se tak velká odlišnost (13 : 7) objeví, pokud H0 platí • Je-li ta pravděpodobnost (P) malá, dám přednost HA (zamítnu H0), s rizikem chyby rovným P • Pokud H0 zamítnu, zvýším tím důvěru ve „svoji“ odbornou hypotézu (HA nebo H1)
Shoda výsledku 13:7 s H0 • Shodu svých dat s H0 vyjádřím číselně pomocí testové statistiky (test statistic, testovací kritérium). V mém případě je to: • X2 = (13-10)2/10 + (7-10)2/10 = 1.8 f - absolutnífrekvence, tj. počty nezávislých pozorováník – počet kategorií (zde 2)
Pravděpodobnost takové shody • Tuto pravděpodobnost mohu určit například „počítačovým experimentem“ • H0 „předstírám“ tak, že volím mezi 1 (samice) a 0 (samec) s p=0.5 dvacetkrát. Získám tak jeden výběr, o kterém vím, že odpovídá H0 – odpovídá nulovému modelu • Pro tento výběr také spočítám testovou statistiku X2 a celý proces opakuji třeba stokrát ...
Simulace nulového modelu • nebo taky milionkrát ... • a v tom případě můžeme zúžit intervaly ... • pokud bychom v každém výběru měli místo 20 třeba 35 hnízd, histogram X2 se nezmění, tvar závisí jen na k – počtu kategorií
Densitní distribuční funkce • Histogram konverguje do densitní distribuční funkce, pod její křivkou je plocha rovna 1 • To je pravděpodobnost, že X2 bude >= 0 • Mne ale zajímá, jak pravděpodobná je hodnota >= 1.8 • Kumulativní densitní distribuční funkce: P= 1.0 – 0.82 = 0.18 • Chi-square distribuce s 1 stupněm volnosti c21
Lze H0 zamítnout? • P = 1.0 – 0.82 = 0.18 (0.1797) • Pokud bych H0 zamítl, je pravděpodobnost, že jsem se tím dopustil chyby, rovna 0.18 – proto H0 nezamítám. Nemohu ale říct, že jsem ji „dokázal“. Data s ní jen nejsou v rozporu • Kdybych v přírodě našel mezi 20 hnízdy patnáct, ve kterých je dominantní samec, hodnota X2 by byla (25/10)+(25/10) = 5.0 • Odpovídající P by bylo 0.025: zamítl bych H0
Tradiční testování hypotéz • Dříve, než znám výsledek testu, si zvolím hladinu významnosti a • Jen pokud je P<= a, zamítám H0 • Tento postup lze alternativně popsat tak, že si pro zvolené a najdu odpovídající hodnotu distribuce, ze které testová statistika pochází za platnosti H0 – tzv. kritickou hodnotu • Pokud je testová statistika větší než kritická hodnota, zamítám H0
Chyba 1. a 2. druhu • Dosažená hladina významnosti P představuje pravděpodobnost, že udělám chybu zamítnutím H0, která je ve skutečnosti správná (pravdivá): chyba 1. druhu • Pozor! Z toho nevyplývá, že by 1-P byla pravděpodobnost, že se rozhodnu správně – protože P je podmíněno pravdivostí H0 • Mohu udělat chybu i tím, že H0 nezamítnu, přestože ve skutečnosti není pravdivá: chyba 2. druhu
Chyby v rozhodování o H0 • Pravděpodobnost chyby 2. druhu (b) obvykle neznáme. 1- b je síla testu • Čím větší nároky kladu na a (0.05 0.01 0.001), tím vyšší bude b • b klesá i s rostoucím počtem pozorování Chyba1. druhu Zamítám H0 Správné rozhodnutí Chyba2. druhu Nezamítám H0 Správné rozhodnutí
Co se může stát: házím korunou (1) Skutečnost:koruna je OK, tj. P0=P1=0,5 (ALE TO MY NEVÍME) Ze 100 hodů dostávám 55:45 Kritická hodnota c21 je pro a= 0.05 rovna 3,84 X2=(55-50)2/50+(45-50)2/50 = 1.0 (t.j. < 3,84) Nemohu zamítnout nulovou hypotézu. A to je správné rozhodnutí.
Co se může stát: házím korunou (2) Skutečnost: koruna je OK, tj. P0=P1=0,5 (ALE TO MY NEVÍME) Ze 100 hodů dostávám 60:40 Potom X2=(60-50) 2/50+(40-50) 2/50 = 4,0 (t.j. > 3,84) Zamítám nulovou hypotézu na 5%-ní hladině významnosti.Udělal jsem chybu prvního druhu - Type I error (a pověsím nevinnýho). Pravděpodobnost této chyby známe: je to . Hladina významnosti je tedy podmíněná pravděpodobnost zamítnutí nulové hypotézy – podmíněná tím, že nulová hypotéza platí.
Co se může stát: házím korunou (3) Skutečnost:koruna je falešná, P0=0,6; P1=0,4 (ALE TO MY NEVÍME) Ze 100 hodů dostávám 60:40 Potom X2=(60-50)2/50 + (40-50)2/50 = 4,0 (t.j. > 3,84) Zamítám nulovou hypotézu na 5%-ní hladině významnosti Správné rozhodnutí (a pověsím lumpa)
Co se může stát: házím korunou (4) Skutečnost:koruna je falešná, P0=0,6; P1=0,4 (ALE TO MY NEVÍME) Ze 100 hodů dostávám 55:45 Potom X2=(55-50)2/50+(45-50)2/50 = 1,0 (t.j. < 3,84) Nemohu zamítnout nulovou hypotézu. Udělal jsem chybu druhého druhu - Type II error (a osvobodím lumpa). 1 - je síla testu(power of the test). Obecně platí, že síla testu roste s odchylkou od nulové hypotézy a s počtem pozorování. Protože neznáme, je správnou formulací výsledku: Na základě dat nemůžeme zamítnout nulovou hypotézu. Formulace Dokázali jsme nulovou hypotézuje nesprávná!
Síla testu • Pokud bych místo 20 hnízd sledoval třeba 200, distribuce X2 při platnosti H0 se nezmění (pořád to bude c21), ale síla testu vzroste • 13 samců z 20: X2= (13-10)^2/10+(7-10)^2/10 = 1.8, p = 0.18 (hypotézu nezamítám) • 130 samců z 200: X2=(130-100)^2/100+(70-100)^2/100 = 18.0, p = 0.000022 (hypotézu zamítám) • Proto musíme pracovat se skutečnými počty případů, ne s procenty!
Příklady použití: štěpné poměry • 3:1 • 9:3:3:1 Počet stupňů volnosti je počet kategorií - 1, (pro apriorně danou hypotézu), tedy DF=3
Příklady použití: poměr pohlaví • H0 - 1:1 • Pozor na předpoklady! • Nezávislost pozorování • Stejná pravděpodobnost V praxi tedy může být zamítnutí nulové hypotézy důsledkem tří věcí: (1) Nulová hypotéza neplatí (2) Nulová hypotéza platí, ale dopustili jsme se chyby 1. druhu. (3) Nulová hypotéza platí, ale nejsou splněny všechny předpoklady pro užití testu
Příklady použití: etologie • Orientace včel podle barvy terče • H0 - 1:1:1 • Jak zajistit nezávislost? • Pevná velikost výběru
Příklady použití:populační genetika • Hardy-Weinbergovská rovnováha: (p+q)2 = p2+ 2pq + q2 • Pozor: odečítáme ještě jeden stupeň volnosti na parametr, který odhadujemez dat, takže DF= 3 - 1 - 1 = 1
Náš první statistický test • Všechny uváděné příklady srovnávají počty případů ve 2 nebo více kategoriích s teoretickými počty, vypočtenými na základě apriorní hypotézy a znalosti celkového N (s výjimkou H.-W. rovnováhy) • Tento test se nazývá test dobré shody (chi-square goodness of fit test)
Jak výsledky tohoto testu prezentuji • „výsledek je průkazný při a = 0.05“(„result is significant at the level a = 0.05“) • „četnosti pohlaví mezi dominantními mláďaty se průkazně neliší (2 = 1.8, df=1,n.s.)“ • nebo – pro jiná data – „rozdíl v četnostech je průkazný (2 = 6.66, df=1, P<0.05)“případně ... „df=1, P=0.00986)“
Pro všechny testy • Míra odchylky našich dat od hodnot očekávaných při platnosti H0 je měřená testovou statistikou • Distribuce hodnot testové statistiky za platnosti H0 a splnění dalších předpokladů (přinejmenším nezávislosti pozorování) je známá (c2, t, F distribuce) • Je-li málo pravděpodobné, že pro naše data spočtená testová statistika z této distribuce pochází, je také malá šance, že uděláme chybu zamítnutím H0
Užití c2 pro celá čísla • Tento histogram ve skutečnosti shrnuje hodnoty proměnné s c2 distribucí, nikoliv hodnoty vytvářené „simulací“ 20 pozorování • Ten by vypadal takto: vliv na distribuci, => p • Tento problém je výrazný pro malé očekávané četnosti (< 5), v takových případech se doporučuje tzv. Yatesova korekce
Distribuční funkce obecněji • Kvantil c25(0.5) • Kritická hodnota c25(0.95) – pro a=0.05 • Tail area probability
Too good to be true • Někdy je hodnota testové statistiky překvapivě nízká – např. zde P=0.99 • Nešlo by takovou situaci považovat za „důkaz pravdivosti“ H0 ? • „Too good to be true“: málo pravděpodobné, že tak dobrou shodu dostanu ...
Too good to be true ... • Děkuji za pozornost ...