1 / 23

t-rozd ělení, jeho použití

t-rozd ělení, jeho použití. testy o střední hodnotě, konfidenční intervaly. Příklady problému.

elam
Download Presentation

t-rozd ělení, jeho použití

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. t-rozdělení, jeho použití testy o střední hodnotě, konfidenční intervaly

  2. Příklady problému • Chodci jsou se zavázanýma očima vypouštěni směrem na cíl. Na linii kolmé ke spojnici start -cíl je měřena jejich odchylka od cíle v metrech (nalevo záporné, napravo kladné hodnoty). Otázka zní - zda existuje systematická odchylka od přímého směru, tedy od nuly. • (Co testuji, když vypouštím jednoho člověka mnohokrát, co, když různé pokusné osoby?)

  3. Příklady problému • Rostliny jsou napájeny vodou charakterizovanou charakterizovanou určitou známou koncentrací izotopu 18O. Poté je měřena koncentrace izotopu 18O v tanspirované vodě (určitého počtu nezávisle pěstovaných rostlin). Ptáme se, zda je tato koncentrace stejná jako ve vodě použité k napájení.

  4. Příklady problému • U vzorku populace měříme koncentraci cholesterolu v krvi v periferní krvi a v krvi odebrané ze žíly. Ptám se, jestli je mezi těmito dvěma hodnotami systematický rozdíl (tj. jedna hodnota je systematicky vyšší než druhá). Mohu to formulovat tak, zda je rozdíl těchto dvou hodnot systematicky odlišný od nuly.

  5. Příklady problému • Měřím koncentraci Pb v potravě. Potřebuju znát interval, který mi s určitou pravděpodobností (nejčastěji 95%) pokryje neznámou střední hodnotu této koncentrace.

  6. Pokud má proměnná X normální rozdělení, pak proměnná Z má normované normální rozdělení má směrodatnou odchylku Průměr náhodného výběru musí mít tedy také normované normální rozdělení. Protože je hustota pravděpodobnosti normovaného normálního rozdělení známa, kdybychom znali mohli bychom zjistit, jaká je pravěpodobnobnost, že takhle nebo více odlišný, průměr od předpokládané hodnoty dostaneme čistě náhodou (tj. pro test nulové hypotézy o μ). Neznáme, ale můžeme jej odhadnout pomocí sX.

  7. Když použijeme jen odhad směrodatné odchylky, nemáme normální rozdělení, ale Studentovo t rozděloení.

  8. U χ2 platilo, čím větší odchylka od H0, tím větší χ2 . U t platí, že čím větší odchylka od H0 , tím větší absolutní hodnota – odchylka může jít jak kladným, tak záporným směrem. 97,5%ní kvantil N(0,1) je 1,96

  9. Dvoustranný a jednostranný test HA: μ<0 H0: H0: μ=0 HA: Jednostranný test je silnější, ale musím předem vědět, proč ho dělám μ0

  10. Příklad Stáří při úmrtí (v letech) u dvaceti pěti koní určitého plemene bylo: 17.2, 18.0, 18.7, 19.8, 20.3, 20.9, 21.0, 21.7, 22.3, 22.6, 23.1, 23.4, 23.8, 24.2, 24.6, 25.8, 26.0, 26.3, 27.2, 27.6, 28.1, 28.6, 29.3, 30.1, 35.1. H0: =22 let. = 24.23 roku HA: 22 let s2 = 18.0388 roku2 =0.05 =0.85 roku  = n - 1 = 25 - 1 = 24 t 0.05(2), 24 = 2.064 - kritická hodnota pro dvoustranný test při α=0,05 - tedy 97,5% kvantil (Pozn. Při stanovení H0 jsem předpokládal, že normovaný kůň umírá ve 22 letech – velmi nerealistický příklad)

  11. Nulovou hypotézu zamítám, když dostanu t nepravděpodobně malé, nebo nepravděpodobně velké. plocha=0,0072 P=2 x 0,0072=0,0144 2,64

  12. Užití • Jednovýběrový t-test – testuji, že střední hodnota určitého parametru je rovna předem dané hodnotě (ne příliš častý případ, ty předem dané hodnoty mohou být dost přitažené za vlasy – viz koně) • Párový t-test – H0 mi říká, že rozdíl dvou hodnot je nulový. Relativně časté použití.

  13. Konfidenční interval 2,5% kvantil 97,5% kvantil

  14. a v jednom z dvaceti pokusů se netrefím (pokud jde o 95% CI)

  15. Příklad - generoval jsem náhodné výběry z nekonečně velkého souboru s μ=10 (ve skutečnosti μ neznám)

  16. To jsem udělal 100-krát - viz http://botanika.bf.jcu.cz/suspa/vyuka/materialy/Konfidinterv.xls • Celkem 6-krát konfidenční interval nepokryl skutečnou střední hodnotu 10 (očekával jsem, že to bude 5-krát, ale je to náhodná veličina, a ta shoda je velmi dobrá) • Průměrná hodnota střední chyby průměru byla 0,35, směrodatná odchylka výběrových průměrů byla 0,38 [tedy opět velmi solidní shoda]

  17. Existuje ekvivalence • Jestliže 95%-ní konfidenční interval pro střední hodnotu neobsahuje nulu, potom to odpovídá zamítnutí nulové hypotézy μ=0 na hladině významnosti α=0,05. • (Obdobě platí i pro jiné hodnoty, než je nula, a pro jiné (1- α).100%ní konfidenční intervaly. • Udávat konfidenční intervaly je informativnější, srovnej. „Průměrný rozdíl koncentrací cholesterolu v krvi • Je statisticky průkazně odlišný od nuly (t=, df=.. ,P<0,05) • Je statisticky průkazně větší než nula (t=, df=... ,P<0,05) • Je 0,52 + 0,15 (průměr, 95% CI) – ale možná bych přidal, že se to tedy průkazně liší od nuly

  18. Začínali jsme normálním rozdělením (při „odvození“) • Tedy, předpokladem užití t-testu je, že mají hodnoty, které hodnotím (např. rozdíl) normální rozdělení. • „Otestovat normalitu“ není vždy nejrozumnější přístup – co musí mít normáloní rozdělení je průměr • závislost na počtu pozorování – Centrální limitní věta

  19. Co znamená, když napíšu 15+3 • Přesnost měření (pozor na počet platných číslic) • Průměr + s.d. (informuji o variabilitě) • Průměr a meze tolerančního intervalu (opět info o variabilitě, užívá se zřídka) • Průměr + s.e.m. (střední chyba průměru) (info o přesnosti odhadu průměru) • Průměr a meze konfidenčního intervalu (info o přesnosti odhadu průměru)

  20. Co znamená, když napíšu 15+3 • Použiju-li tento zápis, vždy musím uvést, co jím myslím, jinak je informace zcela bezcenná

  21. Totéž platí o grafech Svislá úsečka (error bar) může znamenat - s.d., 2 x s.d. (za určitých předpokladů by v tom intervalu mělo ležet cca 95% pozorování), s.e.m., konfidenční interval, někdy i rozsah dat. Někdy se úsečka kreslí jen nahoru (v “symetrických” případech).

  22. Krabicové (box and whisker) Klasicky bývalo medián a kvartily, dnes se tyto grafy užívají pro cokoliv (průměr, s.e.m., s.d.)

  23. Pozor - lidé často nerozlišují, zvláště S.D. a S.E. (=s.e.m.) přesnost odhadu variabilita dat

More Related