210 likes | 320 Views
Biostatistika 5 . přednáška. Aneta Hybšová email: kurz.biostatistika@gmail.com. Náplň kurzu. Úvod do biostatistiky. Význam biostatistiky v biologii a v učitelství. Biostatistický znak, náhodná veličina.
E N D
Biostatistika5. přednáška Aneta Hybšová email: kurz.biostatistika@gmail.com
Náplň kurzu • Úvod do biostatistiky. Význam biostatistiky v biologii a v učitelství. Biostatistický znak, náhodná veličina. • Analýza jednorozměrných biostatistických dat, četnosti, střední hodnota, charakteristiky variability, grafické zobrazení. Grafy, tabulky. • Vícerozměrná biostatistická data. Základní a výběrový soubor v biostatistice. • Testování hypotéz v biostatistice, vybrané parametrické a neparametrické testy, testovací kritérium, kritická hodnota. T-testy, F-test, Mann-Whitneyův pořadový test, Wilcoxonův test, znaménkový test. • Měření závislosti mezi kvantitativními a kvalitativními proměnnými (jednoduchá a vícenásobná regresní a korelační analýza, jednorozměrná analýza rozptylu, analýzy v kontingenčních tabulkách). Pearsonův koeficient, Spearmanův koeficient pořadové korelace. • Obecný postup analýzy biostatistických dat. Prezentace biostatických výstupů. • Úvod do vícerozměrných metod. Analýza rozptylu, Analýza kovariance, Analýza hlavních komponent, Faktorová analýza, Shluková analýza, Diskriminační analýza.
Tvrzení vs. Hypotéza • Tvrzení • Agresivita u dětí předškolního věku se vyskytuje častěji u dětí z neúplných rodin. • Chlapci dosahují lepších výsledků ve fyzice než dívky. • Hypotéza • Četnost projevů agresivity je vyšší u dětí, které vyrůstají v neúplné rodině. • Průměrný počet bodů v testu z fyziky je u chlapců vyšší než u dívek.
Komparativní experiment • porovnání dvou a více skupin • muži vs. ženy – kalorický příjem • žáci s BOV vs. žáci s frontální výukou • pacienti léčení standardně vs. pacienti léčeni novým lékem • stanovení hypotézy H0 = nulová hypotéza • jednoznačné tvrzení • vyjadřuje vztah mezi proměnnými(pohlaví, kalorický příjem) • lze empiricky ověřit • obvykle tvrdí, že neexistuje rozdíl mezi skupinami • např. Muži mají stejný kalorický příjem než ženy. • stanovení alternativní hypotézy H1 • popírá H0 • rozdíl mezi skupinami existuje
Testování hypotéz • hladina významnosti α • pravděpodobnost, že nesprávně odmítneme nulovou hypotézu • standardně 0,05 (0,01 ; 0,001) • kritická hodnota • hodnota, která rozděluje kritický obor a obor přijetí (kvantil) • zpravidla hledáme v tabulkách • testové kritérium • hodnota, podle níž určujeme výsledek testu • pokud spadá do oboru přijetí pak H0 nezamítáme • spočítáme jej
Výsledek testování 1) srovnáním vypočteného testového kritéria s kritickou hodnotou, která se určuje v závislosti na zvolené hladině významnosti α. Jestliže hodnota vypočtené testovací statistiky překročí kritickou hodnotu, znamená to, že existuje evidence pro zamítnutí nulové hypotézy (tzn. „že jsme potvrdili rozdíl“). 2) pomocí p hodnoty – vypočtená pomocí software a) Jestliže p-hodnota je menší než hladina významnosti α, zamítámeH0 b) Jestliže je p-hodnota větší než hladina významnosti α (chyba α), nulovou hypotézu H0 nemůžeme zamítnout a tedy předpokládáme, že platí.
Statistické metody pro analýzu nominálních dat • Chí kvadrát test dobré shody • Test nezávislosti chí kvadrát pro kontingenční tabulku • Fischerův test (kombinatorický)
1. Chí kvadrát test dobré shody • zkoumá, zda existuje souvislost mezi dvěma jevy, resp. nominálními proměnnými • H0: mezi skupinami není rozdíl • ověřujeme, zda četnosti, které byly získány měřením se liší od očekávaných četností • vychází z absolutních četností • Očekáváná četnost – četnost při platnosti H0 • hrací kostka
1. Chí kvadrát test dobré shody - předpoklad • očekávané četnosti jsou větší než 5 • 80% očekávaných četností je větších než 5
1. Chí kvadrát test dobré shody - příklad • Skupina 90 žáků ZŠ odpovídala na otázku: Který z vyučovacích předmětů máš nejraději? A) matematika B) fyzika C) chemie • Rozhodněte zda mezi oblibou předmětů existuje statisticky významný rozdíl.
Postup: • Stanovení očekávaných četností O • Počet stupňů volnosti • Stanovení kritické hodnoty • Výpočet chí-kvadrát testového kritéria • Porovnání kritické hodnoty a testového kritéria
1. Chí kvadrát test dobré shody - příklad • testové kritérium je 1,266 • stupně volnosti 2 (počet řádků – 1) • hladina významnosti 0,05 • kritická hodnota (tabelovaná) 5,99 – přijímáme H0 • Výsledky lze připsat působení náhody. Obliba předmětů je stejná.
Příklad 2 - Zmrzlina • Řetězec cukráren, který nabízí 4 druhy zmrzliny otevřel provozovnu v nové lokalitě. Ve stávajících provozovnách řetězce byla dosud struktura prodeje podle druhů zmrzliny následující: vanilková 62%, čokoládová 18%, jahodová 12%, pistáciová 8%. Po otevření provozovny v nové lokalitě máme záznam o následujícím prodeji: vanilková 120, čokoládová 40 jahodová 18, pistáciová 22. • Vyjádřete se pomocí statistického testu ke shodě či odlišnosti struktury prodeje v nové lokalitě oproti dosavadním prodejům řetězce.
Příklad 2 - Zmrzlina - počet stupňů volnosti - 3 - hladina významnosti – 0,05 Spočtená hodnota testového kritéria (4,32) nepřekračuje mez vymezující kritický obor (7,81), nachází se v oboru přijetí a na zvolené 5%ní hladině významnosti hypotézu o shodě struktury prodeje nezamítáme.
2. Test nezávislosti chí kvadrát pro kontingenční tabulku • existuje souvislost mezi dvěma jevy, resp. nominálními proměnnými? • H0: skupiny jsou shodné • PŘEDPOKLAD • 80% očekávaných četností nad 5
Příklad 4 • 400 náhodně vybraných studentů odpovědělo na dvě otázky: • Byl jste v loňském roce ubytován na kolejích? ANO - NE • Jaký je Váš průměrný studijní průměr? • A) lepší než 1,6 • B) 1,6-2,1 • C) horší než 2,1 Rozhodněte zda existuje vztah mezi průměrnou známkou a bydlením na kolejích.
H0: Mezi četnostmi na obě uvedené otázky není závislost. • H1: Mezi četnostmi na obě uvedené otázky je závislost.
počet stupňů volnosti (r-1)*(s-1) = 2 • kritická hodnota (2) = 5,991 alfa 0,05 • prokázána rozdílnost mezi empirickými a očekávanými četnostmi =souvislost mezi znaky
Příklad 5 - Platy • Příjmy obyvatelstva závisí na dosaženém vzdělání. Počítejte na 1% hladině významnosti.
Příklad 5 - Výsledek • kritická hodnota (8) je 15,507 pro alfa 0,01 • testové kritérium 73,29 • prokázán statisticky významný rozdíl
Příklad na doma • Celkem bylo sledováno 54 semenáčků o stejné výchozí velikosti na sekané louce a 68 semenáčků na pasené louce. Za měsíc zbylo 12 semenáčků na sekané louce a 8 semenáčků na pasené louce. • Liší se přežívání semenáčků zkoumané trávy na louce sekané a pasené?