330 likes | 517 Views
Statistika I. RNDr. Monika Pávková Goldbergová. „ 95% vražd bylo spácháno po požití chleba“. Co je to statistika?. = vědecké studium dat popisujících existující variabilitu a hodnotící hypotézy vysvětlující data. Data v biologii Soubory a populace. Proměnná = znak
E N D
Statistika I. RNDr. Monika Pávková Goldbergová
„95% vražd bylo spácháno po požití chleba“
Co je to statistika? = vědecké studium dat popisujících existující variabilitu a hodnotící hypotézy vysvětlující data
Data v biologii Soubory a populace Proměnná = znak (variable, character) Data = naměřené hodnoty proměnné
základní soubor (populace) soubor prvků, o kterém chceme statistickými metodami něco zjistit výběr reprezentativní část dané populace (zákl. souboru), která má sloužit k odvození závěrů platných pro celou populaci Statistická indukce
Data v biologii – proměnné binární (binary v.) vícestavová (multi-state v.)
Data v biologii – proměnné kvalitativní • kategoriální, nominální (např. pohlaví) potřeba kódování kvantitativní • diskrétní • kontinuální / spojitá • ordinální (např. známky ve škole 1,2,3,4,5) Data
Data v biologii - proměnné primární (primary v.; nezávisle zjišťovaná) Proměnná Proměnná odvozená (derived v.; = poměry, indexy) extenzivní (měřící množství) intenzivní (měřící stav)
Postup při testování hypotéz • Formulujeme nulovou hypotézu(H0) a k ní alternativu(HA). • Zvolíme hladinu významnosti (significance level, a) s důsledky chyby I. druhu. • Zvolíme rozsah výběru. • Provedeme experiment (pozorování) • Volba testu • V tabulkách nalezneme kritickou hodnotu (critical value, ka). Jestliže T < ka, nezamítneme (not reject) nulovou hypotézu. Jestliže T > ka, zamítneme (reject) hypotézu- odchylky od hypotézy jsou statisticky významné. • Vypočteme sílu (power) testu a rozhodneme, zda pravděpodobnost s níž zamítáme nulovou hypotézu když neplatí je dostatečně velká a pravděpodobnost chyby II. druhu je dostatečně malá.
Co jsou chyby I. a II. řádu? Chyba I. Druhu (Type I error) • je spojena se zamítnutím nulové hypotézy, která ve skutečnosti platí • její pravděpodobnost se nazývá hladina významnosti(significance level) • značí se a • velikost této chyby se volí malá (< 0,05) a Chyba II. Druhu (Type II error) • Značí se b • je pravděpodobnost nesprávného přijetí nulové hypotézy • (1-b) se nazývá síla testu a jedná se o pravděpodobnost, že zamítneme nulovou hypotézu, která ve skutečnosti neplatí • (alespoň 0,8) • závisí na velikosti výběru (s větším souborem klesá)
Popisná statistikacharakteristiky centrální tendencea rozptýlenosti - přehled Variation ratio koeficient kvartilové variace
Charakteristiky centrální tendence (střední hodnoty) Kvantitativní data Nominální data Vážený aritmetický průměr Modus = nejčastější hodnota Ordinální data Medián = 50 percentil, frekvenční střed (v pořadí) Geometrický průměr (pouze pro x>=0) Kvantitativní data Harmonický průměr Aritmetický průměr (pouze pro x>0)
Vztah mezi modusem, mediánem a průměrem v případě kvantitativních dat Unimodální rozdělení Bimodální r. Kladně šikmé r. Záporně šikmé r.
Charakteristiky rozptýlenosti (variability) Kvantitativní data Nominální data Absolutní odchylka Entropie (diversity) Variation ratio Rozptyl (variance) (2) Ordinální data Rozmezí, rozsah (range) = min-max Standardní (směrodatná) odchylka (standard deviation) (SD, ) Mezikvartilové rozpětí Kvartilová odchylka Variační koeficient (= rozdíl mezi 75. a 25. kvantilem)
Kvantily (quantiles) Kvantil xp (= p-procentní kvantil) je hodnota znaku, pro kterou platí, že nejméně p-procent prvku má hodnotu menší nebo rovnu xp a 100-p prvků je větších nebo rovno xp. k = (počet pozorování~n) krát (úroveň kvantilu~p) / 100 Kvartily = x25 , x50 , x75 Medián = x50 Dolní kvartil = x25 (lower quartile) Horní kvartil = x75 (upper quartile) Decily = x10, x20, …,x90 Percentily = x1, x2, …, x99 .....
Grafická prezentace dat Data kvantitativní Data kvalitativní Sloupcový (2D) diagram (Bar chart) Sloupcový (pseudo3D) diagram (Bar chart) Koláčový diagram (Doughnut chart) Spojnicový diagram, polygon (Line chart, polygon) Barva květů Příklad Počet květů v květenství
Krabičkový diagram (Box-plot) Graf je vhodný též na určení odlehlých hodnot. Odlehlá (vzdálená) hodnota (outlier) Vous (whisker) Vnitřní hradba (upper fence) (=1,5xIQR) Průměr Horní kvartil Krabička (box) Medián Dolní kvartil Vous (whisker) Vnitřní hradba (lower fence) (=1,5xIQR) IQR=mezikvartilové rozpětí=rozdíl mezi horním a dolním kvartilem
Typy rozložení • Binomické • Poissonovo • Normální • Standardizované normální • Studentovo t-rozložení, ….. • Nevhodné rozložení transformace
Binomické rozdělení Poissonovo rozdělení Poissonovo rozdělení pro různé hodnoty m. Obr.: Zar 1996
Normální rozdělení (Gaussovo r., „normála“; normal distribution) • je rozdělení spojité proměnné na intervalové a poměrné stupnici • značí se N (m,s2) • hustota pravděpodobnosti je symetrická, zvonovitá • funkce obsahuje dvě konstanty (e, p) a má dva parametry: mas2 f(x)
Normální rozdělení Hustota pravděpodobnosti normálního rozdělení při (a) různémma stejnéms a (b) přirůznéms a stejném m Obr.: Zar 1996
Studentovo t-rozdělení • je podobné standardizovanému normálnímu rozdělení je symetrické kolem střední hodnoty m = 0 • má pouze 1 parametr: • stupně volnosti: n = n-1 Hustota pravděpodobnosti t-rozdělení při různých stupních volnosti Obr.:Zar 1996
* a/2 Oboustranný test hodnota Příklad: testuji průměr kvantitativní spojité proměnné (např. výšku, hmotnost) z výběru proti očekávané hodnotě při = 0,05. a hodnota Jednostranný test 1,96
nepárové párové • t-test závislý (one-sample) • t-test nezávislý (klasický t-test, two-sample) • Wilcoxon závislý • znaménkový test • Mann-Whitney (=Wilcoxon nezávislý) • mediánový test srovnání parametru mezi 2 skupinami objektů srovnání parametru u stejných objektů v časové souslednosti Statistické testy testy parametrické (pro normální nebo téměř normální rozložení) neparametrické (pro jiné než normální rozložení)
Testování hypotéz – rozhodovací strom aneb jaký test použít ? * * *…nebo 2 znaky test pro nominální data test pro ordinální data jednovýb. Wilcoxonův test test pro kvantit. data
Nominální znaky Frekvenční tabulka (qualitative frequency table) Kategorie i
Nominální znaky Relativní četnost (fi ) = relativní vyjádření absolutní četnosti ni dané kategorie i k součtu ni Absolutní četnost (ni ) = počet prvků v dané kategorii i i = 1, 2, …, k
Spojité znaky Frekvenční (četnostní) tabulka (frequency table)
Spojité znaky Tečkový graf = diagram rozptýlení (dot plot) Histogram (histogram) Krabicový diagram (box plot)
Neparametrické statistické metody pro 2 výběry: párové uspořádání Wilcoxonův pořadový test Co se testuje: H0: Medián rozdílů je nulový. H1:Medián rozdílů je různý od nuly. • - počítání rozdílů, jimž se přiřadí pořadí bez ohledu na znaménko od nejmenšího po největší • sečtou se pořadí se znaménky + a - zvlášť • výsledek jsou testové statistiky T+a T- Oboustranný test: je-li menší z obou T < T(2),n ....zamítáme H0
Neparametrické statistické metody pro 2 výběry: náhodné uspořádáníMann-Whitneyův U-test • - místo změřených hodnot pracujeme s jejich pořadím data seřadíme sestupně či vzestupně (zde sestupně) bez ohledu na různé soubory H0:Rozdělení obou skupin je shodné. HA:Rozdělení obou skupin se liší. (stejným hodnotám dáváme průměrné pořadí) větší z obou U porovnáme s kritickou hodnotou Ua(2),n1,n2 je-li U či U´> Ukrit , zamítáme H0 (v případě řazení vzestupného hledáme menší z obou U)