480 likes | 661 Views
Biostatistika. Statistika. Citáty o statistice Statistika je v ěda o přesném nakládání s nepřesnými čísly Známe tři druhy lži: úmyslnou, neúmyslnou a statistiku Důvěřuji pouze té statistice, kterou jsem sám zfalšoval (připisuje se Churchilovi) Statistika nuda je, má však cenné údaje.
E N D
Statistika • Citáty o statistice • Statistika je věda o přesném nakládání s nepřesnými čísly • Známe tři druhy lži: úmyslnou, neúmyslnou a statistiku • Důvěřuji pouze té statistice, kterou jsem sám zfalšoval (připisuje se Churchilovi) • Statistika nuda je, má však cenné údaje...
Nač budete potřebovat znát statistiku? • Protože z ní máte zkoušku. • Protože bez statistického hodnocení neobhájíte diplomku, nevezmou vám článek do tisku, apod. • Protože bez statistiky není možné hodnotit kvantitativní výsledky žádného pokusu nebo pozorování. Bez základních znalostí statistiky neporozumíte plně většině biologických prací.
Co je to biostatistika • V podstatě neexistuje jako samostatný obor. Užíváním toho slova naznačujeme, že se jedná o aplikaci statistických metod na řešení biologických problémů. [a biologická data mají svoje specifika]
A co je tedy statistika? • (v laické mluvě) Uspořádaný soubor dat: statistika střel na bránu, statistika úrazů v jednotlivých krajích • (v odborné mluvě) Věda, co s těmi daty budeme dělat - (matematická) statistika jako věda • V rámci statistiky - nějaká hodnota, kterou z čísel získáme, která nám nějak “syntetizuje” vlastnosti daných čísel
Cíle statistiky • (1) Popisná statistika - zpřehlednit soubor dat, “kondenzovat” informaci z mnoha čísel do menšího počtu parametrů nebo do grafu
Srovnej Průměrný počet bodů byl 74,5, přičemž minimum bylo 28 a maximum 100.
Čím méně čísel získám • tím je výsledek přehlednější a jednodušší • ale tím je také větší ztráta informace (z průměru, ale ani z histogramu už nikdy nedohledám, kolik měl František K., ani kolik byla všechna čísla) • - umění najít vhodnou míru, kdy je výsledek ještě přehledný, a přitom neztratil vypovídací schopnost
Poučení: když vám bude někdo říkat, o kolik procent se věci zlepšily, vždy se ptejte, z jakého základu se procenta počítala.
Cíle statistiky • (2) Interferenční statistika - Statistika výběrových šetření • Některé soubory jsou moc velké [nebo potenciálně nekonečné] - všechny jejich členy nejsem schopen zkontrolovat • Co mohu říci o tom, jak dopadnou volby v celé republice, když se zeptám 1000 lidí? • Co mohu říci o obsahu Cd v krvi divokých husí v ČR, když se mi podaří odebrat krev deseti individuím?
V biologii jde běžně o interferenční statistiku • Nechci dělat závěry o svých deseti krysách na kterých jsem dělal pokus, ale na základě těch deseti chci něco říci o všech pokusech, které by byly prováděny stejným způsobem • Jestliže dělám nějaký výzkum, měl by být reprodukovatelný (srov. Journal of Irreproducible Research)
“Statisticky lze dokázat vše” • …zvláště lidem, kteří statistice nerozumění • “Je statisticky dokázáno, že vdovy žijí déle, než jejich manželé.” • Do grafů lze dát cokoliv, a grafy pak vypadají velmi sugestivně, zvlášť když jsou doprovozeny “vhodnou” interpretací (data jsou pro ilustraci vymyšlená, ale podle reality)
Důkaz škodlivost fluorizace (údaje z jednotlivých států USA) Nikakragua by patřila někam sem
Hypoteticko-deduktivní přístup (K. Popper) - vychází z toho, že správný předpoklad může dát pouze správnou predikci, špatný předpoklad může dát dobrou i špatnou predikci - díky to předpoklad (hypotézu) nelze dokázat, ale pouze vyvrátit Pozorování (“pattern”) vysvětlení Hypotézy se vzájemně vylučují, predikce se vzájemně liší Hypotéza 1 Hypotéza 2 Hypotéza 3 Predikce 2 Predikce 3 Predikce 1 Výsledek experimentu porovnám s realitou
Obecná vědecká metoda - ilustrovaná na příkladě čápů nosících děti: 1. Pozorování - zjištění “pattern”
2. Interpretace - ‘Čáp nosí děti” • 3. Predikce - odstraníme-li čápy, přestanou se rodit děti [nebo se sníží počet narozených, pokud děti nosí i vrány] • 4. Experiment: V polovině okresů (náhodně vybrané!) vystřílíme čápy a sledujeme změnu porodnosti (v porovnání se změnou v okresech kontrolních) • 5. (Po statistickém hodnocení) zjistíme, že ke změnám nedošlo, takže usoudíme, že čápi děti nenosí.
Typy (nejen biologických) dat • Data spojitá a diskrétní - matematická definice a realita měřených dat - v realitě měříme vždy data s určitou přesností (a tudíž by podle striktně matematické definice měla být považována za diskrétní; to však není potřeba)
Typy (nejen biologických) dat • Poměrná (poměrová) stupnice - Ratio scale • Intervalová stupnice - Interval scale • Ordinální stupnice - Ordinal scale • Nominální stupnice (kategoriální data) - Nominal scale 0 Cirkulární stupnice Circular scale 270 90 180
Azimut kmene s nálezem lišejníků [stupně]: 5, 10, 5, 350, 350, 355 => průměr = 180 Čas, kdy houkal sýček: 22:00, 23:00, 24:00, 1:00, 1:00, 2:00 => průměr je krátce po poledni Pozor – průměr pro data na cirkulární škále může existovat, ale počítá se trochu jinak (viz Mackův poster před počítačovnou 1)
Typy (nejen biologických) dat • Poměrná (poměrová) stupnice - Ratio scale • Intervalová stupnice - Interval scale • Ordinální stupnice - Ordinal scale • Nominální stupnice (kategoriální data) - Nominal scale 0 Cirkulární stupnice Circular scale 270 90 180
Základní soubor (Population) a Náhodný výběr (Random sample) • Sampling; Sampling design • Náhodný výběr - každé individuum musí mít stejnou pravděpodobnost, že bude vybráno, nezávislou na tom, zda bude vybráno individuum jiné • Tabulky a generátory (pseudo)náhodných čísel
Základní soubor (Population) a Náhodný výběr (Random sample) • Téměř filosofická otázka - co je to náhoda • A co je to pravděpodobnost – v matematické statistice definována pomocí teorie míry – my si vystačíme s intuitivní představou (to opravdu není definice) „relativní zastoupení úspěchů v nekonečném počtu pokusů“ • V statistice budeme (tady v té základní) užívat tzv. apriorní pravděpodobnost (existuje ještě Bayesovská - aposteriorní)
Udělat náhodný výběr není obvykle triviální - v žádném případě to není výběr typických individuí- funguje rozumně v zemědělských pokusech 1 2 3 1 2 3 4 5 6
Podstatně složitější je to v přirozených populacích - nefunguje ani individuum nejbližší náhodnému bodu
Základní statistické chartakteristiky • Většinou značíme N-velikost základního souboru, n - velikost výběru • řeckými písmeny se obvykle značí charakteristiky základního souboru, latinkou charakteristiky výběru • Charakteristiky polohy: • Průměry, medián a modus • Průměry jsou definovány pro kvantitativní data (tj. na poměrové a intervalové stupnici)
Aritmetický průměr základního souboru výběru
Geometrický průměr • Je to n-tá odmocnina součinu n hodnot (zde pro výběr) Prakticky má smysl jen pro kladná čísla; totéž co „odlogaritmovaný“ aritmetický průměr logaritmů
Harmonický průměr • Je to převrácená hodnota průměru převrácených hodnot. Uvádí se ve všech učebnicích, nepamatuji, že bych ho viděl použitý v praxi
Medián [lze užít i pro data na ordinální stupnici] • Definován tak, že polovina hodnot leží pod, a polovina nad mediánem (v nekonečně velkých souborech - pravděpodobnost, že náhodná hodnota leží nad i pod mediánem je 0,5). V souborech o sudém počtu členů je obvykle za medián považovaná hodnota v půli intervalu mezi dvěma prostředními hodnotami.
Horní a dolní kvartil • Nad horním 1/4 pozorování, pod dolním 1/4 pozorování (a obdobně pravděpodobnosti v nekonečně velkých souborech)
Rozlišuj mínění průměru a mediánu Příklad - platy ve dvou podnicích
Modus - nejčastěji se vyskytující hodnota - u spojitých dat “vrchol” histogramu četností - později zadefinujeme jako lokální maximum křivky hustoty pravděpodobnosti [může být víc než jeden]
Míry variability • 1. Rozsah (Range) rozdíl mezi minimem a maximem • 2. Mezikvartilové rozpětí • 3. Variance a směrodatná odchylka
Variance - průměrná hodnota druhé mocniny (čtverce) odchylky od průměru • základního souboru - odhad variance na základě výběru n-1 = df = degrees of freedom = počet stupňů volnosti Pozor – mírné zjednodušení – při určitém typu odhadu můžeme i pro výběr mít v čitateli n. Pro velké výběry se výsledek stejně moc neliší.
Směrodatná odchylka (sx, často také s.d., S.D. - standard deviation) je odmocnina z variance
Porovnej variabilitu váhy slona a mravence • Variance (i s.d.) závisí na průměru • Buď použiji varianci nebo směrodatnou odchylku logaritmovaných dat, nebo variační koeficient CV (coefficient of variation) • Obojí má smysl jen pro data na poměrové stupnici
Střední chyba průměru (standard error of mean) • Charakterizuje přesnost výběrového průměru - jaká by byla variabilita průměrů dané velikosti z mnoha nezávislých výběrů variabilita v datech přesnost Zvýšení přesnosti lze dosáhnout zvětšením výběru
Grafické sumarizace - histogram četností Pozor – šíře intervalu musí odpovídat přesnosti, s jakou měříme.
Box and whisker (doslova krabice s fousama, obvykle “krabicový” diagram) Pozor, dnes se box & whisker používá i pro průměr a směrodatnou odchylku apod.