390 likes | 736 Views
Základní statistická analýza dat z pre - a klinických studií. Doc. PharmDr. Miloslav Hronek, Ph.D. UK Faf Hradec Králové. Obsah Základní statistické pojmy (nejvíce používané) Základní deskriptivní statistika (charakteristiky úrovně) Hodnocení statisticky významné rozdílnosti souborů
E N D
Základní statistická analýza dat z pre- a klinických studií Doc. PharmDr. Miloslav Hronek, Ph.D. UK Faf Hradec Králové
Obsah • Základní statistické pojmy (nejvíce používané) • Základní deskriptivní statistika (charakteristiky úrovně) • Hodnocení statisticky významné rozdílnosti souborů • Hodnocení statisticky významné souvislostí mezi daty • Excel a GraphPad Prism software
Proč školící seminář na dané téma • Využití základní statistiky pro vyhodnocení dat v rámci kvalifikačních prací • Špatná aplikace a interpretace výsledků daná předchozí neznalostí
Statistika je dnes nezbytným nástrojem informatiky • Množství informací se ve světě stále zvyšuje. • Je proto nutné naučit se využívat statistické metody, neboť ty nám umožňují hledání souvislostí tam, kde se množství dat stalo nepřehledným.
Základní pojmy Statistika • Zabývá se analýzou informací, především daty • informace vyjádřenými jako měřitelné a pozorovatelné veličiny Experiment • Sběr dat s cílem něco se naučit nebo objevit
Základní pojmy • Proměnná • Neznámá, jako veličina • Diskrétní proměnná • Proměnná může nabývat pouze určité hodnoty • např. konkrétní hodnoty tlaku krve • Spojitá proměnná • Může nabývat nekonečně mnoho hodnot • např. okolní teplota ve stupních
Základní pojmy • Populace • Také základní soubor • Určitý počet položek, předmětů, úkazů… • Výběr • Také výběrový soubor • Populace je zároveň podmnožinou této populace
Základní pojmy • Statistický jev • jednotlivá jednotka výběru • Náhodný výběr • náhodně vybrané jednotky • Náhodná proměnná • diskrétní nebo spojitá proměnná, jejíž hodnotu nemůžeme předem určit, např. číslo od 1 do 6 u hodu kostkou
Základní pojmy • Četnost • udává, kolikrát se tento výsledek vyskytl v určitém výběru populace • Parametr • specifická, přesně stanovená vlastnost populace, např. hodnota glykémie
Charakteristiky úrovně Statistický soubor je nahrazen jen jediným číslem, • určitým způsobem je specifikuje. • Počet hodnot, minimum a maximum • nejjednodušší ukazatele • Průměry- počítané ze všech hodnot souboru • Ostatní střední hodnoty • robustní charakteristiky polohy • jsou-li v souboru extrémní (odlehlá) pozorování • Useknuté průměry, kvantily • nepočítají se ze všech hodnot souboru (část hodnot se úmyslně vynechává)
Základní deskriptivní statistika • Není nutný speciální software • Lze využít Excel z Microsoft Office • Lze vyhodnotit aritm. průměr, SE, SD, Min., Max., počet, Medián, Modus Excel • Nastavit pro každý parametr zvlášť • Nejčastější • Časově náročnější • Méně přehledné (dle nastavení) • Nastavení Deskriptivní statistiky • Vyhodnocení najednou všech parametrů • Přehledné tabulkové zobrazení
Deskriptivní statistika v EXCELvýsledky Ukázka v Excel
Hodnota (Value) Index i se nahrazuje číslem a označuje kolikátá hodnota v souboru to je. x14= 51znamená, že 14. hodnota souboru je 51.
Aritmetický průměr • Aritmetický průměr, nebo často též jen průměr, • je průměr všech hodnot ve statistickém souboru. • Výpočet průměru • sečteme všechny hodnoty a vydělíme je počtem hodnot v souboru.
Vlastnosti aritmetického průměru • Vynásobíme-li aritmetický průměr počtemn (rozsah souboru) = suma (Σ) všech hodnot souboru. • Přičteme-li ke všem hodnotám stejnou konstantu k, je to obdoba jako když k aritm. průměru tuto konstantu přičteme • Obdobně, když vynásobíme nenulovou konstantou všechna čísla, je to obdoba jako když aritm. průměr vynásobíme stejnou konstantou • Součet jednotlivých odchylek od aritm. průměru je nulový
Useknutý průměr (TrimmedMean)) • Odstraňuje nedostatky aritmetického průměru • Používá se k vyloučení extrémních hodnot • Výpočet průměru ze selekce hodnot • Např. se vyloučí 5 % nejnižších a 5 % nejvyšších hodnot • V Excelu = TRIMMEAN(oblast; procenta)
Medián(Median) • Naměřené hodnoty se seřadí podle velikosti • medián je prostřední hodnota • u sudého počtu • je mediánem průměr obou prostředních čísel • polovina prvků je větších nebo rovných mediánu a polovina je menších nebo rovna mediánu • u lichého počtu prvků • počet prvků s vyšší nebo stejnou hodnotou roven počtu prvků s menší nebo stejnou hodnotou
Modus(Mode) • hodnota, která se vyskytuje nejčastěji • vhodné pro větší rozsah výběru – je-li málo čísel, • čísla se opakují např. jen 2x, tedy nelze stanovit
Rozptyl(variance) • je to míra rozsahu, která udává, jak jsou hodnoty rozptýleny • je to jiný způsob, jak můžeme popsat povahu rozložení • průměr druhé mocniny vzdálenosti každé hodnoty od průměru • Pro výpočet je nutné znát průměr • Vypočítáme rozdíl mezi všemi naměřenými hodnotami a průměrem • Všechna tato čísla sečteme a výsledek vydělíme počtem měření sníženým o 1
Směrodatná odchylka SD • podobně jako rozptyl vyjadřuje, jak jsou hodnoty rozptýleny s ohledem na průměr • je druhou odmocninou rozptylu • značení kurzívou σ
Výběrová směrodatná odchylka SE • Pro skutečný výpočet odhadu směrodatné odchylky na empiricky zjištěné řadě čísel
Variační koeficient • Chceme-li posoudit, je-li variabilita malá nebo velká, porovnáme směrodatnou odchylku s průměrem • Jedná se procentuální vyjádření velikosti směrodatné odchylky vzhledem k aritmetickému průměru
Rozdělení Gaussova křivka – normální rozdělení • Udělat histogram (výskyt četnosti jednotlivých hodnot) • Excel umí histogram, ale ne přímo vyhodnocení normality rozložení • Ideální tvar
INTERVALY SPOLEHLIVOSTI u normálního rozložení • 68% interval spolehlivosti = průměr ± SD • 95% IS = průměr ± 2SD • 97,7% IS = průměr ± 3SD
Vyjádření výsledků deskriptivní statistiky • U normálního rozdělení • Aritmetický průměr ± SD • Nad 30 (50) hodnot není nutný test normality • U nenormálního rozdělení • Medián (min – max) • Týká se to především malých souborů
Příklady spojitých rozdělení a) symetrické jednovrcholové rozdělení, b) dvouvrcholové rozdělení, c) pravostranně asymetrické rozdělení, d) levostranně asymetrické rozdělení
Hodnocení statisticky významné rozdílnosti u dvou souborů hodnot • U souborů do cca 30 hodnot provézt test normality ano ne • Gaussovo rozdělení (normální) • použít parametrický • t-test • Neprokázána normalita rozdělení • Použít neparametrický • Mann-Whitney test • Wilcoxonův test Ukázka v GraphPad Prism
Excel – nemá test normality, umí histogram • Vhodnější a uživatelsky jednodušší statistický software např. GraphPad Prism (v sítí Faf) Přehled testů • Parametrické • Nepárové (netvoří související dvojici dat např. kontrola x pacienti) Test pro stejnou SD Test pro rozdílnou SD Stanovuje F-test - Párový t-test (např. u stejných osob měření TK ve dvou obdobích po aplikaci léčiva)
Neparametrické • Nepárový (Mann-Whitney test) • Párový (Wilcoxonův test)
Hodnocení statisticky významné rozdílnosti u více jak dvou souborů hodnot • Parametrický • Nepárový - použít ANOVA test – viz GraphPad Prism • Neparametrický • NepárovýKruskal-Wallisův test • PárovýFriedmanův test
Hodnocení vztahů mezi parametry- korelace • Značena kurzívou r (korelační koeficient) • Může být vyjádřena pouze mezi proměnnými, které mohou být vyčísleny • Vyjadřuje se -1 r +1 obdoba je -100 % r +100 % • Na jednotkách nezáleží • Korelace neznamená, že musí existovat souvislost mezi příčinou a následkem
Korelace Typy: • Parametrický test • Pearsonova korelace • Neparametrický test • Spearmanova korelace Příklad prezentace výsledku Tělesná hmotnost statisticky významně korelovala s povrchem těla (P<0,0001; r=0,95).
Regrese • Způsob hodnocení, určující do jaké míry jeden jev ovlivňuje druhý • ! Existence korelace mezi proměnnými nemusí vždy znamenat, že mezi nimi existuje kauzální vztah (tj. souvislost mezi příčinou a jejím důsledkem)! • Lineární a nelineární regrese
Jak na statistickou analýzu? • Zformulovat otázku: Co chci zjistit? • Sesbírat data. • Data uspořádat a analyzovat z nich INFORMACE • Vyhodnotit INFORMACE z nich POZNÁNÍ
Zdroje: • Gibilisco S. Statistika bez předchozích znalostí. ComputerPress, Brno, 2009, s. 272. • Manuál Excel. • Manuál GraphPad Prism.