Statistika I.

Statistika I. RNDr. Monika Pávková Goldbergová

„95% vražd bylo spácháno po požití chleba“

Co je to statistika? = vědecké studium dat popisujících existující variabilitu a hodnotící hypotézy vysvětlující data

Data v biologii Soubory a populace Proměnná = znak (variable, character) Data = naměřené hodnoty proměnné

základní soubor (populace) soubor prvků, o kterém chceme statistickými metodami něco zjistit výběr reprezentativní část dané populace (zákl. souboru), která má sloužit k odvození závěrů platných pro celou populaci Statistická indukce

Data v biologii – proměnné binární (binary v.) vícestavová (multi-state v.)

Data v biologii – proměnné kvalitativní • kategoriální, nominální (např. pohlaví)  potřeba kódování kvantitativní • diskrétní • kontinuální / spojitá • ordinální (např. známky ve škole 1,2,3,4,5) Data

Data v biologii - proměnné primární (primary v.; nezávisle zjišťovaná) Proměnná Proměnná odvozená (derived v.; = poměry, indexy) extenzivní (měřící množství) intenzivní (měřící stav)

Postup při testování hypotéz • Formulujeme nulovou hypotézu(H0) a k ní alternativu(HA). • Zvolíme hladinu významnosti (significance level, a) s důsledky chyby I. druhu. • Zvolíme rozsah výběru. • Provedeme experiment (pozorování) • Volba testu • V tabulkách nalezneme kritickou hodnotu (critical value, ka). Jestliže T < ka, nezamítneme (not reject) nulovou hypotézu. Jestliže T > ka, zamítneme (reject) hypotézu- odchylky od hypotézy jsou statisticky významné. • Vypočteme sílu (power) testu a rozhodneme, zda pravděpodobnost s níž zamítáme nulovou hypotézu když neplatí je dostatečně velká a pravděpodobnost chyby II. druhu je dostatečně malá.

Co jsou chyby I. a II. řádu? Chyba I. Druhu (Type I error) • je spojena se zamítnutím nulové hypotézy, která ve skutečnosti platí • její pravděpodobnost se nazývá hladina významnosti(significance level) • značí se a • velikost této chyby se volí malá (< 0,05) a Chyba II. Druhu (Type II error) • Značí se b • je pravděpodobnost nesprávného přijetí nulové hypotézy • (1-b) se nazývá síla testu a jedná se o pravděpodobnost, že zamítneme nulovou hypotézu, která ve skutečnosti neplatí • (alespoň 0,8) • závisí na velikosti výběru (s větším souborem klesá)

Popisná statistikacharakteristiky centrální tendencea rozptýlenosti - přehled Variation ratio koeficient kvartilové variace

Charakteristiky centrální tendence (střední hodnoty) Kvantitativní data Nominální data Vážený aritmetický průměr Modus = nejčastější hodnota Ordinální data Medián = 50 percentil, frekvenční střed (v pořadí) Geometrický průměr (pouze pro x>=0) Kvantitativní data Harmonický průměr Aritmetický průměr (pouze pro x>0)

Vztah mezi modusem, mediánem a průměrem v případě kvantitativních dat Unimodální rozdělení Bimodální r. Kladně šikmé r. Záporně šikmé r.

Charakteristiky rozptýlenosti (variability) Kvantitativní data Nominální data Absolutní odchylka Entropie (diversity) Variation ratio Rozptyl (variance) (2) Ordinální data Rozmezí, rozsah (range) = min-max Standardní (směrodatná) odchylka (standard deviation) (SD, ) Mezikvartilové rozpětí Kvartilová odchylka Variační koeficient (= rozdíl mezi 75. a 25. kvantilem)

Kvantily (quantiles) Kvantil xp (= p-procentní kvantil) je hodnota znaku, pro kterou platí, že nejméně p-procent prvku má hodnotu menší nebo rovnu xp a 100-p prvků je větších nebo rovno xp. k = (počet pozorování~n) krát (úroveň kvantilu~p) / 100 Kvartily = x25 , x50 , x75 Medián = x50 Dolní kvartil = x25 (lower quartile) Horní kvartil = x75 (upper quartile) Decily = x10, x20, …,x90 Percentily = x1, x2, …, x99 .....

Grafická prezentace dat Data kvantitativní Data kvalitativní Sloupcový (2D) diagram (Bar chart) Sloupcový (pseudo3D) diagram (Bar chart) Koláčový diagram (Doughnut chart) Spojnicový diagram, polygon (Line chart, polygon) Barva květů Příklad Počet květů v květenství

Krabičkový diagram (Box-plot) Graf je vhodný též na určení odlehlých hodnot. Odlehlá (vzdálená) hodnota (outlier) Vous (whisker) Vnitřní hradba (upper fence) (=1,5xIQR) Průměr Horní kvartil Krabička (box) Medián Dolní kvartil Vous (whisker) Vnitřní hradba (lower fence) (=1,5xIQR) IQR=mezikvartilové rozpětí=rozdíl mezi horním a dolním kvartilem

Typy rozložení • Binomické • Poissonovo • Normální • Standardizované normální • Studentovo t-rozložení, ….. • Nevhodné rozložení transformace

Binomické rozdělení Poissonovo rozdělení Poissonovo rozdělení pro různé hodnoty m. Obr.: Zar 1996

Normální rozdělení (Gaussovo r., „normála“; normal distribution) • je rozdělení spojité proměnné na intervalové a poměrné stupnici • značí se N (m,s2) • hustota pravděpodobnosti je symetrická, zvonovitá • funkce obsahuje dvě konstanty (e, p) a má dva parametry: mas2 f(x)

Normální rozdělení Hustota pravděpodobnosti normálního rozdělení při (a) různémma stejnéms a (b) přirůznéms a stejném m Obr.: Zar 1996

Studentovo t-rozdělení • je podobné standardizovanému normálnímu rozdělení je symetrické kolem střední hodnoty m = 0 • má pouze 1 parametr: • stupně volnosti: n = n-1 Hustota pravděpodobnosti t-rozdělení při různých stupních volnosti Obr.:Zar 1996

* a/2 Oboustranný test hodnota Příklad: testuji průměr kvantitativní spojité proměnné (např. výšku, hmotnost) z výběru proti očekávané hodnotě při  = 0,05. a hodnota Jednostranný test 1,96

nepárové párové • t-test závislý (one-sample) • t-test nezávislý (klasický t-test, two-sample) • Wilcoxon závislý • znaménkový test • Mann-Whitney (=Wilcoxon nezávislý) • mediánový test srovnání parametru mezi 2 skupinami objektů srovnání parametru u stejných objektů v časové souslednosti Statistické testy testy parametrické (pro normální nebo téměř normální rozložení) neparametrické (pro jiné než normální rozložení)

Testování hypotéz – rozhodovací strom aneb jaký test použít ? * * *…nebo 2 znaky test pro nominální data test pro ordinální data jednovýb. Wilcoxonův test test pro kvantit. data

Nominální znaky Frekvenční tabulka (qualitative frequency table) Kategorie i

Nominální znaky Relativní četnost (fi ) = relativní vyjádření absolutní četnosti ni dané kategorie i k součtu ni Absolutní četnost (ni ) = počet prvků v dané kategorii i i = 1, 2, …, k

Spojité znaky Frekvenční (četnostní) tabulka (frequency table)

Spojité znaky Tečkový graf = diagram rozptýlení (dot plot) Histogram (histogram) Krabicový diagram (box plot)

Neparametrické statistické metody pro 2 výběry: párové uspořádání Wilcoxonův pořadový test Co se testuje: H0: Medián rozdílů je nulový. H1:Medián rozdílů je různý od nuly. • - počítání rozdílů, jimž se přiřadí pořadí bez ohledu na znaménko od nejmenšího po největší • sečtou se pořadí se znaménky + a - zvlášť • výsledek jsou testové statistiky T+a T- Oboustranný test: je-li menší z obou T < T(2),n ....zamítáme H0

Neparametrické statistické metody pro 2 výběry: náhodné uspořádáníMann-Whitneyův U-test • - místo změřených hodnot pracujeme s jejich pořadím data seřadíme sestupně či vzestupně (zde sestupně) bez ohledu na různé soubory H0:Rozdělení obou skupin je shodné. HA:Rozdělení obou skupin se liší. (stejným hodnotám dáváme průměrné pořadí) větší z obou U porovnáme s kritickou hodnotou Ua(2),n1,n2 je-li U či U´> Ukrit , zamítáme H0 (v případě řazení vzestupného hledáme menší z obou U)

Statistika I.

Statistika I.

Presentation Transcript

EKONOMSKA STATISTIKA I STATISTIČKI SISTEM

STATISTIKA I

Statistika

Statistika industri I penyajian data

STATISTIKA

Statistika Industri I

Matematická statistika I.

MATERI KULIAH STATISTIKA I

STATISTIKA INDUSTRI I

Statistika I

STATISTIKA

STATISTIKA

STATISTIKA

Statistika

Statistika I

I. Statistika ve vědecké praxi

Pravděpodobnost a matematická statistika I.

STATISTIKA

4. Vjerojatnost i statistika

STATISTIKA

STATISTIKA EKONOMI I

STATISTIKA I/ PENGOLAHAN DATA STATISTIKA