270 likes | 513 Views
Jak statistika dokazuje závislost. Karel Zvára katedra pravděpodobnosti a matematické statistiky MFF UK Karel.Zvara@mff.cuni.cz http: // www.karlin.mff.cuni.cz / ~zvara. teorie pravděpodobnosti matematická statistika. - pravděpodobnost šestky na hrací kostce TP: =1 / 6 (symetrie)
E N D
Jak statistika dokazuje závislost Karel Zvára katedra pravděpodobnosti a matematické statistiky MFF UK Karel.Zvara@mff.cuni.cz http://www.karlin.mff.cuni.cz/~zvara Jak statistika dokazuje závislost (Pardubice 040916)
teorie pravděpodobnosti matematická statistika • - pravděpodobnost šestky na hrací kostce • TP: =1/6 (symetrie) • MS: na základě pokusu odhadnout pst nebo rozhodnout o tvrzení, např. =1/6 • např. 15 šestek z 60 hodů: bodový odhad je 0,25, 95% intervalový odhad (0,147; 0,379) Jak statistika dokazuje závislost (Pardubice 040916)
příklad 1 • Šestnáctileté slečny nosí náušnice častěji než stejně staří hoši Jak statistika dokazuje závislost (Pardubice 040916)
příklad 2 • IQ souvisí se školním prospěchem Jak statistika dokazuje závislost (Pardubice 040916)
princip statistického usuzování (indukce) • na základě dat (výběru) soudíme o všech možných datech (populaci) • populaci si zpravidla jen představujeme • výběr je podmnožinou populace, má být reprezentativní • nejlépe to zaručí náhodný výběr • rozsah výběru ~ přesnost odhadu Jak statistika dokazuje závislost (Pardubice 040916)
možné populace (náušnice) • všechny šestnáctileté dívky (hoši) u nás • všechny šestnáctileté studentky (studenti) u nás • všechny šestnáctileté studentky (studenti) gymnázií u nás • všechny šestnáctileté studentky (studenti) dané třídy dané školy Jak statistika dokazuje závislost (Pardubice 040916)
možné výběry • náhodný výběr ze seznamu všech • náhodný výběr školy, tam náhodný výběr ze seznamu všech (riziko nereprezentativnosti) • informace u účastnících celostátního kola ... olympiády (riziko nereprezentativnosti) Jak statistika dokazuje závislost (Pardubice 040916)
populace vers. výběr Jak statistika dokazuje závislost (Pardubice 040916)
statistické rozhodování • H0 – tvrzení o populaci, jehož popřením něco dokážeme, (nulová) hypotéza • H1 – alternativa, zpravidla (vědecky) dokazované tvrzení o populaci • nechceme příliš často něco falešně dokázat (prokázat) • předem zvolíme pravděpodobnost takové chyby (hladinu , zpravidla =5%) Jak statistika dokazuje závislost (Pardubice 040916)
schéma rozhodování Jak statistika dokazuje závislost (Pardubice 040916)
příklad s náušnicemi • d – pst náušnic u dívek • h – pst náušnic u hochů • H1: d > h • H0: d = h (pro dh bychom dostali stejná pravidla rozhodování) Jak statistika dokazuje závislost (Pardubice 040916)
hypotéze H0svědčí, když podíly osob s náušnicemi jsou podobné: OR – poměr šancí (odds ratio) tj. Jak statistika dokazuje závislost (Pardubice 040916)
alternativěsvědčí, když podíl hochů s náušnicemi je podst. menší než u dívek: tj. Jak statistika dokazuje závislost (Pardubice 040916)
úvaha • nutno zachovat hladinu nechť hypotéza platí • fixujme počty hochů, dívek, náušnic (marginální četnosti) • pa – pst, že a hochů má náušnice (při pevných marginálních četnostech jsou b, c, d volbou a určeny také) • výpočet pravděpodobnosti pa kombinatorickou úvahou Jak statistika dokazuje závislost (Pardubice 040916)
kombinatorický výpočet kolika způsoby lze rozdělit a+c náušnic mezi n osob: kolik z nich dá a náušnic u hochů pa = počet příznivých/počet možných (klasická pravděpodobnost) Jak statistika dokazuje závislost (Pardubice 040916)
původní tabulka (a = 2) p2 = 0,02105 ln OR = –2,367 Jak statistika dokazuje závislost (Pardubice 040916)
tabulka a = 1 p2 = 0,02105 ln OR = –2,367 1 9 p1 = 0,00156 9 2 ln OR = –3,701 Jak statistika dokazuje závislost (Pardubice 040916)
tabulka a = 0 p2 = 0,02105 ln OR = –2,367 0 10 p= 0,00003 10 1 ln OR = – Jak statistika dokazuje závislost (Pardubice 040916)
tabulka a = 10 p2 = 0,02105 ln OR = –2,367 10 0 p= 0,00000 0 11 ln OR = Jak statistika dokazuje závislost (Pardubice 040916)
tabulka a = 9 p2 = 0,02105 ln OR = –2,367 9 1 p= 0,0031 1 10 ln OR = 4,500 Jak statistika dokazuje závislost (Pardubice 040916)
tabulka a = 8 p2 = 0,02105 ln OR = –2,367 8 2 p= 0,00702 2 9 ln OR = 2,890 Jak statistika dokazuje závislost (Pardubice 040916)
tabulka a = 7 p2 = 0,02105 ln OR = –2,367 7 3 p= 0,05614 3 8 ln OR = 1,828 Jak statistika dokazuje závislost (Pardubice 040916)
shrnutí (Fisherův test) p2+p1+p0=0,02264 na 5% hladině zamítáme H0 p2+p1+p0+p8+p9+p10=0,02997 zamítli bychom pro oboustrannou alternativu Jak statistika dokazuje závislost (Pardubice 040916)
poznámky • pro jakou populaci lze zjištění zobecnit? • jiný postup – chí-kvadrát test • příklad s IQ – zcela jiný postup, neboť data jsou ve spojitém měřítku, použije se regrese Jak statistika dokazuje závislost (Pardubice 040916)
chí-kvadrát test • porovnává empirické četnosti nij(skutečně nastaly) s teoretickými četnostmi oij (očekávané na H0) • počítá statistiku • kde Jak statistika dokazuje závislost (Pardubice 040916)
hodnocení • H0 zamítá, je-li 2příliš velké • vlastnosti 2 asymptoticky, použitelné, pokud oij dost velké (aspoň 5) • jinak Yatesova korekce zmenšením abs. hodnoty každého čitatele před umocněním o 0,5 Jak statistika dokazuje závislost (Pardubice 040916)
náušnice Jak statistika dokazuje závislost (Pardubice 040916)