1 / 67

Statistika

Statistika. Ing. Jan Popelka, Ph.D . odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem email: jan.popelka @ ujep.cz WWW: http://most. ujep.cz / ~ popelka. Neparametrické testy. Neparametrické testy.

march
Download Presentation

Statistika

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistika Ing. Jan Popelka, Ph.D.odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem email: jan.popelka@ujep.cz WWW:http://most.ujep.cz/~popelka

  2. Neparametrické testy

  3. Neparametrické testy • Testování existence odlehlých pozorování • Testy shody • Testy střední hodnoty

  4. Odlehlá pozorování • Grafická analýza • Grubbsův test • Deanův a Dixonův Q-test

  5. Odlehlá pozorování V datech se mohou objevit odlehlé, vybočující hodnoty (outlier), tj. hodnoty nepatřící mezi ostatní. Tyto hodnoty se mohly dostat mezi ostatní data v důsledku hrubých chyb např. při opisování dat, ale i při měření (chyba měření v laboratoři), případně i tak, že byl do výběru zahrnut prvek, který do sledovaného základního souboru nepatří. Silně ovlivňují především aritmetický průměr, ukazatele variability (rozptyl, směrodatná odchylka) i ukazatele tvaru rozdělení (šikmost, špičatost). Naopak neovlivňují modus, medián a další kvantilové ukazatele, useknuté průměry.

  6. Odlehlá pozorování Nalezení odlehlých hodnot je možné například pomocí grafů. Jde však o subjektivní metody! Vhodný je histogram nebo krabicový diagram (Box-and-Whisker Plot).

  7. Odlehlá pozorování Informace o homogenitě souboru poskytuje také variační koeficient (CoefficientofVariation). Je-li v > 50 % znamená to silně nesourodý soubor. Neboli soubor není homogenní a může obsahovat jedno nebo více odlehlých pozorování.

  8. Odlehlá pozorováníGrubbsův test Grubbsův test je exaktní metodou pro zjištění odlehlých pozorování. Nulová hypotéza: hodnota x(i)není odlehlá Alternativní hypotéza: hodnota x(i)je odlehlá Testové kritérium: , kde x(i) je testovaná hodnota, s je populační směrodatná odchylka souboru a aritmetický průměr souboru. Online kalkulátory: http://graphpad.com/quickcalcs/Grubbs1.cfm

  9. Odlehlá pozorováníGrubbsův test Grubbsův test Kritický obor: W={T; T ≥ T(n;α)} Grubbsova statistika T nemá standardní rozdělení, proto je nutno hledat v tabulce. http://most.ujep.cz/~popelka/tabulky.xls Kritické hodnoty Grubbsova T-rozdělení (α = 0,05)

  10. Odlehlá pozorováníGrubbsův test ? Příklad: Statistický soubor obsahuje 30 pozorování. Aritmetický průměr souboru je 5,52 a populační směrodatná odchylka 4,50. Nejvyšší hodnota souboru je 36 a je podezřelá, že jde o odlehlé pozorování. Grubbsův test H0: hodnota 36 není odlehlá HA: hodnota 36 je odlehlá Testové kritérium: Kritický obor: W={T; T ≥ 2,791} Hodnota testového kritéria je vyšší než hranice kritického oboru. Zamítáme tedy H0. Hodnota 36 je skutečně odlehlým pozorováním.

  11. Odlehlá pozorováníGrubbsův test ? Příklad: Statistický soubor obsahuje 30 pozorování. Aritmetický průměr souboru je 5,52 a populační směrodatná odchylka 4,50. Druhá nejvyšší hodnota souboru je 7,37. Jde také o odlehlé pozorování? Grubbsův test H0: hodnota 7,37 není odlehlá HA: hodnota 7,37 je odlehlá Testové kritérium: Kritický obor: W={T; T ≥ 2,791} Hodnota testového kritéria není vyšší než hranice kritického oboru. Nezamítáme tedy H0. Hodnota 7,37 již není odlehlým pozorováním.

  12. Odlehlá pozorováníDean-Dixonův Q-test Dean-DixonůvQ-test je vhodný pro soubory malého rozsahu (do 10 prvků). Nulová hypotéza: hodnota x(n) není odlehlá Alternativní hypotéza: hodnota x(n) je odlehlá Testové kritérium: kde x(n) je testovaná , hodnota, x(n-1) je sousední hodnota a R je variační rozpětí (xmax - xmin).

  13. Odlehlá pozorováníDean-Dixonův Q-test Kritický obor: W={Q; Q ≥ Q(n;α)} Q statistika nemá standardní rozdělení, proto je nutno hledat v tabulce. http://most.ujep.cz/~popelka/tabulky.xls Kritické hodnoty Dean-Dixonova Q rozdělení (α = 0,05)

  14. Odlehlá pozorováníDean-Dixonův Q-test Příklad: Statistický soubor obsahuje 10 pozorování. H0: hodnota 8,95 není odlehlá HA: hodnota 8,95 je odlehlá Testové kritérium: Kritický obor: W={Q; Q ≥ 0,412} Hodnota testového kritéria není vyšší než hranice kritického oboru. Nezamítáme tedy H0. Hodnota 8,95 není odlehlým pozorováním.

  15. Odlehlá pozorováníDean-Dixonův Q-test Příklad: Statistický soubor obsahuje 10 pozorování. H0: hodnota 2,82 není odlehlá HA: hodnota 2,82 je odlehlá Testové kritérium: Kritický obor: W={Q; Q ≥ 0,412} Hodnota testového kritéria není vyšší než hranice kritického oboru. Nezamítáme tedy H0. Ani hodnota 2,82 není odlehlým pozorováním.

  16. Testy shody • Grafická analýza • Kolmogorov-Smirnovův test • Chi-kvadrát test

  17. Testy shody Testy shody mají široké využití. Pomáhají zjistit, zda výběr pochází z určitého hypotetického rozdělení. Nejčastěji se setkáváme s rozdělením normálním N(μ;σ2), ale lze testovat jakékoliv jiné rozdělení. Ať již diskrétní (Binomické, Poissonovo) nebo spojitá (Studentovo t rozdělení, F-rozdělení apod.)

  18. Testy shody Oblasti využití testů shody: • Testování statistických hypotéz (viz. přednáška 5). Podmínkou testů o průměru (t-test) a rozptylu (F-test) je, že výběr pochází z normálního rozdělení.. Tato podmínka musela být splněna, pokud byl rozsah výběru menší než 30. • Analýza rozptylu (viz. přednáška 6). Důležitou podmínkou použití analýzy rozptylu je, že všechny výběry pocházejí z normálního rozdělení. • Regresní analýza (viz. přednáška 8). Jednou z podmínek vhodného modelu je, že rezidua mají normální rozdělení.

  19. Testy shody Grafická analýza – Histogram Opět lze použít histogram k posouzení rozdělení souboru. Subjektivní metoda! Při konstrukci histogramu je vhodné řídit se pravidly o jejich konstrukci (odmocninové nebo Sturgesovo pravidlo o vhodném počtu tříd). Sleduje se tvar histogramu a porovnává s pravděpodobnostní nebo hustotní funkcí teoretického rozdělení.

  20. Testy shody Grafická analýza – Histogram Grafy pravděpodobnostních nebo hustotních funkcí vybraných teoretických rozdělení jsou uvedeny v přednášce číslo 3. Největší význam v praxi má normální rozdělení. Histogram relativní četnosti a křivka hustoty pravděpodobnosti normálního rozdělení. Pokud má histogram podobný průběh jako hustotní funkce, je možné považovat rozdělení za shodná.

  21. Testy shody Grafická analýza – Histogram Histogram absolutní četnosti. V tomto případě se určitě nejedná o normální rozdělení. Histogram není souměrný. Jde o rozdělení zešikmené.

  22. Testy shody Grafická analýza – Kvantilový graf Užitečným nástrojem je i kvantilový graf. Jedná se o bodový graf, mající na ose y kvantily teoretického rozdělení a na ose x kvantily posuzovaného souboru. Pokud se body pohybují po úhlopříčce grafu, je rozdělení souboru stejné jako rozdělní teoretické. Pokud se body odchylují, jde o rozdělení jiné.

  23. Testy shody Kvantilový graf Pokud by všechny body ležely na úhlopříčce, pak by se jednalo o totožná rozdělení. V tomto případě se zdá, že by soubor mohl pocházet z normálního rozdělení (i podle histogramu).

  24. Testy shody Kvantilový graf V tomto případě je jasné, že soubor nepochází z normálního rozdělení. Vpravo nahoře uvedený histogram ukazuje, že jde o zešikmené rozdělení.

  25. Testy shody Kvantilový graf – konstrukce grafu v MS Excel Pro konstrukci grafu je postačující vypočítat kvantily v rozmezí 5 % až 95 % po 5 % (x0,05, x0,1, x0,15, ... , x0,95) Lze počítat i detailněji, třeba percentily (po 1 %). Kvantily souboru se počítají funkcí = PERCENTIL (oblast, kvantil – p)

  26. Testy shody Kvantilový graf – konstrukce grafu v MS Excel Kvantily hypotetického rozdělení podle odpovídající funkce rozdělení např. pro normální rozdělení:= NORMINV (kvantil - p; střední hodnota hypotetického rozdělení - μ; směrodatná odchylka hypotetického rozdělení – σ)

  27. Testy shody Kvantilový graf – konstrukce grafu v MS Excel Samotný graf je bodový graf mající na ose y kvantily hypotetického rozdělení a na ose x kvantily posuzovaného souboru.

  28. Testy shody Příklad: Statistický soubor obsahuje 4275 pozorování. Pochází z normálního rozdělení? Kvantilový graf Aritmetický průměr souboru je 216,05. Výběrová směrodatná odchylka 225,83. Pomocí grafu se pokusíme zjistit, zda výběr pochází z normálního rozdělení N(216,05; 225,832). Parametry základního souboru tedy odhadujeme pomocí výběrových charakteristik.

  29. Testy shody Příklad: Statistický soubor obsahuje 4275 pozorování. Pochází z normálního rozděleníN(216,05; 225,8322)? = PERCENTIL (oblast dat; kvantil – p) = PERCENTIL (oblast dat; 0,1) = PERCENTIL (oblast dat; 0,6)

  30. Testy shody Příklad: Statistický soubor obsahuje 4275 pozorování. Pochází z normálního rozděleníN(216,05; 225,8322)? = NORMINV (kvantil - p; μ; σ) = NORMINV (0,1; 216,05; 225,832) = NORMINV(0,6; 216,05; 225,832)

  31. Testy shody Příklad: Statistický soubor obsahuje 4275 pozorování. Pochází z normálního rozdělení N(216,05; 225,832)? V tomto případě je jasné, že soubor nepochází z normálního rozdělení. Body neleží na úhlopříčce!

  32. Testy shodyChi-kvadrát test dobré shody Chi-kvadrát test dobré shody je stejný jako u kontingenčních tabulek (viz. přednáška 6) Nulová hypotéza: výběr pochází z hypotetického rozdělení s předem stanovenými parametry Alternativní hypotéza: výběr nepochází z hypotetického rozdělení Data je nutno roztřídit do tabulky četností, počet tříd se určuje pomocí Sturgessova pravidla. Test je vhodný pro soubory s n > 50.

  33. Testy shody Chi-kvadrát test dobré shody Nutnou podmínkou testu je, že hypotetické četnosti jsou větší než 5. Pokud to tak není, je nutno spojit třídu s třídou sousední. Test posuzuje skutečné četnosti výběru ni s hypotetickými četnostmi npi stanovenými rozdělením. Testové kritérium: Kritický obor: , kde k je počet tříd a r je počet parametrů hypotetického rozdělní.

  34. Testy shodyChi-kvadrát test dobré shody Nevýhody testu: • Je vhodný jen pro velké rozsahy testovaného souboru (n > 50). • Je závislý na tabulce četnosti, pro dvě různé tabulky četností vyjde testové kritérium různě! • Nutnost slučovat třídy pokud nejsou dostatečně obsazeny.

  35. Testy shodyChi-kvadrát test dobré shody Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního rozdělení? Aritmetický průměr souboru je 4,89. Výběrová směrodatná odchylka souboru je 1,16. Výběrové charakteristiky použijeme jako parametry hypotetického rozdělení. Provedeme tedy test, zda soubor má normální rozdělení N(4,89; 1,162).

  36. Testy shodyChi-kvadrát test dobré shody Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního rozdělení N(4,89; 1,162)? p1 je pravděpodobnost, že se pozorování bude nacházet v daném intervalu (tedy do hodnoty 3). Neboli P(x≤ 3) = F(3) = NORMDIST(horní mez intervalu; μ; σ; 1) = NORMDIST (3;4,89;1,16;1) = 0,051235

  37. Testy shody Chi-kvadrát test dobré shody Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního rozdělení N(4,89; 1,162)? p2 je pravděpodobnost, že se pozorování bude nacházet v daném intervalu (3 až 4). Neboli P(3 < x≤ 4) == F(4) – F(3) = NORMDIST(horní mez intervalu; μ; σ; 1) - NORMDIST(dolní mez intervalu; μ; σ; 1) = = 0,22 - 0,051 = 0,169

  38. Testy shodyChi-kvadrát test dobré shody Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního rozdělení N(4,89; 1,162)? np2 je součin celkového počtu pozorování (n = 50) a hypotetické pravděpodobnostipi. Neboli 50·0,169 = 8,439 Hypoteticky by četnost měla být 8,439 (skutečná je 8). Nutnou podmínkou testu je, že hypotetické četnosti npi jsou větší než 5. První a poslední třídu je tedy nutno sloučit!

  39. Testy shodyChi-kvadrát test dobré shody Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního rozdělení N(4,89; 1,162)? Podmínka testu, že hypotetické četnosti npi jsou větší než 5, je nyní splněna.

  40. Testy shodyChi-kvadrát test dobré shody Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního rozdělení N(4,89; 1,162)? Provedeme pomocný výpočet. Testové kritérium:

  41. Testy shodyChi-kvadrát test dobré shody Příklad: Statistický soubor obsahuje 50 pozorování. Pochází z normálního rozdělení N(4,89; 1,162)? Testové kritérium: Kritický obor: Protože hodnota testového kritéria náleží do kritického oboru, zamítáme H0. Sledovaný soubor nepochází z normálního rozdělení.

  42. Testy shodyKolmogorov-Smirnovův test Kolmogorov-Smirnovův test je dalším testem shody. • Je vhodný pro malé rozsahy souborů (n< 50). • Lze jej použít i pro velké soubory. • Je silnější než Chí-kvadrát test (dává přesnější výsledky). • Nemá omezující podmínky. • Vychází přímo z původních dat, nikoliv z údajů setříděných do tříd. Nedochází ke ztrátě informací. Nulová hypotéza: výběr pochází z hypotetického rozdělení s předem stanovenými parametry Alternativní hypotéza: výběr nepochází z hypotetického rozdělení

  43. Testy shodyKolmogorov-Smirnovův test Hodnoty souboru se seřadí podle velikosti od nejmenší po nejvyšší. Pro každou hodnotu se vypočte hodnota distribuční funkce F(x(i)) založená na hypotetickém rozdělení. Při testu normality jde o normální rozdělení N(µ;σ2). Testové kritérium: je maximum z hodnot vypočtených pro všechna pozorování x(i).

  44. Testy shodyKolmogorov-Smirnovův test Kritický obor: W={D; D ≥ d(n;α)} D statistika nemá standardní rozdělení, proto je nutno hledat v tabulce (http://most.ujep.cz/~popelka/tabulky.xls) Pro n >50 pak d(n; 0,05) ≈ 1,36 / n1/2

  45. Testy shodyKolmogorov-Smirnovův test Příklad: Statistický soubor obsahuje 12 pozorování. Jedná se informace o spotřebě benzínu určitého typu automobilu. 5,7 5,0 5,3 5,6 6,1 5,3 5,8 5,75,4 5,5 4,9 5,2 Lze tvrdit, že spotřeba tohoto typu automobilu má normální rozdělení N(5,4; 0,42)?

  46. Testy shodyKolmogorov-Smirnovův test Příklad: Statistický soubor obsahuje 12 pozorování… Data seřadíme podle velikosti a vypočteme hodnoty distribuční funkce normálního rozdělení N(5,4; 0,42). F(x(1)) je pravděpodobnost, že se pozorování bude nacházet v daném intervalu (tedy do 4,9). Neboli P(x≤ 4,9) = F(4,9) = NORMDIST(horní mez intervalu; μ; σ; 1) = NORMDIST (4,9;5,4;0,42;1) = 0,106

  47. Testy shodyKolmogorov-Smirnovův test Příklad: Statistický soubor obsahuje 12 pozorování… Data seřadíme podle velikosti a vypočteme hodnoty distribuční funkce normálního rozdělení N(5,4; 0,42). F(x(2)) je pravděpodobnost, že se pozorování bude nacházet v daném intervalu (tedy do 5). Neboli P(x≤ 5) = F(5) = NORMDIST(horní mez intervalu; μ; σ; 1) = NORMDIST (5;5,4;0,42;1) = 0,159

  48. Testy shodyKolmogorov-Smirnovův test Příklad: Statistický soubor obsahuje 12 pozorování… Dopočtou se hodnoty pro výpočet testového kritéria D. Je jím maximální hodnota z pomocných výpočtů T1 a T2. D = 0,151.

  49. Testy shodyKolmogorov-Smirnovův test Příklad: Statistický soubor obsahuje 12 pozorování… Hodnota testového kritéria D = 0,151. Kritický obor: W={D; D ≥ d(12;0,05)} W={D; D ≥ 0,375} Protože hodnota testového kritéria nenáleží do kritického oboru, nezamítáme H0. Spotřeba tohoto typu automobilu má skutečně normální rozdělení N(5,4; 0,42).

  50. Testy střední hodnoty Neprametrické testy posuzují střední hodnoty souborů v situacích, kdy nejsou splněny podmínky použití testů parametrických (přednáška 5). Zejména pokud: • data nejsou normálně rozdělena, • data mají ordinální charakter (pořadová proměnná), • výběry jsou malé, nebo existují velké rozdíly mezi rozsahy výběrů. Neparametrické testy lze použít i souběžně s parametrickými a porovnávat jejich výsledky, pro posílení jejich validity. Hodnoty souborů nahrazují jejich pořadím, proto jsou známy i pod názvem pořadové testy.

More Related