Štatistické metódy

Štatistické metódy Dana Vokounová vokoun@euba.sk

Výber vhodnej štatistickej metódy • cieľ analýzy • typ údajov – kvalitatívne, poradové, kvantitatívne • nezávislosť výberu • počet premenných • veľkosť výberu • podmienky, ktoré si metóda kladie

Neparametrické metódy pri výpočte nepoužívajú parametre normálneho rozdelenia t. j. nepoužívajú priemer a štandardnú odchýlku pracujú s poradovými údajmi

Neparametrické metódy Znamienkový test Wilcoxonov test Kruskal – Wallis test (neparametrická ANOVA)

Metóda priemerného poradia transformácia kvantitatívnej premennej na poradovú najmenšie meranie  1 druhé najmenšie  2 ... rovnaké merania majú priradené rovnaké poradia, ktoré sa vypočítajú ako priemer z poradí, ktoré obsadzujú

Metóda priemerného poradia meranie: 25 29 26 24 26 24 26 22 poradie: 4 8 6 2,5 6 2,5 6 1

Wilcoxonov test Jedná sa o závislé výbery  porovnávame páry údajov v súbore X1 a X2

Nulová hypotéza H0: X1 = X2 súbor X1 má rovnaké hodnoty ako súbor X2

Alternatívna hypotéza H1: X1  X2 alebo X1  X2 alebo X1  X2) súbor X1 nemá rovnaké hodnoty ako súbor X2

Postup 1. rozsah súboru n = počet porovnávaných párov údajov pár je tvorený 1 údajom zo súboru X1 a 1 údajom zo súboru X2 2. vypočíta sa rozdiel medzi každým párom údajov x1 - x2

Postup 3. ak sa ktorýkoľvek rozdiel x1 - x2 = 0, vyradí sa tento pár a zmenší sa rozsah súboru o 1: n = n - 1 koľkokrát sa vyskytne rozdiel rovný 0, o toľko sa zmenší rozsah súboru n

Postup 4. priradia sa poradia absolútnym hodnotám rozdielov Ix1 - x2I použitím metódy priemerného poradia 5. každému poradiu sa priradí znamienko + (ak rozdiel x1 - x2 0) alebo - (ak rozdiel x1 - x2 0)

Postup 6. Vypočíta sa testovacia štatistika: suma kladných poradí T+alebo sumu záporných poradí T-(absolútna hodnota) v závislosti od alternatívnej hypotézy

Postup Ak H1: X1  X2 T+ H1: X1  X2 T- H1: X1  X2 menšie z T+ a T-

Postup 7. rozhodovacie pravidlo: ak vypočítaná testovacia štatistika je menšiaako hodnota z tabuliek, zamieta sa H0 a prijíma sa H1

Príklad Výrobca kávy chcel zistiť, ako chutia 2 testované druhy kávy. Každý respondent mal ochutnať obidve kávy a priradiť body podľa toho, ako mu káva chutí: 1 = vôbec nechutí . . . 10 = mimoriadne chutí.

Úloha Na hladine významnosti  = 0,05 zistite, či káva T chutí viac ako káva E.

Údaje T 8 7 9 4 6 9 5 8 4 E 6 6 9 8 4 8 9 5 3

Výpočet T=(X1) 8 7 9 4 6 9 5 8 4 E=(X2) 6 6 9 8 4 8 9 5 3 H0: X1 = X2n=? n = 9 zistiť, či káva T chutí viac ako káva E  H1 =? H1: X1  X2

Výpočet T=(X1) 8 7 9 4 6 9 5 8 4 E=(X2) 6 6 9 8 4 8 9 5 3 absolútna hodnota rozdielu 2 1 0 4 2 1 4 3 1 poradie absolútnej hodnoty rozdielu 4,5 2 7,5 4,5 2 7,5 6 2 znamienko +4,5 +2 -7,5 +4,5 +2 -7,5 +6 +2

Výpočet testovacia štatistika=? H1: X1  X2 T- T- = 7,5 + 7,5 = 15 T tab = 6 Prijímame H0: Na hladine významnosti  = 0,05 káva T chutí rovnako ako káva E

Analýza rozptylu Analysis of Variance ANOVA

Analýza rozptylu skúma závislosť kvantitatívnej premennej od kvalitatívnej (faktora)

Podmienky • normálne rozdelenie kvantitatívnej premennej • nezávislosť výberu • homoskedasticita = rovnosť rozptylov

Nulová hypotéza H0: kvantitatívna premenná nie je závislá od kvalitatívnej priemery kvantitatívnej premennej podľa jednotlivých hodnôt kvalitatívnej premennej sú rovnaké

Alternatívna hypotéza H1: kvantitatívna premenná je závislá od kvalitatívnej aspoň jedna rovnosť medzi priemermi je porušená

Postup 1. vypočítajú sa priemery za každú skupinu a celkový priemer za celý súbor 2. vypočíta sa vnútroskupinová variabilita SV = porovná sa každý údaj v skupine s priemerom za túto skupinu = suma štvorcov rozdielov za všetky skupiny (údaj – priemer)2

Postup 3. vypočíta sa medziskupinová variabilita SM = porovná sa každý priemer za skupinu s celkovým priemerom a vynásobí sa tento rozdiel počtom údajov (meraní) v skupine (priemer za skupinu – celkový priemer)2 x počet údajov v skupine 4. vypočítajú sa stupne voľnosti v1 = k -1 (k = počet hodnôt kvalitatívnej premennej) v2 = n – k (n = celkový počet meraní)

Postup 5. vypočíta sa F štatistika SM v2 F = ––– x ––– Sv v1

Postup 6. Porovná sa F štatistika s kritickou hodnotou z tabuliek Nulová hypotéza sa zamieta, ak je vypočítaná F štatistika väčšia ako hodnota z tabuliek

Príklad Z hotela na stanicu sa dá dostať autom tromi rôznymi trasami. Majiteľ hotela chcel zistiť, či niektorá, prípadne niektoré z trás sú významne pomalšie, resp. rýchlejšie, ako ostatné.

Príklad Použitím analýzy rozptylu na hladine významnosti  = 0,05, zistite, či existujú štatisticky významné rozdiely medzi trasami v čase, za ktorý sa dá dostať z hotela na stanicu.

Nulová hypotéza H0: kvantitatívna premenná nie je závislá od kvalitatívnej premennej (faktora) H0: čas, za ktorý auto prejde z hotela na stanicu, nezávisí od toho, ktorou trasou pôjde t.j. každou trasou sa prejde v priemere za rovnaký čas

Alternatívna hypotéza H1: kvantitatívna premenná je závislá od kvalitatívnej premennej (faktora) H0: čas, za ktorý auto prejde z hotela na stanicu, závisí od toho, ktorou trasou pôjde t.j. aspoň jednou trasou sa dá v priemere dostať rýchlejšie, resp. pomalšie

Údaje Trasa1 Trasa2 Trasa3 1. 35 32 33 2. 34 36 33 3. 36 32 32 4. 35 37 33 5. 37 38 36 6. 32 37 31 7. 33 36 31 8. 34 35 30 9. 35 36 39 10. 36 35 34 11. 32 32 12. 35 13. 35 36

Výpočet kvantitatívna premenná = čas kvalitatívnapremenná = trasa k = počet hodnôt kvalitatívnej premennej k = 3 n = počet meraní n1 = 10 n2 = 14 n3 = 11 n = 35

Kruskal – Wallis test skúma to isté ako ANOVA ak • kvantitatívna premenná nemá normálne rozdelenie alebo • rozptyly sa nerovnajú = nie sú splnené podmienky pre ANOVU

Testovanie normálneho rozdelenia H0: kvantitatívna premenná má normálne rozdelenie H0: kvantitatívna premenná nemá normálne rozdelenie

Štatistické metódy

Štatistické metódy

Presentation Transcript