440 likes | 578 Views
Výber vhodnej štatistickej metódy. závisí od cieľa analýzy typu údajov nezávislosti výberu počtu premenných veľkosti výberu podmienok, ktoré si metóda kladie. Typy údajov. kvalitatívne - kategoriálne, nemetrické poradové kvantitatívne - metrické. Testovanie hypotéz.
E N D
Výber vhodnej štatistickej metódy závisí od • cieľa analýzy • typu údajov • nezávislosti výberu • počtu premenných • veľkosti výberu • podmienok, ktoré si metóda kladie
Typy údajov • kvalitatívne -kategoriálne, nemetrické • poradové • kvantitatívne -metrické
Testovanie hypotéz • Stanoví sa nulová hypotéza, ktorá sa má testovať • Určí sa hladina významnosti • Vypočíta sa príslušná testovacia štatistika • Porovná sa nami vypočítaná testovacia štatistika s hodnotou z tabuliek • Rozhodne sa o prijatí alebo zamietnutí nulovej hypotézy
Nulová hypotéza • Ak skúmame, či sa dve premenné (dva súbory údajov) rovnajú, potom H0: premenné sa rovnajú • Ak skúmame, či sú dve premenné navzájom závislé, potom H0: premenné sú nezávislé
Neparametrické metódy pri výpočte nepoužívajú parametre normálneho rozdelenia t. j. pri výpočte nepoužívajú priemer a štandardnú odchýlku pracujú s poradovými údajmi
Neparametrické metódy • Znamienkový test • Wilcoxonov test Skúmajú, či sa dva súbory rovnajú Používajú sa pri zisťovaní preferencií vyhodnocovaní before-after experimentu • Kruskalov-Wallisov test = neparametrická analýza rozptylu
Metóda priemerného poradia = transformácia kvantitatívnej premennej na poradovú najmenšie meranie 1 druhé najmenšie 2 ... Rovnaké merania majú priradené rovnaké poradia, ktoré sa vypočítajú ako priemer z poradí, ktoré obsadzujú
Metóda priemerného poradia meranie: 25 29 26 24 26 24 26 22 poradie: 4 8 6 2,5 6 2,5 6 1
Wilcoxonov test Jedná sa o závislé výbery porovnávame páry údajov v súbore X1 a X2
Nulová hypotéza H0: X1 = X2 súbor X1 má rovnaké hodnoty ako súbor X2
Alternatívna hypotéza H1: X1 X2 alebo X1 X2 alebo X1 X2) súbor X1 nemá rovnaké hodnoty ako súbor X2
Výpočet testovacej štatistiky 1. Rozsah súboru n = počet porovnávaných párov pár je tvorený jedným údajom zo súboru X1 a jedným údajom zo súboru X2 2. Vypočíta sa absolútna hodnota rozdielu medzi každým párom údajov | x1– x2|
Výpočet testovacej štatistiky 3. Ak sa ktorýkoľvek rozdiel x1– x2= 0, vyradí sa tento pár z ďalšieho výpočtu a rozsah súboru sa zmenší o 1: n = n – 1 koľkokrát sa vyskytne rozdiel rovný 0, o toľko sa zmenší rozsah súboru n
Výpočet testovacej štatistiky 4. Priradia sa poradia absolútnym hodnotám rozdielov | x1– x2| použitím metódy priemerného poradia 5. Každému poradiu sa priradí znamienko + alebo - + ak je rozdiel x1– x2>0 – ak je rozdiel x1– x2<0
Výpočet testovacej štatistiky 6. Vypočíta sa testovacia štatistika T+ alebo T- T+ je suma kladných poradí T- je suma záporných poradí v závislosti od alternatívnej hypotézy: H1: X1< X2T+ H1: X1> X2T- H1: X1X2 menšie z T+ a T-
Výpočet testovacej štatistiky Rozhodovacie pravidlo: Ak je vypočítaná testovacia štatistika menšia ako hodnota z tabuliek, zamieta sa H0a prijíma sa H1
Wilcoxonov testpríklad Výrobca kávy chcel zistiť, ako chutia 2 testované druhy kávy. Každý respondent mal ochutnať obidve kávy a priradiť body podľa toho, ako mu káva chutí: 1 = vôbec nechutí . . . 10 = mimoriadne chutí. Na hladine významnosti = 0,05 zistite, či káva T chutí viac ako káva E.
Úloha Na hladine významnosti = 0,05 zistite, či káva T chutí viac ako káva E.
Údaje T 8 7 9 4 6 9 5 8 4 E 6 6 9 8 4 8 9 5 3
Výpočet T=(X1) 8 7 9 4 6 9 5 8 4 E=(X2) 6 6 9 8 4 8 9 5 3 H0: X1 = X2n=? n = 9 zistiť, či káva T chutí viac ako káva E H1 =? H1: X1 X2
Výpočet T=(X1) 8 7 9 4 6 9 5 8 4 E=(X2) 6 6 9 8 4 8 9 5 3 absolútna hodnota rozdielu 2 1 0 4 2 1 4 3 1 poradie absolútnej hodnoty rozdielu 4,5 2 7,5 4,5 2 7,5 6 2 znamienko +4,5 +2 -7,5 +4,5 +2 -7,5 +6 +2
Výpočet testovacia štatistika=? H1: X1 X2 T- T- = 7,5 + 7,5 = 15 T tab = 6 Prijímame H0: Na hladine významnosti = 0,05 káva T chutí rovnako ako káva E
Analýza rozptylu Analysis of Variance ANOVA
Analýza rozptylu skúma závislosť kvantitatívnej premennej od kvalitatívnej (faktora)
Podmienky • normálne rozdelenie kvantitatívnej premennej • nezávislosť výberu • homoskedasticita = rovnosť rozptylov
Nulová hypotéza H0: kvantitatívna premenná nie je závislá od kvalitatívnej priemery kvantitatívnej premennej podľa jednotlivých hodnôt kvalitatívnej premennej sú rovnaké
Alternatívna hypotéza H1: kvantitatívna premenná je závislá od kvalitatívnej aspoň jedna rovnosť medzi priemermi je porušená
Postup 1. vypočítajú sa priemery za každú skupinu a celkový priemer za celý súbor 2. vypočíta sa vnútroskupinová variabilita SV = porovná sa každý údaj v skupine s priemerom za túto skupinu = suma štvorcov rozdielov za všetky skupiny (údaj – priemer)2
Postup 3. vypočíta sa medziskupinová variabilita SM = porovná sa každý priemer za skupinu s celkovým priemerom a vynásobí sa tento rozdiel počtom údajov (meraní) v skupine (priemer za skupinu – celkový priemer)2 x počet údajov v skupine 4. vypočítajú sa stupne voľnosti v1 = k -1 (k = počet hodnôt kvalitatívnej premennej) v2 = n – k (n = celkový počet meraní)
Postup 5. vypočíta sa F štatistika SM v2 F = ––– x ––– Sv v1
Postup 6. Porovná sa F štatistika s kritickou hodnotou z tabuliek Nulová hypotéza sa zamieta, ak je vypočítaná F štatistika väčšia ako hodnota z tabuliek
Príklad Z hotela na stanicu sa dá dostať autom tromi rôznymi trasami. Majiteľ hotela chcel zistiť, či niektorá, prípadne niektoré z trás sú významne pomalšie, resp. rýchlejšie, ako ostatné.
Príklad Použitím analýzy rozptylu na hladine významnosti = 0,05, zistite, či existujú štatisticky významné rozdiely medzi trasami v čase, za ktorý sa dá dostať z hotela na stanicu.
Nulová hypotéza H0: kvantitatívna premenná nie je závislá od kvalitatívnej premennej (faktora) H0: čas, za ktorý auto prejde z hotela na stanicu, nezávisí od toho, ktorou trasou pôjde t.j. každou trasou sa prejde v priemere za rovnaký čas
Alternatívna hypotéza H1: kvantitatívna premenná je závislá od kvalitatívnej premennej (faktora) H0: čas, za ktorý auto prejde z hotela na stanicu, závisí od toho, ktorou trasou pôjde t.j. aspoň jednou trasou sa dá v priemere dostať rýchlejšie, resp. pomalšie
Údaje Trasa1 Trasa2 Trasa3 1. 35 32 33 2. 34 36 33 3. 36 32 32 4. 35 37 33 5. 37 38 36 6. 32 37 31 7. 33 36 31 8. 34 35 30 9. 35 36 39 10. 36 35 34 11. 35 30 12. 35 13. 35 36
Výpočet kvantitatívna premenná = čas kvalitatívnapremenná = trasa k = počet hodnôt kvalitatívnej premennej k = 3 n = počet meraní n1 = 10 n2 = 14 n3 = 11 n = 35
Výpočet vnútroskupinová variabilita SV (údaj - priemer danej skupiny)2 SV = (35-34,7)2 + (34-34,7)2 + (36-34,7)2 + ... + (36-34,7)2 + (32-35,4)2 + (36-35,4)2 + ... + (36-35,4)2 + (33-32,9)2 + (33-32,9)2 + ... + (30-32,9)2 = 130,2 SV = 130,2
Výpočet medziskupinová variabilita SM (priemer danej skupiny – celkový priemer)2 x počet meraní v skupine SM = (34,7-34,4)2 x 10 + (35,4-34,4)2 x 14 + (32,9-34,4)2 x 11 = 38,2 SM = 38,2
Výpočet stupne voľnosti v1 = k – 1 = 3 – 1 = 2 v2 = n – k = 35 – 3 = 32 SM v2 38,2 32 F = ––- x –– = ––––- x –– = 4,7 SV v1 130,2 2
Výpočet ak nami vypočítaná testovacia štatistika F je väčšia ako hodnota v tabuľkách, zamietame H0 F = 4,7 Ftab = 3,32 F Ftab zamietame H0a prijímame H1
Kruskal – Wallis test skúma to isté ako ANOVA ak • kvantitatívna premenná nemá normálne rozdelenie alebo • rozptyly sa nerovnajú = nie sú splnené podmienky pre ANOVU
Testovanie normálneho rozdelenia H0: kvantitatívna premenná má normálne rozdelenie H0: kvantitatívna premenná nemá normálne rozdelenie