E N D
Testovanie kontrastov Ak zamietneme Ho nulovú hypotézu v AR tj.: záver že neplatí zhoda medzi porovnávanými strednými hodnotami, je nevyhnutné aby sa výsledky analýzy rozptylu doplnili podrobnejším hodnotením, ktorým vyhodnotíme všetky možné dvojice výberov z hľadiska homogenity stredných hodnôt (ktoré z dvojíc výberových priemerov sa líšia štatisticky významne a ktoré len náhodne) Scheffeho metóda ( krátko S – metóda), ktorá zamieta hypotézu o zhode výberových priemerov ak platí
Tukeyova metóda ( krátko T – metóda), je citlivejšia na rozdiely medzi strednými hodnotami (je silnejšia ako Scheffeho metóda), avšak vyžaduje aby pokus bol vyvážený a Sú tabelované kritické hodnoty studentizovaného rozpätia
Parametrické testy : • Sú založené na určitých predpokladoch, ktoré je potrebné splniť • jedná sa predovšetkým o predpoklad rozdelenia náhodného výberu • Často je požadovaná znalosť parametrov.... • predpoklady použiteľnosti parametrických testov sú v mnohých prípadoch aspoň približne splnené najmä ak pracujeme s výbermi väčších rozsahov (centrálne limitné vety teórie pravdepodobnosti a zákon veľkých čísiel Často však existujú situácie, kedy podmienky pre použitie niektorého štandardného parametrického testu nie ú splnené: • Malý rozsah výberu • Nesplnený predpoklad o type rozdelenia (spravidla sa vyžaduje normálne rozdelenie základného súboru) • Často dokonca nepoznáme vôbec rozdelenie základného súboru • predpoklad jednovrcholového rozdelenia...
Na prekonanie týchto nedostatkov a ťažkostí boli vypracované tzv.: neparametrické testovacie postupy. Vychádzajú s obmedzených (minimálnych) predpokladov, často stačí len predpoklad o spojitosti typu rozdelenia základného súboru. • Neparametrické testy • výhody: • nie sú závislé od tvaru rozdelenia základného súboru • nevyžadujú výpočet parametrov distribučnej funkcie • nevyžadujú typ jednovrcholového rozdelenia • sú nenáročné na informácie (jednoduché výpočty testovacích charakteristík) • použiteľnosť aj pre malé rozsahy výberov • široká použiteľnosť • nevýhody: • menšia sila testu v porovnaní s parametrickými testami, (kompenzuje sa väčším počtom meraní) • v prípade kvantitatívnych znakov nevyužívajú celú informáciu o údajoch ale len poradie údajov....
Neparametrických testov je veľké množstvo. Uvedieme len najpoužívanejšie. Klasifikácia vybraných neparametrických testov: -- jednovýberové testy test extrémnych hodnôt Dixonov test Wilcoxonov test Znamienkový test – dvojvýberové testy pre nezávislé výbery Wilcoxonov test (Mann – Whitneyov U-test) – neparametrická analýza rozptylu Kruskal – Walisov test Friedmanov test – testy náhodnosti test založený na bodoch zvratu – testy nezávislosti Hoeffdingov test Kendallov koeficient a test nezávislosti Spearmanov korelačný koeficient – a iné....
Test extrémnych hodnôt – Dixonov test Overujeme ním, či najväčšia alebo najmenšia nameraná hodnota nie je zaťažená hrubou chybou. Predpokladajme, že máme hodnoty usporiadané podľa veľkosti od najmenšej po najväčšiu.: Testovacie kritérium je dané vzťahom: – pre najväčšiu – pre najmenšiu hodnotu Kritická hodnota Dixonovho test Extrémnu hodnotu (najmižšiu,najvyššiu) vylúčime z výberového súboru ak: resp.
Príklad. Predpokladajme namerané hodnoty premennej X: 3,25 3,30 3,20 4,00 3,15 Na prvý pohľad vidíme, že hodnota 4,00 sa nápadne líši od ostatných Vypočítaná hodnota 0,8235>0.642, to znamená, že hodnotu 4,00 je potrebné vylúčiť z výberového súboru.
Wilcoxonov test poradový alebo jednovýberový Ide o neparametrickú obdobu párového t – testu. Slúži k overeniu hypotézy o zhode dvoch stredných hodnôt. Pre každú dvojici (pár) hodnôt vypočítame Nenulovým diferenciám priradíme poradové číslo od 1 do n, pričom rovnakým hodnotám priradíme rovnaké poradie. Poradové čísla rozdelíme do dvoch skupín (jedna pre kladné druhá pre záporné diferencie). Poradia kladných diferencií spočítame W+, poradie záporných spočítame a dostaneme veličinuW- Testovacie kritériu: Ak Kritická hodnota Wilcoxonovho testu, pri n>65 môžeme aproximovať normálnym rozdelením
Príklad = 70,5 = 7,5 Medzi úrovňami porovnávaných súborov je rozdiel
Znamienkový test Znamienkový test je menej citlivý ako Wilcoxonov, čo sa dá vyvážiť možnosťou širšieho použitia. Slúži k overeniu hypotézy o zhode dvoch stredných hodnôt. Pre každú dvojici (pár) hodnôt vypočítame Nenulové diferencie sčítame, tak že kladné diferencie spočítame a označíme n+ a vypočítame testovaciu štatistiku U(predpokladá sa n>20. Ak platí Ak n<20, 36 upravíme U Kritická hodnota má normálne rozdelenie, tj.: medzi úrovňami porovnávaných súborov je významný rozdiel
Príklad = -3,04 3,04 > 1,959 Medzi úrovňami porovnávaných súborov je rozdiel
Wilcoxonov test (Mann – Whitneyov U-test) Tento test predstavuje neparametrickú obdobu dvojvýberového t – testu pre nezávislé súbory. Slúži na overenie hypotézy o zhode úrovne dvoch nezávislých súborov Usporiadame oba súbory podľa veľkosti a priradíme im poradové čísla: Tzn. Očíslujeme hodnoty od najmenšej po najväčšiu prirodzenými číslami Pričom rovnako veľkým hodnotám priradíme rovnaké priemerné poradie. Vypočítame:
Vypočítame veličiny: Nulovú hypotézu zamietame na hladine významnosti ak kde je kritická hodnota Wilcoxonovho testu Pri veľkých rozsahoch m a n 50 nie sú k dispozícii tabuľky kritických hodnôt preto používame štatistiku Ktorá má normálne rozdelenie N(0,1) ak Zamietame Ho o zhode úrovne dvoch nezávislých súborov
Príklad Potvrdzujeme hypotézu o rovnakej priemernej spotrebe paliva u oboch sušiarní
Kruskal Walisov test Kruskal - Walisov test predstavuje neparametrickú obdobu jednofaktorovej analýzy rozptylu. Umožňuje testovať hypotézu, že m – nezávislých výberov s rozsahmi n1,..., nm pochádzajú z toho istého rozdelenia. Všetky hodnoty z m výberov zoradíme do jednej rastúcej postupnosti aurčíme poradie každého prvku. Testovacie kritérium je definované: Kde Je súčet poradových prvkov i – tého výberu a Štatistika H pre dostatočne veľký počet pozorovaní rozdelenie s m-1 stupňami voľnosti. Kritický obor pre hypotézu o zhode úrovní m nezávislých súborov je vymedzený pre H >
V prípade, že zamietneme nulovú hypotézu ozhode stredných hodnôt, je potrebné vykonať neparametrické mnohonásobné porovnanie (podobne ako pre analýzu rozptylu to bol test kontrastov). Ak pracujeme s vyváženým pokusom (v každej triede je rovnaký počet meraní) môžeme použiť Neményiho metódu mnohonásobného porovnania. Ak platí : kritická hodnota Neményiho test (tieto kritické hodnoty sú tabelované), zamietame nulovú hypotézu, že i - ty a j – ty výber pochádzajú z rovnakého rozdelenia. Ak pracujeme s nevyváženým pokusom (v každej triede nie je rovnaký počet meraní) môžeme použiť porovnanie navrhnuté Dunnom (1964) kde je kritická hodnota s normálnym rozdelením N(0,1), platí že i – ty výber s rozsahom nia j – ty výber s rozsahom nj pochádzajú z toho istého rozdelenia
Príklad Zamietame Ho o rovnakom mernom odpore pri rôznych rýchlostiach
Vzhľadom k výsledku Kruskal Walisovho testu je potrebné urobiť podrobnejší rozbor Nenényiho metódou, porovnávame všetky možné dvojice s KH KH = 23,9 V tabuľke sú usporiadané všetky možné dvojice
Friedmanov test Friedmanov test je neparametrickou obdobou dvojfaktorovej analýzy rozptylu s jedným pozorovaním v podtriede. Vstupné udaje sú usporiadané do matice s m riadkami a n stĺpcami. Testovacia štatistika Friedmanovho testu: Hypotézu Ho zamietame v prípade ak F > KH Friedmanovho testu
Test náhodnosti Základným predpokladom použiteľnosti induktívnych štatistických metód je náhodnosť usporiadania analyzovaného súboru. Ak očakávame, že tento predpoklad je porušený, musí byť overený testom náhodnosti. Často sa okrem iných používa aj test založený na bodoch zvratu. Číslo nazveme bodom zvratu v postupnosti rôznych čísiel ak platí alebo Označme symbolom Z celkový počet zvratov v danej postupnosti. Pre test hypotézy o náhodnosti výberu sa používa testovacie kritérium Testovacie kritérium má normované normálne rozdelenie N(0,1). Ak |U| > KH = uα hypotézu o náhodnosti výberu zamietame.
Skúmanie vzťahov medzi štatistickými znakmi: • Skúmanie vzťahov medzi kvalitatívnymi znakmi, napr. AB , nazýme meranie asociácie • skúmanie vzťahov medzi kvantitatívnymi štatistickými znakmi -regresná a korelačná analýza • Skumanie vzťahov medzi výsledným kvalitatívnym znakom a kvantitatívnymi znakmi logistická regresia • Skúmanie vzťahov medzi výsledným kvantitatívnym znakom a kvalitatívnymi znakmiAR-analýza rozptylu • Skúmanie závislosti medzi vysledným kvantitatívnym znakom a znakmi kvantitatívnymi a kvalitatívnymianalýza kovariancie
Skúmanie asociácie • Podkladom sú asociačné, resp. kontingenčné tabuľky, • pre súhrné testovanie existencie štatisticky významného vzťahu medzi kvalitatívnymi znakmi sa používa 2 - štvorcová kontingencia Ho: dva znaky A a B sú nezávislé H1: znaky A a B závisia A znak má m - úrovní, obmien B znak má k - úrovní , obmien
Formulovanie hypotéz • Závislosť znakov sa prejaví v rozdielnych početnostiach • napr. Skúmame či veľkosť balenia určitého výrobku je ovplyvnená početnosťou rodiny • Ho : výber veľkosti balenia výrobku nezávisí od počtu členov v rodine • H1 : výber veľkosti balenia je ovplyvnená počtom členov v rodine • test spočíva v porovnávaní empirických početností a teoretických, t,j, takých aké by mali empirické početnosti byť keby boli znaky A a B nezávislé
Simultánne početností, početnostidruhého stupňa (aibj) Marginálne početnosti (ai) resp.(bj) Veľkosť rodiny Veľkosť balenia 1-2 3-4 5 a viac Celkom (b1) (b2) (b3) do 100g 25 37 8 70 (a1)(a1b1) (a1 b2) 100-150g 10 62 53 125 (a2) 250g a viac 5 41 59 105 (a3) (a3b3) Spolu 40 140 120 300 Celkový počet respondentov n
Určovanie teoretických početností: Vychádza z vety o nezávislosti náhodných javov A a B: P(AB) = P(A) . P(B), teda ak znaky A a B sú nezávislé potom platí: P(aibj) = P(ai) .P(bj) odhad na základe relatívnych početností : (aibj)o = (ai) . (bj) (aibj)o = (ai) .(bj) n n n n Teoretické početnoesti
Výpočet teoretických početností (a1b1)o = 70.40/300 = 9,33 Veľkosť rodiny Veľkosť balenia 1-2 3-4 5 a viac Celkom (b1) (b2) (b3) do 100g 25 37 8 70 (a1)9.3332,67 28.00 100-150g 10 62 53 125 (a2) 16.67 58.33 50 250g a viac 5 41 59 105 (a3) 14.00 49 42 Spolu 40 140 120 300 Celkový počet respondentov n
Výpočet testovacieho kritéria a rozhodnutie: Ak 2 vypočítané 2 pre hladinu významnosti pre stupne voľnosti (m-1).(k-1) Ho zamietame, t.zn. znaky A a B sú závislé V našom prípade to znamená, že počet členov rodiny štatisticky významne ovplyvňuje výber veľkosti balenia výrobku. Ďalej by sme mali merať silu (tesnosť) závislosti.
Číselné miery (intenzity) asociácie Na meranie intenzity asociácie sa vyžadujú také miery, ktoré nadobúdajú hodnoty z pevného intervalu a umožňujú tak priamo usudzovať o intenzite asociácie, prípadne ju aj porovnávať za rôzne štatistické súbory bez ohľadu na ich rozsah. • K takýmto charakteristikám patria • Koeficient asociácie Pre nezávislosť znakov sa koeficient asociácie blíži k nule naopak ak sú znaky závislé tak sa blíži v absolútnej hodnote k jednej. Môže nadobúdať hodnoty (-1,1)
2. Koeficient korelácie kvalitatívnych znakov Koeficient korelácie kvalitatívnych znakov nadobúda hodnoty z intervalu -1,1 a interpretuje sa rovnako ako koeficient asociácie. Pri meraní asociácie medzi všetkými variantmi znaku A a znaku B sa vychádza zo štvorcovej kontingencie ŠK
Štvorcová kontingencia tvorí základ pre miery intenzity asociácie ako sú PEARSONOV a ČUPROVOV KOEFICIENT. Pearsonov koeficient C Nedostatkom Pearsonovho koeficienta je, že na jeho veľkosť vplýva počet vytvorených skupín, je teda závislý do spôsobu triedenia.
ČUPROVOV koeficient ŠK........priemerná štvorcová kontingencia m..........počet variantov (tried) znaku A r............počet variantov (tried) znaku B Čuprovov koeficient nadobúda hodnoty z intervalu (0,1)