530 likes | 1.07k Views
ANALÝZA ROZPTYLU. PREDNÁŠKA. Čo je ANOVA, základné pojmy Hypotézy pri ANOVA Model ANOVA Jednofaktorová ANOVA - vyvážený pokus Prijatie rozhodnutia v ANOVA Predpoklady ANOVA Jednofaktorová ANOVA - nevyvážený pokus Dvojfaktorová ANOVA - bez opakovania
E N D
PREDNÁŠKA • Čo je ANOVA, základné pojmy • Hypotézy pri ANOVA • Model ANOVA • Jednofaktorová ANOVA - vyvážený pokus • Prijatie rozhodnutia v ANOVA • Predpoklady ANOVA • Jednofaktorová ANOVA - nevyvážený pokus • Dvojfaktorová ANOVA - bez opakovania • Dvojfaktorová ANOVA - s opakovaním • Metódy viacnásobného porovnávania • Overenie zhody variability
Čo je ANOVA • analysisofvariance - analýza rozptylu • metóda na porovnávanie stredných hodnôt (priemerov) niekoľkých ZS • hľadanie rozdielov medzi priemermi sa zakladá na analýze rôznych foriem rozptylu • AR zároveň skúmavplyv kvalitatívneho faktora (faktorov) na výsledný kvantitatívny znak - teda analyzuje vzťahy medzi znakmi • ANOVA je zovšeobecnením Studentovhot-testu pre nezávislé výbery
Čo je ANOVA • praktické využitie • najčastejšie sa AR používa pri vyhodnocovaní biologických experimentov • počet predaných výrobkov v závislosti od umiestnenia výrobku v regáli, atď.
ZÁKLADNÉ POJMY • skúmaný štatistický znak • Označenie: y • výsledný kvantitatívny znak • napr. počet predaných výrobkov • faktor • Označenie: A., B, ... • je kvalitatívna premenná • úroveň faktora • jednotlivé obmeny faktora • určité množstvo kvantitatívneho faktora, napr. množstvo dávok čistých živín pri hnojení, rôzne príjmové skupiny domácností, • určitý druh kvalitatívneho faktora, napr. rôzne odrody tej istej plodiny, spôsoby umiestnenia výrobkov v predajni,
Čo je ANOVA • pojmy • jednofaktorová/viacfaktorová ANOVA • skúmame vplyv jedného/viacerých faktor na kvantitatívnu premennú • vyvážená/nevyvážená ANOVA • podľa toho, či majú jednotlivé skupiny rovnaký rozsah n
Čo je ANOVA • pri ANOVA porovnávame priemerné hodnoty kvantitatívnej premennej pri rôznych úrovniach faktora • napríklad porovnávame • priemerné výdavky obyvateľov so základným vzdelaním, priemerné výdavky stredoškolsky vzdelaného obyvateľstva, priemerné výdavky vysokoškolsky vzdelaného obyvateľstva 1 2 3
A 1 2… j… n Yi . yi . 1 y11 y12 y1j y1n Y1.y1. 2 y21 y22 y2j y2n Y2. y2. … ……….. i yi1 yi2 yij yin Yi. yi. … ……….. m ym1 ym2 ymj ymn Ym. ym. Y..y.. Celkový súčet Schéma jednofaktorového Experimentu “vyvážený pokus” riadkový súčet riadkový priemer Úrovne faktora opakovania celkový priemer
Model pre výslednú napozorovanú hodnotu kde i = 1, 2,…, m j = 1,2,…, n Kde: - očakávaná hodnota pre všetky úrovne faktora a napozorované hodnoty, i- efekt i-tej úrovne faktora A eij - náhodná chyba, ktorým je každé meranie zaťažené, resp. výsledok vplyv náhodných činiteľov
Hypotézy pri ANOVA alebo Nulovú hypotézu potom môžeme formulovať aj nasledovne: Ho : 1 = 2 =… i = m =0 t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H1: i 0 pre aspoň jedno i (i = 1,2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly
Odhadmi jednotlivých parametrov sú nasledovné výberové charakteristiky: čo môžeme prepísať:
Princíp ANOVY Podstata ANOVY spočíva v rozklade celkovej variabilityvýsledného skúmaného znaku Sr Sc S1 Variabilita medzi úrovňami faktora, spôsobená pôsobením faktora A, “variabilita medzi triedami, riadkami” Variabilita náhodná, reziduálna, “vo vnútri tried Celková variabilita
Princíp ANOVY • Typy variability • celková variabilita • na koľko sa odchyľujú konkrétne hodnoty v skupinách od celkového priemeru • variabilita medzi skupinami • na koľko sa odchyľujú skupinové priemery od celkového priemeru • variabilita vnútri skupín • na koľko sa odchyľujú konkrétne hodnoty v skupinách od ich skupinového priemeru • čím väčšia je variabilita medzi skupinami v porovnaní s variabilitou vnútri skupín, tým väčší je účinok faktora
priemerná suma štvorcov odchýlok priemerná sumaštvorcov rezid. odchýlok = F Prijatie rozhodnutia v ANOVA suma štvorcovodchýlok - faktor variabilita medzi skupinami • Testovacia štatistika (F) • porovnáva variabilitu S1a variabilitu Sr • čím väčšia je variabilita S1 • tým je vplyv faktora väčší • tým sú väčšie rozdiely medzi skupinovými priemermi • tým viac dôkazov máme pre prijatie alternatívnej hypotézy rezid. suma štvorcovodchýlok variabilita vnútri skupín celková suma štvorcov celková variabilita
ANOVA Variabilita 3 Priemerný štvorec (1/2) 4 F-krité- rium 1 Súčet štvorcov odchýlok 2 Stupne voľnosti Variabilita medzi triedami s12 m-1 S1 Reziduálna variabilta sr2 m.n - m Sr Celková variabilita N-1= m .n-1 Sc Výsledná tabuľka ANOVY
Ak F vyp F Ho nezamietame F obor nezamietnutia Ho obor zamietnutia H0 kritický obor, Prijatie rozhodnutia v ANOVA • Ak F vyp F. ((m-1,(N-m)) Ho zamietame, v takom prípade je aspoň efekt jednej úrovne faktora preukazný, teda priemerná úroveň ukazovateľa sa štatisticky významne líši od ostatných. resp. aspoň jeden efekt i je štatisticky významne odlišnýod nuly.
Predpoklady ANOVY • Nezávislosť výberových súborov • štatistická nezávislosť náhodných chýb eij • Normalita • výbery pochádzajú z normálnych rozdelení, narušenie tohto predpokladu nemá podstatnejší vplyv na výsledky AR • Homoskedasticita -zhodné reziduálne rozptyly 12 = 22 = …. = 2 , t.j. D(eij) = 2 tento predpoklad je závažnejší a možno ho overovať Cochranovým, resp. Bartlettovým testom
A 1 2… j … ni Yi . yi . 1 y11 y12 y1j ...n1Y1.y1. 2 y21 y22 y2j ...n2Y2. y2. … ……….. i yi1 yi2 yij ...niYi. yi. … ……….. m ym1 ym2 ymj ...nmYm. ym. Y..y.. Schémajednofaktorovéhoexperimentu - “nevyváženýpokus” riadkový súčet riadkový priemer Rôzny počet opakovaní Úrovne faktora celkový priemer Kde
Výsledná tabuľka ANOVY 3 Priemerný štvorec (1/2) 4 F-krité rium ANOVA Variabilita 1 Súčet štvorcov odchýlok 2 Stupne voľnosti Variabilita medzi triedami s12 m-1 S1 Reziduálna variabilta sr2 N - m Sr Celková variabilita N-1 Sc
Dvojfaktorová analýza rozptylu bez opakovania • Uvažujme vplyv faktora A, ktorý skúmame na m - úrovniach, i = 1,2,….,m • ďalej uvažujme faktor B, ktorý sledujeme na n - úrovniach , j = 1,2, …, n • na každej i-tej úrovni faktora A a j-tej úrovni faktora B máme len jedno pozorovanie (opakovanie) yij • overujeme tak vplyv dvoch nulových hypotéz
A 1 2 … j … n Yi . yi . 1 y11 y12 y1j y1n Y1.Y1. 2 y21 y22 y2j y2n Y2. y2. … ……….. i yi1 yi2 yij yin Yi. yi. … ……….. m ym1 ym2 ymj ymn Ym. ym. Y.1 Y.2 ...Y.j ...Y.1 Y..y.1 y.2 ...y.j ...y.1 y.. Schéma dvojfaktorového experimentu s jedným pozorovaním v každej podtriede DAR riadkové súčty n-úrovní faktora B B m-úrovní faktora A Riadkové priemery Stĺpcové súčty stĺpcové priemery celkový priemer
Overujeme platnosť dvoch nulových hypotéz Model pre skúmaný znak môžme zapísať Hypotéza pre faktor A: Ho 1: 1 = 2 =… i = m =0 t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H11 :i 0 pre aspoň jedno i (i = 1,2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly
Hypotéza pre faktor B: Ho2: 1 = 2 =… j = n =0 t.j. že efekty všetkých úrovni faktora B sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H12 : j 0 pre aspoň jedno j (j = 1,2…m) efekt j aspoň jednej j - úrovne faktora B je preukazný, významne odlišný od nuly
Výsledná tabuľka ANOVY 3 Priem. štvorec (1/2) 4 F-krité rium 1 Súčet štvorcov odchýlok 2 Stupne voľnosti DAR Variabilita Variabilita medzi riadkami S1 s12 m-1 Variabilita medzi stĺpcami n-1 s22 S2 Reziduálna variabilta Sr sr2 (m-1)(n-1) Celková variabilita Sc m.n -1
Rozklad celkovej variability skúmaného znaku: Sc= S1 +S2 +S r Variabilita medzi riadkami, vplyv faktora A Variabilita medzi stĺpcami, vplyv faktora B Reziduálna variabilita Celková variabilita
Dvojfaktorová analýza rozptylu s opakovaním • Uvažujme vplyv dvoch faktorov: faktora A, ktorý skúmame na m - úrovniach, i = 1,2,….,m a faktoraB, ktorý sledujeme na n - úrovniach , j = 1,2, …, n • Skúmame nielen individuálny vplyv daných faktorov, ale aj ich vzájomné pôsobenie (interakciu) • Pre každú kombináciu úrovní máme viac pozorovaní (opakovaní) yij • Overujeme tak vplyv troch nulových hypotéz
Overujeme platnosť troch nulových hypotéz Model pre skúmaný znak môžme zapísať Hypotéza pre faktor A: Ho : 1 = 2 =… i= m =0 t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H1 :i 0 pre aspoň jedno i (i = 1,2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly
Hypotéza pre faktor B: Ho: 1 = 2 =… j = n =0 t.j. že efekty všetkých úrovni faktora B sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H1 : j 0 pre aspoň jedno j (j = 1,2…m) efekt j aspoň jednej j - úrovne faktora B je preukazný, významne odlišný od nuly Hypotéza pre interakciu ()ij: Ho : 11 = 12 =… ij= mn=0 t.j. že pôsobenie interakcie je nulové, teda nepreukazné, oproti alternatívnej hypotéze H1 :()ij 0
Výsledná tabuľka ANOVY 3 Priem. štvorec (1/2) 4 F-krité rium 1 Súčet štvorcov odchýlok 2 Stupne voľnosti DAR Variabilita Variabilita medzi riadkami S1 m-1 s12 Variabilita medzi stĺpcami n-1 s22 S2 S12 s122 Interakcia (m-1)(n-1) Reziduálna variabilta Sr m.n.(k-1) sr2 Celková variabilita Sc m.n -1
Rozklad celkovej variability skúmaného znaku: Sc= S1 +S2 +S12 +S r Variabilita medzi riadkami, vplyv faktora A Variabilita medzi stĺpcami, vplyv faktora B Variabilita z interakcie Reziduálna variabilita Celková variabilita
Metódy viacnásobného porovnávania • v prípade, že H0 zamietame, zaujíma nás, medzi ktorými strednými hodnotami existujú štatisticky významné rozdiely • existuje široká škála testov zameraná na viacnásobné porovnanie výberových priemerov • Ktoré priemery sú významne rozdielne? • použijeme test kontrastov • testy, ktoré robia dve alebo viac porovnaní medzi tromi alebo viacerými priemermi • je možné vytvoriť m*(m-1)/2 kontrastov • veľký počet testov
Testy kontrastov • Fischerov LSD test • Duncanov test • Student-Newman-Keulsov test • Tukeyho test • Scheffeho test
Fischerov LSD test • LSD = Least Significant Difference • je založený na t-teste • štatisticky významný rozdiel je potvrdený, ak platí vzťah: • kde: kritická hodnota t rozdelenia pri m(n-1) stupňoch voľnosti
Duncanov test • štatisticky významný rozdiel je potvrdený, ak platí vzťah: • kde: tabuľovaná hodnota Duncanovho testu pre daný počet rozdielov a pri reziduálnom stupni voľnosti
Student-Newman-Keulsov test • štatisticky významný rozdiel je potvrdený, ak platí vzťah: • kde: tabuľovaná hodnota Student-Neumannovho - Keulsovho testu pre daný počet porovnávaných rozdielov a pri reziduálnom stupni voľnosti
Tukeyho test • štatisticky významný rozdiel je potvrdený, ak platí vzťah: • kde: tabuľovaná hodnota Tukeyho testu.
Scheffeho test • štatisticky významný rozdiel je potvrdený, ak platí vzťah: • kde: kritická hodnota F rozdelenia pri (m-1) a m(n-1) stupňoch voľnosti
Ktorý test použiť? viac konzervatívny, menej pravdepo-dobné, že bude objavený skutočný rozdiel viac pravdepo-dobné,, že bude určený nesprávny rozdiel
Ktorý test použiť? • závisí, ktorý typ chyby je akceptovateľnejší z hľadiska analýzy daného problému, t.j. neurčenie rozdielu, ak skutočne existuje, resp. určenie rozdielu, ktorý neexistuje.
Testy kontrastov - Statgraphics • MultipleRangeTests Method: 95,0 percent LSD CountMeanHomogeneousGroups Col_4 5 303,8 X Col_3 5 337,0 XX Col_1 5 344,2 X Col_2 5 349,8 X ContrastSig.Difference+/- Limits Col_1 - Col_2 -5,6 38,7085 Col_1 - Col_3 7,2 38,7085 Col_1 - Col_4 * 40,4 38,7085 Col_2 - Col_3 12,8 38,7085 Col_2 - Col_4 * 46,0 38,7085 Col_3 - Col_4 33,2 38,7085 * denotes a statisticallysignificantdifference.
Overenie zhody variability • predpokladáme, že skúmané výberové súbory majú približne normálne rozdelenie a rozdiely rozptylov medzi testovanými skupinami sú nepreukazné. • H0: • Testy: • Cochranov test • Hartleyov test • Bartlettov test
Cochranov test • je ho vhodné použiť, ak u skúmaných výberových súborov sú značné rozdiely medzi rozptylmi • testovacia charakteristika: • ak G ≥ Gα, m, n-1 → H0 zamietame • Gα, m, n-1 - tabuľková hodnota pri m a n-1 stupňoch voľnosti
Hartleyov test • testovacia charakteristika: • ak H ≥ Hα, m, n-1 → H0 zamietame • Hα, m, n-1 - tabuľková hodnota pri m a n-1 stupňoch voľnosti
Bartlettov test • spočíva v porovnávaní aritmetického a geometrického priemeru rozptylov. Ak sú rozptyly rovnaké, potom aj priemery sú rovnaké. • testovacia charakteristika: ki = ni-1 m – počet výberových súborov ni – rozsah i-teho výberového súboru Ak χ2χ2(m-1), potom H0 zamietame
Overenie zhody variability - Statgraphics • VarianceCheck TestP-Value • Bartlett's 1,70592 0,0517136