1 / 48

ANALÝZA ROZPTYLU

ANALÝZA ROZPTYLU. PREDNÁŠKA. Čo je ANOVA, základné pojmy Hypotézy pri ANOVA Model ANOVA Jednofaktorová ANOVA - vyvážený pokus Prijatie rozhodnutia v ANOVA Predpoklady ANOVA Jednofaktorová ANOVA - nevyvážený pokus Dvojfaktorová ANOVA - bez opakovania

millie
Download Presentation

ANALÝZA ROZPTYLU

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ANALÝZA ROZPTYLU

  2. PREDNÁŠKA • Čo je ANOVA, základné pojmy • Hypotézy pri ANOVA • Model ANOVA • Jednofaktorová ANOVA - vyvážený pokus • Prijatie rozhodnutia v ANOVA • Predpoklady ANOVA • Jednofaktorová ANOVA - nevyvážený pokus • Dvojfaktorová ANOVA - bez opakovania • Dvojfaktorová ANOVA - s opakovaním • Metódy viacnásobného porovnávania • Overenie zhody variability

  3. Čo je ANOVA • analysisofvariance - analýza rozptylu • metóda na porovnávanie stredných hodnôt (priemerov) niekoľkých ZS • hľadanie rozdielov medzi priemermi sa zakladá na analýze rôznych foriem rozptylu • AR zároveň skúmavplyv kvalitatívneho faktora (faktorov) na výsledný kvantitatívny znak - teda analyzuje vzťahy medzi znakmi • ANOVA je zovšeobecnením Studentovhot-testu pre nezávislé výbery

  4. Čo je ANOVA • praktické využitie • najčastejšie sa AR používa pri vyhodnocovaní biologických experimentov • počet predaných výrobkov v závislosti od umiestnenia výrobku v regáli, atď.

  5. ZÁKLADNÉ POJMY • skúmaný štatistický znak • Označenie: y • výsledný kvantitatívny znak • napr. počet predaných výrobkov • faktor • Označenie: A., B, ... • je kvalitatívna premenná • úroveň faktora • jednotlivé obmeny faktora • určité množstvo kvantitatívneho faktora, napr. množstvo dávok čistých živín pri hnojení, rôzne príjmové skupiny domácností, • určitý druh kvalitatívneho faktora, napr. rôzne odrody tej istej plodiny, spôsoby umiestnenia výrobkov v predajni,

  6. Čo je ANOVA • pojmy • jednofaktorová/viacfaktorová ANOVA • skúmame vplyv jedného/viacerých faktor na kvantitatívnu premennú • vyvážená/nevyvážená ANOVA • podľa toho, či majú jednotlivé skupiny rovnaký rozsah n

  7. Čo je ANOVA • pri ANOVA porovnávame priemerné hodnoty kvantitatívnej premennej pri rôznych úrovniach faktora • napríklad porovnávame • priemerné výdavky obyvateľov so základným vzdelaním, priemerné výdavky stredoškolsky vzdelaného obyvateľstva, priemerné výdavky vysokoškolsky vzdelaného obyvateľstva 1 2 3

  8. A 1 2… j… n Yi . yi . 1 y11 y12 y1j y1n Y1.y1. 2 y21 y22 y2j y2n Y2. y2. … ……….. i yi1 yi2 yij yin Yi. yi. … ……….. m ym1 ym2 ymj ymn Ym. ym. Y..y.. Celkový súčet Schéma jednofaktorového Experimentu “vyvážený pokus” riadkový súčet riadkový priemer Úrovne faktora opakovania celkový priemer

  9. Model pre výslednú napozorovanú hodnotu kde i = 1, 2,…, m j = 1,2,…, n Kde:  - očakávaná hodnota pre všetky úrovne faktora a napozorované hodnoty, i- efekt i-tej úrovne faktora A eij - náhodná chyba, ktorým je každé meranie zaťažené, resp. výsledok vplyv náhodných činiteľov

  10. Hypotézy pri ANOVA alebo Nulovú hypotézu potom môžeme formulovať aj nasledovne: Ho : 1 = 2 =… i = m =0 t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H1: i  0 pre aspoň jedno i (i = 1,2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly

  11. Odhadmi jednotlivých parametrov sú nasledovné výberové charakteristiky: čo môžeme prepísať:

  12. Princíp ANOVY Podstata ANOVY spočíva v rozklade celkovej variabilityvýsledného skúmaného znaku Sr Sc S1 Variabilita medzi úrovňami faktora, spôsobená pôsobením faktora A, “variabilita medzi triedami, riadkami” Variabilita náhodná, reziduálna, “vo vnútri tried Celková variabilita

  13. Princíp ANOVY • Typy variability • celková variabilita • na koľko sa odchyľujú konkrétne hodnoty v skupinách od celkového priemeru • variabilita medzi skupinami • na koľko sa odchyľujú skupinové priemery od celkového priemeru • variabilita vnútri skupín • na koľko sa odchyľujú konkrétne hodnoty v skupinách od ich skupinového priemeru • čím väčšia je variabilita medzi skupinami v porovnaní s variabilitou vnútri skupín, tým väčší je účinok faktora

  14. priemerná suma štvorcov odchýlok priemerná sumaštvorcov rezid. odchýlok = F Prijatie rozhodnutia v ANOVA suma štvorcovodchýlok - faktor variabilita medzi skupinami • Testovacia štatistika (F) • porovnáva variabilitu S1a variabilitu Sr • čím väčšia je variabilita S1 • tým je vplyv faktora väčší • tým sú väčšie rozdiely medzi skupinovými priemermi • tým viac dôkazov máme pre prijatie alternatívnej hypotézy rezid. suma štvorcovodchýlok variabilita vnútri skupín celková suma štvorcov celková variabilita

  15. ANOVA Variabilita 3 Priemerný štvorec (1/2) 4 F-krité- rium 1 Súčet štvorcov odchýlok 2 Stupne voľnosti Variabilita medzi triedami s12 m-1 S1 Reziduálna variabilta sr2 m.n - m Sr Celková variabilita N-1= m .n-1 Sc Výsledná tabuľka ANOVY

  16. Ak F vyp  F Ho nezamietame F obor nezamietnutia Ho obor zamietnutia H0 kritický obor, Prijatie rozhodnutia v ANOVA • Ak F vyp F. ((m-1,(N-m))  Ho zamietame, v takom prípade je aspoň efekt jednej úrovne faktora preukazný, teda priemerná úroveň ukazovateľa sa štatisticky významne líši od ostatných. resp. aspoň jeden efekt i je štatisticky významne odlišnýod nuly.

  17. Predpoklady ANOVY • Nezávislosť výberových súborov • štatistická nezávislosť náhodných chýb eij • Normalita • výbery pochádzajú z normálnych rozdelení, narušenie tohto predpokladu nemá podstatnejší vplyv na výsledky AR • Homoskedasticita -zhodné reziduálne rozptyly 12 = 22 = …. = 2 , t.j. D(eij) = 2 tento predpoklad je závažnejší a možno ho overovať Cochranovým, resp. Bartlettovým testom

  18. A 1 2… j … ni Yi . yi . 1 y11 y12 y1j ...n1Y1.y1. 2 y21 y22 y2j ...n2Y2. y2. … ……….. i yi1 yi2 yij ...niYi. yi. … ……….. m ym1 ym2 ymj ...nmYm. ym. Y..y.. Schémajednofaktorovéhoexperimentu - “nevyváženýpokus” riadkový súčet riadkový priemer Rôzny počet opakovaní Úrovne faktora celkový priemer Kde

  19. Výsledná tabuľka ANOVY 3 Priemerný štvorec (1/2) 4 F-krité rium ANOVA Variabilita 1 Súčet štvorcov odchýlok 2 Stupne voľnosti Variabilita medzi triedami s12 m-1 S1 Reziduálna variabilta sr2 N - m Sr Celková variabilita N-1 Sc

  20. Dvojfaktorová analýza rozptylu bez opakovania • Uvažujme vplyv faktora A, ktorý skúmame na m - úrovniach, i = 1,2,….,m • ďalej uvažujme faktor B, ktorý sledujeme na n - úrovniach , j = 1,2, …, n • na každej i-tej úrovni faktora A a j-tej úrovni faktora B máme len jedno pozorovanie (opakovanie) yij • overujeme tak vplyv dvoch nulových hypotéz

  21. A 1 2 … j … n Yi . yi . 1 y11 y12 y1j y1n Y1.Y1. 2 y21 y22 y2j y2n Y2. y2. … ……….. i yi1 yi2 yij yin Yi. yi. … ……….. m ym1 ym2 ymj ymn Ym. ym. Y.1 Y.2 ...Y.j ...Y.1 Y..y.1 y.2 ...y.j ...y.1 y.. Schéma dvojfaktorového experimentu s jedným pozorovaním v každej podtriede DAR riadkové súčty n-úrovní faktora B B m-úrovní faktora A Riadkové priemery Stĺpcové súčty stĺpcové priemery celkový priemer

  22. Overujeme platnosť dvoch nulových hypotéz Model pre skúmaný znak môžme zapísať Hypotéza pre faktor A: Ho 1: 1 = 2 =… i = m =0 t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H11 :i  0 pre aspoň jedno i (i = 1,2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly

  23. Hypotéza pre faktor B: Ho2:  1 =  2 =…  j =  n =0 t.j. že efekty všetkých úrovni faktora B sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H12 : j  0 pre aspoň jedno j (j = 1,2…m) efekt  j aspoň jednej j - úrovne faktora B je preukazný, významne odlišný od nuly

  24. Výsledná tabuľka ANOVY 3 Priem. štvorec (1/2) 4 F-krité rium 1 Súčet štvorcov odchýlok 2 Stupne voľnosti DAR Variabilita Variabilita medzi riadkami S1 s12 m-1 Variabilita medzi stĺpcami n-1 s22 S2 Reziduálna variabilta Sr sr2 (m-1)(n-1) Celková variabilita Sc m.n -1

  25. Rozklad celkovej variability skúmaného znaku: Sc= S1 +S2 +S r Variabilita medzi riadkami, vplyv faktora A Variabilita medzi stĺpcami, vplyv faktora B Reziduálna variabilita Celková variabilita

  26. Dvojfaktorová analýza rozptylu s opakovaním • Uvažujme vplyv dvoch faktorov: faktora A, ktorý skúmame na m - úrovniach, i = 1,2,….,m a faktoraB, ktorý sledujeme na n - úrovniach , j = 1,2, …, n • Skúmame nielen individuálny vplyv daných faktorov, ale aj ich vzájomné pôsobenie (interakciu) • Pre každú kombináciu úrovní máme viac pozorovaní (opakovaní) yij • Overujeme tak vplyv troch nulových hypotéz

  27. Schéma dvojfaktorového experimentu s interkaciou

  28. Overujeme platnosť troch nulových hypotéz Model pre skúmaný znak môžme zapísať Hypotéza pre faktor A: Ho : 1 = 2 =… i= m =0 t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H1 :i 0 pre aspoň jedno i (i = 1,2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly

  29. Hypotéza pre faktor B: Ho:  1 =  2 =…  j =  n =0 t.j. že efekty všetkých úrovni faktora B sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H1 : j  0 pre aspoň jedno j (j = 1,2…m) efekt  j aspoň jednej j - úrovne faktora B je preukazný, významne odlišný od nuly Hypotéza pre interakciu ()ij: Ho :  11 =  12 =…  ij=  mn=0 t.j. že pôsobenie interakcie je nulové, teda nepreukazné, oproti alternatívnej hypotéze H1 :()ij 0

  30. Výsledná tabuľka ANOVY 3 Priem. štvorec (1/2) 4 F-krité rium 1 Súčet štvorcov odchýlok 2 Stupne voľnosti DAR Variabilita Variabilita medzi riadkami S1 m-1 s12 Variabilita medzi stĺpcami n-1 s22 S2 S12 s122 Interakcia (m-1)(n-1) Reziduálna variabilta Sr m.n.(k-1) sr2 Celková variabilita Sc m.n -1

  31. Rozklad celkovej variability skúmaného znaku: Sc= S1 +S2 +S12 +S r Variabilita medzi riadkami, vplyv faktora A Variabilita medzi stĺpcami, vplyv faktora B Variabilita z interakcie Reziduálna variabilita Celková variabilita

  32. Metódy viacnásobného porovnávania • v prípade, že H0 zamietame, zaujíma nás, medzi ktorými strednými hodnotami existujú štatisticky významné rozdiely • existuje široká škála testov zameraná na viacnásobné porovnanie výberových priemerov • Ktoré priemery sú významne rozdielne? • použijeme test kontrastov • testy, ktoré robia dve alebo viac porovnaní medzi tromi alebo viacerými priemermi • je možné vytvoriť m*(m-1)/2 kontrastov • veľký počet testov

  33. Testy kontrastov • Fischerov LSD test • Duncanov test • Student-Newman-Keulsov test • Tukeyho test • Scheffeho test

  34. Fischerov LSD test • LSD = Least Significant Difference • je založený na t-teste • štatisticky významný rozdiel je potvrdený, ak platí vzťah: • kde: kritická hodnota t rozdelenia pri m(n-1) stupňoch voľnosti

  35. Duncanov test • štatisticky významný rozdiel je potvrdený, ak platí vzťah: • kde: tabuľovaná hodnota Duncanovho testu pre daný počet rozdielov a pri reziduálnom stupni voľnosti

  36. Student-Newman-Keulsov test • štatisticky významný rozdiel je potvrdený, ak platí vzťah: • kde: tabuľovaná hodnota Student-Neumannovho - Keulsovho testu pre daný počet porovnávaných rozdielov a pri reziduálnom stupni voľnosti

  37. Tukeyho test • štatisticky významný rozdiel je potvrdený, ak platí vzťah: • kde: tabuľovaná hodnota Tukeyho testu.

  38. Scheffeho test • štatisticky významný rozdiel je potvrdený, ak platí vzťah: • kde: kritická hodnota F rozdelenia pri (m-1) a m(n-1) stupňoch voľnosti

  39. Ktorý test použiť? viac konzervatívny, menej pravdepo-dobné, že bude objavený skutočný rozdiel viac pravdepo-dobné,, že bude určený nesprávny rozdiel

  40. Ktorý test použiť? • závisí, ktorý typ chyby je akceptovateľnejší z hľadiska analýzy daného problému, t.j. neurčenie rozdielu, ak skutočne existuje, resp. určenie rozdielu, ktorý neexistuje.

  41. Testy kontrastov - Statgraphics • MultipleRangeTests Method: 95,0 percent LSD CountMeanHomogeneousGroups Col_4 5 303,8 X Col_3 5 337,0 XX Col_1 5 344,2 X Col_2 5 349,8 X ContrastSig.Difference+/- Limits Col_1 - Col_2 -5,6 38,7085 Col_1 - Col_3 7,2 38,7085 Col_1 - Col_4 * 40,4 38,7085 Col_2 - Col_3 12,8 38,7085 Col_2 - Col_4 * 46,0 38,7085 Col_3 - Col_4 33,2 38,7085 * denotes a statisticallysignificantdifference.

  42. Testy kontrastov - Statgraphics

  43. Overenie zhody variability • predpokladáme, že skúmané výberové súbory majú približne normálne rozdelenie a rozdiely rozptylov medzi testovanými skupinami sú nepreukazné. • H0: • Testy: • Cochranov test • Hartleyov test • Bartlettov test

  44. Cochranov test • je ho vhodné použiť, ak u skúmaných výberových súborov sú značné rozdiely medzi rozptylmi • testovacia charakteristika: • ak G ≥ Gα, m, n-1 → H0 zamietame • Gα, m, n-1 - tabuľková hodnota pri m a n-1 stupňoch voľnosti

  45. Hartleyov test • testovacia charakteristika: • ak H ≥ Hα, m, n-1 → H0 zamietame • Hα, m, n-1 - tabuľková hodnota pri m a n-1 stupňoch voľnosti

  46. Bartlettov test • spočíva v porovnávaní aritmetického a geometrického priemeru rozptylov. Ak sú rozptyly rovnaké, potom aj priemery sú rovnaké. • testovacia charakteristika: ki = ni-1 m – počet výberových súborov ni – rozsah i-teho výberového súboru Ak χ2χ2(m-1), potom H0 zamietame

  47. Overenie zhody variability - Statgraphics • VarianceCheck TestP-Value • Bartlett's 1,70592 0,0517136

  48. ĎAKUJEM ZA POZORNOSŤ

More Related