350 likes | 592 Views
ANOVA. Iveta Waczulíková Peter Slezák Fakulta matematiky, fyziky a informatiky UK Ústav simulačného a virtuálneho medicínskeho vzdelávania LF UK. „Dobré odpovede pochádzajú z dobrých otázok a nie z ezoterickej analýzy.“ H.M.Schoolman.
E N D
ANOVA Iveta Waczulíková Peter Slezák Fakulta matematiky, fyziky a informatiky UK Ústav simulačného a virtuálneho medicínskeho vzdelávania LF UK
„Dobré odpovede pochádzajú z dobrých otázok a nie z ezoterickej analýzy.“ H.M.Schoolman
http://www.psych.utah.edu/stat/introstats/web-text/1-ANOVA_indep/index.htmhttp://www.psych.utah.edu/stat/introstats/web-text/1-ANOVA_indep/index.htm
Viacnásobné porovnania • Prečo nie viacej t-testov? • α = 0,05 → tri porovnania α = (1-(0,95)3) ≈14% → analysis of variance (ANOVA) Predpoklady: Nezávislé merania (podľa dizajnu) Normálne rozdelenie populácií Homogenita variancií (homoskedasticita)
AnalysisofVariance (ANOVA) Základné pojmy:Faktorje kategorická premenná, ktorá môže nadobúdať niekoľko úrovní, ktoré definujú/odlišujú skupiny. Experiment má jedno-cestný (one-way),alebocompletely randomized, dizajnak je študovaných niekoľko úrovní jedného faktora a subjekty/objekty sú náhodne pridelené k jednotlivým úrovniam faktora. • príklad:štúdium účinnosti štyroch rôznych antipiretík. • Avšak vplyv pohlavia a rôznych antipiretík by bol už dvojcestný (two-way) dizajn. - Zovšeobecnenie dvojvýberového (nepárového) t-testu - Model One-way ANOVAsa používa na analýzu completely randomizeddizajnu.
One-way ANOVA model • Hypotézy • H0 : priemery všetkých skupín sú rovnaké • H1 : aspoň dva priemery sá navzájom líšia • Predpoklady: • Približne normálne rozdelenie dát • Homoskedasticita (približne rovnaké variancie) • Nezávislé pozorovania • ANOVA - sú skupinové efekty akdôležité? t.j. – existujú rozdiely medzi priemermi jednotlivých skupín? μ Model: Yik= μ +ak+εik
ANOVA F-štatistika F-štatistikaporovnáva variabilitu, ktorú môžeme pripísať špecifickým zdrojom (úrovniam faktora) s variabilitou medzi jednotlivcami, ktorý by mali byť približne rovnaký (subjekty/objekty v rovnakej skupine). Rozdiely v priemeroch relatívne malé v porovnaní s celkovou variabilitou Rozdiely v priemeroch relatívne veľké v porovnaní s celkovou variabilitou F bude malé F bude veľké
ANOVA suma štvorcov (SumofSquares) Celková SS μ SS medzi skupinami SS v rámci skupín (error) Model: Yik= μ +ak+εik
ANOVA tabuľka SST SSA SSE = + F štatistika má Fisher-Snedecorovo F rozdelenie s (k-1),(N-k) stupňami rovnosti
Overenie predpokladov • reziduá • Normalita rozdelenia • Graficky • Testy • Popisná štatistika • Homogenita rozptylov • Levene’s, Bartlett’s, Fliegner-Killeen’s test … • Keď nie sú predpoklady splnené: • Robustnosť testu • Normalita • Transformácia dát • Kruskal-Wallisa ďalšie neparametrické testy • Homogenita rozptylov • Transformácia dát • Welch’s ANOVA, Brown-Forsythe’s test
Obsah: • Štatistické testovanie hypotéz • Výber vhodného štatistického testu • ANOVA • Post-hoc testy, viacnásobné porovnania
Metódy viacnásobných porovnaní (MCP) • Výsledok analýzy variancie – minimálne dva priemery sa navzájom odlišujú. Z tejto analýzy však nevieme povedať ktoré. • Základné pojmy • Chyba prvého druhu (chyba typu α) – je definovaná ako pravdepodobnosť zamietnutia nulovej hypotézy, keď je táto pravdivá. • Type I error rate • α Za predpokladu nezávislých porovnaní je pravdepodobnosť výskytu aspoň jedného významného výsledku (p < 0,05) pôsobením náhody 100(1.00 - 0.95N) Kde N je celkový # porovnaní
Metódy viacnásobných porovnávaní • Bonferroniho, Dunnettova, Tukeyho HSD, (Tukey–Krammer), Newman-Keulsova, Duncanova, Fisherovo LSD, Scheffého... • Treba rozdeliť chybu prvého druhu medzi všetky vzájomné porovnania • Čím menej porovnaní tým lepšie! • Bonferroniho • Modifikované t-testy • α’ = α/c, kde c – počet porovnaní Reziduálny rozptyl z ANOVA tabuľky
Type I error rate „Počítanie“ Chýb Testujeme hypotézy H1, H2, ..., Hm m0 = # pravdivých nulových hypotéz R = # zamietnutých nulových hypotéz V = # chýb I typu (α) i.e. Error rate • Keď je v článku uvedené “p-values wereadjustedfor the number ofhypothesis tests performed(numberofcomparisons)” myslené je tým kontrolovanie výskytu chyby I typu (Type I error rate - V) • Aktívna oblasť štatistiky – veľké množstvo (aj nových) metód • Viacej rozdielnych prístupov s rovnakým cieľom avšak dosahovaný fundamentálne rôznym spôsobom
Kontrola výskytu chyby I typu (error rate) • Comparisonwise errorrate(CWER) – každé individuálne porovnanie (hypotéza) je testované na dopredu stanovenej hladine významnosti α(= 0,05) • Hlavne exploratívneštúdie a plánované porovnania • Familywise (experimentwise) error rate (FWER) – celková pravdepodobnosť chyby I typu pre všetky porovnania (rodinu) je rovná dopredu stanovenej hladine významnosti α. Chyba I typu sa (v celej rodine porovnaní) vyskytne najmenej jeden krát s pravdepodobnosťou α. • Weak • Strong • Vhodné pri „konfirmatórnych“ štúdiách • Falsediscovery rate (FDR) – kontrolovaná je predpokladaná proporcia chýb I typu medzi všetkými zamietnutými hypotézami. FDR je dizajnovaná na kontrolu proporcie falošne pozitívnych výsledkov v skupine všetkých pozitívnych výsledkov (zamietnutí nulovej hypotézy) • Benjamini and Hochberg, 1995 • Hlavne exploratívne štúdies veľkým počtom porovnaní (stovky, tisíce) # „chybne“ signifikantných Celkový # signifikantných
Metódy viacnásobných porovnaní po one-way ANOVA delenie „z praktického pohľadu“ Porovnávame k skupín s priemermi μ1, μ2, ..., μk Typy viacnásobných porovnaní: All-ContrastComparisons - všetky možné kontrasty All-PairwiseComparisons- všetky párové porovnania k(k - 1)/2 Multiple Comparisons with the Best – porovnanie všetkých skupín s najlepšou skupinou (najvyšší/najnižší priemer) Multiple Comparisons with the Control – porovnanie s kontrolnou skupinou Delenie z HSU, 1996 C Kontrola A B
Metódy viacnásobných porovnaní po one-way ANOVA delenie „z praktického pohľadu“ Klasifikácia metód viacnásobného porovnania: • Single-step (simultaneous) • Rovnaká adjustácia na každú hodnotu pravdepodobnosti p (p-value) • umožňujú spočítať simultánne intervaly spoľahlivosti • Stepwiseprocedures (sequential) • Adjustácia je prispôsobená pre každú p hodnotu • Vo všeobecnosti majú väčšiu silu
Post-hoc testy (delenie) IBM SPSS 20 Single step Stepwise Porovnanie skontrolou
IBM SPSS 20 Comparisonwiseerrorrate - CWER Familywise (experimentwise) errorrate - FWER (week) Familywise (experimentwise) errorrate - FWER (srong) Pozn.: LSD môže byť buď FWER (week) alebo CWER podľa toho či sa použije len po významnom výsledku ANOVA alebo bez ohľadu naň.
Niečo málo k ďalším metódam čo SPSS neobsahuje InVivoStat - http://invivostat.co.uk • Ďalšie metódy: • Hsu’s multiple comparisons with best (MCB) • Holm (Shaffer, Hommel, Hochberg) • StepwiseDunnet • FDR – FalseDiscorery Rate (Benjamini, Hochberg, 1995) • ↑ sily FDR je za cenu ↑ počtu porovnaní, ktoré sú chybne prehlásené za signifikantné. FDR zaisťuje, aby výskyt týchto chýb bol na vopred definovanej úrovni • FDR kontrola má zmysel pri nekonfirmatórnych/exploratívnych nastaveniach ako sú generické pre-klinické štúdie, kde je určitá proporcia chýb akceptovateľná Benjamini and Hochberg. ControllingtheFalseDiscorery Rate: a Practical and PowerfulApproach to MultipleTestingJ R StatSocSeries B, 57, 1995, 289-300
Benjamini a Hochberg FDR • Pre kontrolu FDR na úrovni δ: 1. Usporiadajte neadjustované hodnoty p: p1 ≤ p2 ≤ ... ≤ pm 2. Nájdite porovnanie/test s najvyšším poradím j, pre ktorý je p hodnota, pj, rovná alebo menšia ako (j/m) x δ 3. Testy/porovnania s poradím 1, 2, ..., j prehláste za signifikantné - Tento prístup sa používa na „analýzu“ súboru p hodnôt a nie je obmedzení na použitie pri ANOVA
Holm (Bonferoni) • Pre testovanie na hladine významnosti α (i.e. 5%): • Usporiadajte neadjustované hodnoty pod najmenšieho po najväčšie • Definujte číslo K rovné počtu porovnaní, ktoré plánujete spraviť • Začnite s najmenšou p hodnotou a položte i = k. Ak je táto p hodnota • väčšia ako α/i uzatvárame, že žiadne z analyzovaných k porovnaní nie je štatisticky významné • menšia ako α/i uzatvárame, že porovnanie, ktorému odpovedá táto p hodnota je štatisticky významné a pokračujeme. • Pokračujeme s druhou najmenšou p hodnotou. Položíme i = k-1 a pokračuje ako v predošlom bode až pokým nenájdeme porovnanie, ktoré nie je štatisticky významné - Tento prístup sa používa na „analýzu“ súboru p hodnôt a nie je obmedzení na použitie pri ANOVA Holm, S. (1979). A simple sequentially rejective multiple test procedure. Scand J Stat 6: 65–70.
Záver Misconception: • používanie párových porovnaní len po významnom výsledku ANOVA Ktoré metódy používať: • Neexistuje jedna „najlepšia“ metóda • Potrebujeme simultánne intervaly spoľahlivosti (Tukey HSD, Dunnet) • Nepotrebujeme CI – strong FWER stepwise metódy • Protected (t-test) LSD (pre 3 skupiny) • REGW-., Holm (alebo podobné) • StepwiseDunnet • FDR – pri veľkom počte porovnaní (stovky, tisíce) • Kontrasty pre plánované hypotézy • Metódy pre prípad nerovnakých rozptylov • Výsledky ANOVA (F-test) a MCP nemusia súhlasiť
Ďalšie modely analýzy variancie • Two-way (multi-way) ANOVA • Hierarchický dizajn (fully nested) ANOVA • Faktoriálový dizajn • Dizajn s opakovanými meraniami • Latin squares
Two-way ANOVA • V istom zmysle zovšeobecnenie párového t-testu • Model: yij= μ + ai + bj+ (γij) + εij • Pevný efekt – je nenáhodný, volí ho experimentátor, dáta sú väčšinou zbierané pri všetkých možných kategóriách tohto faktora - nezávislej premennej, (napr.: BHR, SHR, normotenzné) • Náhodný efekt – väčšinou ich určuje príroda, tvoria nekonečne veľký súbor (napr.: vrhy mláďat)
Interakcie • keď sú prítomné viac ako dva faktory • sťažujú interpretáciu výsledkov
Neparametrické metódy analýzy variancie • Kruskal-Wallisov test (jednofaktorová ANOVA) • Zovšeobecnenie Mann-Whitney testu • H0 : v každom z pozorovaných súborov je rovnaké rozdelenie vyšetrovanej náhodnej veličiny • Test založený na poradí dát (rovnako ako Mann-Whitey) • Test je citlivý voči posunutiu (zmena strednej hodnoty) • Predpoklady: - Náhodné výbery z populácií - Nezávislosť meraní v každom výbere a vzájomná nezávislosť medzi výbermi - Mierka dát minimálne ordinálna • Neparametrické metódy viacnásobných porovnaní • Friedmanov test (dvojfaktorová ANOVA)
Čo nebolo spomenuté: • Fixed, random, mixedeffekty • Zložitejšie dizajny a modely (nested, latinsquares, factorial ...) • GLM: Vzťah t-test, ANOVA, OLS regresia • Kontrasty (ortogonálne, variancepartitioning) • plánované vs. neplánované porovnania