270 likes | 568 Views
Hoofdstuk 12 Complexe ANOVA/MANOVA modellen • Eénwegs en meerwegs repeated measures ANOVA MANOVA Random en mixed-model ANOVA Onvolledige (nested) designs Gebalanceerde vs. ongebalanceerde designs Model diagnose. Tom Wenseleeers, 22 oktober 2009. 12.1 Eénwegs repeated measures ANOVA
E N D
Hoofdstuk 12 • Complexe ANOVA/MANOVA modellen • • Eénwegs en meerwegs repeated measures ANOVA • MANOVA • Random en mixed-model ANOVA • Onvolledige (nested) designs • Gebalanceerde vs. ongebalanceerde designs • Model diagnose Tom Wenseleeers, 22 oktober 2009
12.1 Eénwegs repeated measures ANOVA • Eerder testten we of verschillende soorten irissen een verschillende kelkblad lengte hadden en of hommels van verschillende leeftijd en taakgroep een verschillende expressie van het FOR gen hadden. Hierbij werkten we steeds met verschillende individuen - we spreken in dat geval van een tussengroepsdesign. • Maar wat indien we herhaaldelijk dezelfde afhankelijke variabele meten bij dezelfde individuen? Bijvoorbeeld op een dier voor en na een behandeling, of op verschillende tijdstippen (longitudinale data)? • Indien je 1 factor hebt met 2 groepen dan zou je voor dit soort analyses een gepaarde (in tegenstelling tot een ongepaarde of tussengroeps) t-test gebruiken. • Analoog kan je wanneer je meerdere groepen van gepaarde metingen hebt repeated measures ANOVA doen.
•Voordelen van een repeated measures design je reduceert interindividuele variatie je hebt minder individuen nodig soms kan je nt. anders, bv. in longitudinaal onderzoek repeated measures laat ook toe je variabele nauwkeuriger te meten • Nadelen van een repeated measures design je kan previous experience of seizoenale effecten hebben daarom moet je als je kan in een gerandomiseerde volgorde werken • Soms kan je verschillende individuen ook analyseren als gepaarde metingen met een repeated measures ANOVA indien ze een belangrijke eigenschap gemeen hebben. • Bv. expressie bepaald gen bij bijen van dezelfde kolonie vergelijken voor en na een pesticide behandeling. Hoewel je voor en na verschillende werksters kan gebruiken kan je dit toch via een repeated measures ANOVA analyseren (althans indien je 1 replica hebt per kolonie). Bij meerdere replica's per kolonie: mixed model ANOVA en kolonie coderen als een random factor (zie verder).
• Voor medische trials zijn repeated measures designs dikwijls niet mogelijk. • Stel bv. je wil het effect van 3 verschillende medicijnen op de genezing van een tumor testen. • Indien je eerst een medicijn toedient dat de tumor geneest dan kan je later de andere niet meer testen. • Meestal zal er daarom gekozen worden voor een tussengroeps design, i.e. voor 'randomised controlled trials', waarbij verschillende personen gerandomiseerd worden toegekend aan bepaalde treatment groepen, en de behandeling dubbel blind gebeurt, zodat zowel de dokter als de patient niet weten of ze een placebo of een bepaald medicijn krijgen toegediend. • In het volgende voorbeeld zullen we echter een repeated measures ANOVA gebruiken om het effect van een treatment nauwkeuriger te meten.
• Voorbeeld: dataset 'fitness': effect op de conditie van drie soorten fitness (pilates/aerobics/zumba) wordt gemeten aan de hand van drie verschillende tests op dezelfde proefpersoon, en effect op de pols gemeten na drie inspannings-proeven (fietsen/joggen/sprinten) • We hebben nu 1 tussengroepsfactor (FITNESS) en 1 repeated measures factor (PROEF). Hier gebruiken we repeated measures gewoon om een nauwkeuriger beeld te krijgen van het effect op de conditie. • We zouden ook de pols van elke proefpersoon gemetentijdens elke proef vóór de training begon kunnen aftrekkenom te controleren voor verschillen in beginconditie.
• Resultaat • • Interpretatie • - sommige soorten fitness (zumba) werken beter dan andere (pilates/aerobics) • - sommige van de proeven vereisen een grotere fysieke inspanning • - het effect van fitness op de gezondheid is vooral duidelijk bij grote inspanningen (significant interactie effect)
12.2 Meerwegs repeated measures ANOVA • Repeated measures ANOVA kan ook gemakkelijk uitgebreid worden naar meerwegs analyses. Bv. indien we pols hadden gemeten zowel tijdens als direct na de inspanningsproef dan zou je 2 repeated measures factoren hebben, PROEF (met 3 meetniveau's) en VOOR/NA (2 meetniveaus). • In Statistica zou je dit als volgt ingeven (dataset 'fitness2'):
• Analyse in Statistica Let op volgorde:hangt af van hoedit is ingegevenin dataset. Traagst variërendefactor eerst. ← hier kan je kiezenniet alle interactieeffecten te fitten
• Resultaat • • Interpretatie • - als voordien • - plus: pols significant verschillend voor en na de inspanningsproef • - maar het verschil hiertussen hangt niet af van het gevolgde fitness schema (geen interactie effect) • - hogere orde interactie effecten niet significant
12.3 MANOVA • Soms willen we ook het effect van een aantal factoren op meer dan 1 afhankelijke variabele testen. In dat geval kunnen we MANOVA gebruiken. • Voorbeeld: stel dat we conditie hadden gemeten o.b.v. een heel aantal variabelen zoals pols, aantal witte en rode bloedcellen, concentratie melkzuur in de spieren, etc... dan zouden we een globaal beeld van het effect van het trainingsprogramma kunnen bekomen. Soms worden repeated measures ANOVAs ook geanalyseerd via MANOVA. • Analyse in Statistica: zelfde als bij repeated measures ANOVA, i.e. selecteer meerdere afhankelijke variabelen in de GLM module, maar specifieer geen within subjects effecten. • Analyse 'fitness' data via MANOVA: • Geeft in dit geval nt zo veel infomaar kan soms krachtiger zijn daneen groot aantal univariaat testen uit te voeren.
12.4 Random en mixed model ANOVA • In voorgaande analyses werkten we steeds met factoren die een vastgelegd aantal meetniveau's hebben, bv. sekse (mannelijk/vrouwelijk), soort behandeling, soort conditietraining, etc... Zulke factoren worden vaste of 'fixed' effecten genoemd. • In sommige gevallen zijn de meetniveau's van sommige van je factoren echter niet vooraf vastgesteld, maar zijn ze een staal uit een oneindig mogelijk aantal meetniveau's, bv. gebruikte proefveld, gebruikte proefdieren, onderzochte populatie, onderzochte bijenkolonie, etc... Zulke factoren worden willekeurige of 'random' effecten genoemd. • Modellen met enkel willekeurige factoren: random model ANOVA • Modellen met een combinatie van vaste en willekeurige factoren: mixed model ANOVA • In Statistica: Advanced Linear/Nonlinear Models...Variance Components ofvia GLM module (random factoren aanklikken onder Options)
• Repeated measures ANOVAs zijn in feite een specifiek geval van een mixed model ANOVA, waarbij proefpersoon een random factor is. • Onze eerdere 'fitness' dataset ↓ • Zouden we daarom ook zo kunnen ingeven → • PROEFPERSOON is hierbij een random factor enwordt ook wel een 'blocking factor' genoemd.Elke combinatie van factoren komt voor elkeproefpersoon ook maar 1 keer voor, zodat we van PROEFPERSOON enkel het hoofdeffect zullen kunnen schatten. We noemen dit soortdesign ook wel een randomized block design.
• Analyse in Statistica: dataset 'fitness3', module General Linear Models Between effects: specifieer effecten als voordien, met bijkomend hoofd-effect voor PROEFPERSOON Options: klik PROEFPERSOON aanals Random factor
• Analyse in Statistica: dataset 'fitness3', module Variance Components
• Resultaat: zelfde als voordien, maar met bijkomende schatting van proefpersoon effect (nt. nuttig, maar moet wel voor gecontroleerd worden) Repeated measures ANOVAop dataset 'fitness' (we gebruiken Type I SS omdat design gebalanceerd is, zie later) (opnieuw met Type I SS) GLM opdataset 'fitness3' Variance Componentsop dataset 'fitness3'
• In sommige gevallen zijn we expliciet geïnteresseerd in de variantie die verklaard wordt door random effecten. • Bv. in de populatiegenetica willen we graag weten hoeveel van de genetische variatie er tussen vs. binnen populaties ligt (FST). In de kwantitatieve genetica willen we graag weten hoeveel van de fenotypische variatie er verklaard wordt door vader en moeder effecten ('sire' en 'dam' effecten). • Voorbeeld: dataset 'schild', aantalrugschilden (DORS) i.f.v. de vaste factorsekse (SEX) en de random factor moeder (MOTHC) • Vraag: hebben hagedissen met dezelfdemoeder een gelijkaardig aantal rugschilden? We zouden dit verwachten indien dit kenmerk erfelijk is [erfelijkheid werd eerder reeds al gesuggereerd op basis van het feit dat er een sterke correlatie is tussen het kenmerk van jongen (DORS) en dat van hun ouders (DORSF/M)]. We corrigeren ook voor sekse (SEX) omdat we weten dat mannetjes iets groter zijn dan vrouwtjes en meer rugschilden hebben.
• Analyse in Statistica: Module Variance Components (omdat dataset ongebalanceerd iskiezen we nu Type III SS, zie later)
• Resultaten -Moeder + sekse effect sign. - 46% van de variantie in het kenmerk is tussen jongen van dezelfde moeders - dit is gelijk aan de correlatie in het kenmerk tussen jongen van dezelfde moeder - dat deze correlatie zo hoog ligt bevestigd dat het kenmerk waarschijnlijk erfelijk is (we schatten variantiecomponenten met restricted maximum likelihood, REML)
12.5 Onvolledige (nested) designs • in sommige gevallen is het niet mogelijk om metingen te doen voor alle combinaties van meetniveau's van al je factoren - we spreken dan van onvolledige of 'nested' designs • Voorbeeld. 4 soorten bemesting, maar slechts 2 proefvelden beschikbaar. We nesten dan BEMESTINGbinnen VELD om het effect op de groei van je gewas te testen, en VELD wordt gecodeerd als random factor (dataset 'veld') • Analyse in Statistica. General Linear Model...Nested Design... • Resultaten. Geen sign. verschiltussen verschillende bemestingenbinnen de 2 velden
• sommige types van onvolledige designs zal je trachten op te stellen zodat ze ideaal zijn voor het schatten van hoofdeffecten • Voorbeeld. Latin square design: layout veld als volgt (dataset 'bemesting') • In elke rij en kolom op het veld: elke soort bemesting komt exact 1 keer voor. Minst waarschijnlijk om dan een toevallige correlatie te hebben tussen je soort bemesting en 1 of andere omgevingsgradiënt. Beter dan pure randomisatie en uiteraard beter dan ze in stroken te plaatsen. • Dit soort designs kunnen in Statistica berekend worden met de module Industrial Statistics...Experimental Design; analyse kan via een GLM main effect ANOVA. • Resultaten. Geen sign. verschiltussen verschillende bemestingenbinnen de 2 velden SOORT BEMESTING
• Analyse in Statistica. General Linear Model...Main effect ANOVA... • Resultaat • Significant effect van soort bemesting op groei (BEMESTING) en geen significante omgevingsgradiënt (RIJ of KOLOM effect). • Hoeft niet om één veld te gaan, je kan ook verschillende plots hebben. Indien we het effect van het soort bemesting op de opbrengst zouden willen testen dan zou factor 1 bv. 1 van de 4 VELDEN kunnen zijn, factor 2 1 van 4 beschikbare VARIETEITEN van je gewas en de behandeling 1 van 4 mogelijke BEMESTINGEN. Je hebt dan maar 16 plots nodig om de hoofdeffecten te kunnen schatten i.p.v. 64 voor een volledig factorieel design. • Uitbreiding voor nog meer factoren: Greco-Latin squares etc... • Resultaten. Geen sign. verschiltussen verschillende bemestingenbinnen de 2 velden
12.6 Gebalanceerde vs. ongebalanceerde designs • wanneer we meerdere factoren hebben in een ANOVA dan moeten we proberen van van alle combinaties van factoren evenveel replica's te hebben - men spreekt van een gebalanceerde design • wanneer dataset niet gebalanceerd is dan ontstaat er ambiguiteit over hoe de gemiddelden en kwadratensommen dienen berekend te worden, bv. gemiddelden al dan niet gewogen met het aantal replica's per groep Type VI SS = effectieve hypothese decompositie: default voor gebalanceerde factoriële designs, op basis van unieke variantie verklaard door elke factor, maar kan niet altijd berekend worden, bv. voor gebalanceerde geneste designs Type I SS: goed voor gebalanceerde geneste designs, effecten worden sequentieel getest, nadeel is dat significanties afhangen van de volgorde waarin ze in het model gestopt worden, maar geen probleem indien effecten in logische volgorde kunnen geplaatst worden (wat het geval is bij geneste of factoriële designs) Type III SS: goed voor niet gebalanceerde designs, test op verschillen in gemiddelde, onafhankelijk van aantal replica's in een bepaalde groep zie The Analysis of Messy Data, Volume I: Designed Experiments (Milliken & Johnson 1993)
12.7 Model diagnose • outliers kunnen opgespoord worden en normaliteit en homogeniteit van de varianties kunnen getest worden zoals eerder getoond in de GLM module • met bepaalde complexe ANOVA designs (bv. wanneer ze ongebalanceerd zijn) kan het wel moeilijk zijn om alle assumpties adequaat te testen • ook de multivariaat normale verdeling verondersteld door MANOVA is moeilijk te testen • om deze reden zal ik hier minder op ingaan
Recap Afhankelijke variabele: 1, normaal verdeeld
Recap Afhankelijke variabele: > 1, multivariaat normaal verdeeld
Opdracht Tegen volgende week (28 oktober): probeer al de analyses die op de Powerpoints staan eens zelf uit te voeren. Datasets en trial versie van Statistica 8: op Toledo. Je mag me altijd mailen (tom.wenseleers@bio.kuleuven.be) in geval van problemen of onduidelijkheden.