450 likes | 650 Views
Gegevensverwerving en verwerking. Bibliotheek. Staalname. - aantal stalen/replicaten - grootte staal - apparatuur. Statistiek. - beschrijvend - variantie-analyse - correlatie - regressie - ordinatie - classificatie. Experimentele setup. ANOVA (ANALYSIS OF VARIANCE).
E N D
Gegevensverwerving enverwerking Bibliotheek Staalname - aantal stalen/replicaten - grootte staal - apparatuur Statistiek - beschrijvend - variantie-analyse - correlatie - regressie - ordinatie - classificatie Experimentele setup
ANOVA (ANALYSIS OF VARIANCE) Statistische test gebruikt om na te gaan of groepen van waarnemingen significant van elkaar verschillen Voorbeeld 1 Staalnameplaats = station herhaling staalname: minimum 3 replicaten/station Verschillendestationsworden bemonsterd langs een gradient Veranderingen in : Saliniteit Licht Temperatuur Diepte ……. Waarnemingen : Tellingen/densiteiten Biomassa Pigmentconcentraties Diversiteit …..
ANOVA (ANALYSIS OF VARIANCE) Statistische test gebruikt om na te gaan of groepen van waarnemingen significant van elkaar verschillen Voorbeeld 2 Experiment - effect van verschillende behandelingen - effect op verschillende populaties Replicatie Waarnemingen : - concentraties - densiteiten ……….
ANOVA (ANALYSIS OF VARIANCE) Statistische test gebruikt om na te gaan of groepen van waarnemingen significant van elkaar verschillen Doel : vergelijking van groepen van waarnemingen Groepen aanduiden dmv ‘groeperende variabele’ Nulhypothese “ groepen verschillen niet” HO Voorbeeld 1 : stalen afkomstig van dezelfde populatie geen verschillen over omgevingsgradient Voorbeeld 2 : geen effect van behandeling geen verschil in gevoeligheid van verschillende populaties of organismen
ANOVA (ANALYSIS OF VARIANCE) Statistische test gebruikt om na te gaan of groepen van waarnemingen significant van elkaar verschillen Nulhypothese “ groepen verschillen niet” HO Hoe testen ? Natuurlijke variatie Variatie t.g.v. gradient behandeling Variatie binnen groepen tussen groepen Aanvaard (P > 0.05) === Verworpen <<< HO Significant verschil
2 mogelijke verklaringen voor het verschil tussen 2 gemiddelden : Beide groepen van 4 waarnemingen zijn afkomstig van 2 verschillende populaties Beide groepen zijn afkomstig van de extreme zijden van dezelfde populatie
Parametrisch of niet-parametrische testen t - test F - test Mann- Withney U test Wilcoxon test 2 groepen Kruskal-Wallis test ANOVA > 2 groepen Als een gekende distributie (normale of Poisson) als model voor data frequentie distributie kan gebruikt worden Voorwaarden : - willekeurige en onafhankelijke verzameling van gegevens (‘randomness and independence’ ingebouwd in staalname) - waarnemingen of data moeten normaal verdeeld zijn (eventueel na transformatie) • homogeniteit van de varianties (transformatie) • Bartlett’s test, Fmax test (gevoelig voor afwijkingen van normaliteit) Levene’s test - variantie onafhankelijk van het gemiddelde (transformatie)BELANGRIJKSTE ASSUMPTIE
Als een gekende distributie (normale of Poisson) als model voor data frequentie distributie kan gebruikt worden - waarnemingen of data moeten normaal verdeeld zijn (eventueel na transformatie)
Als een gekende distributie (normale of Poisson) als model voor data frequentie distributie kan gebruikt worden - homogeniteit van de varianties - variantie onafhankelijk van het gemiddelde Relatie gemiddelde - variantie Na transformatie Voor transformatie
Parametrisch of niet-parametrische testen t - test F - test 2 groepen t-test : vergelijking van gemiddelden van 2 stalen Nulhypothese : gemiddelde van beide groepen verschillen niet (2 zijdig) waarbijwordt uitgegaan van gelijke varianties t waarde vergelijken met getabelleerde waarde Van students T distributie voor bepaald aantal vrijheidsgraden Met s²p = SS1 + SS2 n1 + n2 ts = schatting – hypothese SD van verschil = variantie over beide groepen heen Indien groepen even groot zijn, is t-test ongevoelig voor heterogeniteit van varianties (xi- µ)2 σ ² = _______ N variantie
Parametrisch of niet-parametrische testen t - test F - test 2 groepen t-test : vergelijking van gemiddelden van 2 stalen waarbij nietwordt uitgegaan van gelijke varianties t waarde vergelijken met getabelleerde waarde F- test : vergelijking van varianties van 2 grote stalen (n>50) * F waarde vergelijken met getabelleerde waardevoor n1-1 en n2-1 vrijheidsgraden (*grootste variantie in teller) zie ook ANOVA
Parametrisch of niet-parametrische testen ANOVA > 2 groepen Natuurlijke variatie Variatie t.g.v. gradient behandeling Variatie binnen groepen tussen groepen Aanvaard === Verworpen <<< HO Significant verschil
Voor k groepen en n waarnemingen in totaal ANOVA - tabel Totalegemiddelde groepsgemiddelde Variatie tussen groepen (effect) Totale variatie Variatie binnen groepen (error) Som van de kwadraten (SS) = Variantie s² = MS =
Totalegemiddelde groepsgemiddelde Variatie tussen groepen (effect) Totale variatie SS = Variatie binnen groepen (error) Variantie s² = MS = SS / df ANOVA - tabel Bron van variatie Vrijheidsgraden (df) Som kwadraten SS Gemiddelde kwadraten MS = SS/df SS / n-1 Totaal n-1 Tussen k-1 SS / k-1 Binnen n-k SS / n-k
Bron van variatie Vrijheidsgraden (df) Som kwadraten SS Gemiddelde kwadraten MS = SS/df SS / n-1 Totaal n-1 Tussen k-1 x n/k SS / k-1 Binnen n-k SS / n-k Staalgrootte waarop gemiddelden zijn gebaseerd Totaal n-1 totale variantie over n waarnemingen Tussen k-1 variantie van groepsgemiddelden (x n/k) Binnen n-k gemiddelde van de groepsvarianties GetabelleerdeF distributie met k-1 en n-k vrijheidsgraden
F -ratio - F ratio is dus ratio van gemiddelde kwadraten tussen groepen en de gemiddelde kwadraten binnen groepen. - De F-ratio volgt een verwachte distributie volgens een bepaalde functie met 2 types vrijheidsgraden. - De F-distributie is dus een theoretische waarschijnlijkheidsdistributie - Er wordt steeds een F-distributie bekomen wanneer de varianties gelijk zijn.
Gebruikte voorbeelden steeds groepen met gelijk aantal waarnemingen (n/k) Indien k groepen van verschillende grootte, wordt MS tussen groepen Tussen k-1 x n/k vervangen door: met = aantal waarnemingen in groep i Wi df ipv Wi
Totaal n-1 totale variantie over n waarnemingen Tussen k-1 variantie van groepsgemiddelden (x n/k) Binnen n-k gemiddelde van de groepsvarianties Voorbeeld 1 Vergelijking van de inhoud van 3 pipetten (in ml) 3 groepen (k), 9 waarnemingen (n) Variatie tussen pipetten (effect) (df = 2) Totale variatie (df = 8) Natuurlijke variatie binnen groepen (error) (df = 6)
Voorbeeld 1 Vergelijking van de inhoud van 3 pipetten (in ml) 3 groepen (k), 9 waarnemingen (n) Variatie tussen pipetten (effect) (df = 2) Totale variatie (df = 8) Natuurlijke variatie binnen groepen (error) (df = 6) Bron van variatie Vrijheidsgraden (df) Som kwadraten SS Gemiddelde kwadraten MS = SS/df 95 Totaal n-1 Tussen k-1 x n/k 23.55 x 3 = 70.6 Binnen n-k 103.1
Voorbeeld 1 Vergelijking van de inhoud van 3 pipetten (in ml) 3 groepen (k), 9 waarnemingen (n) Bron van variatie Vrijheidsgraden (df) Som kwadraten SS Gemiddelde kwadraten MS = SS/df 95 Totaal n-1 Tussen k-1 x n/k 23.55 x 3 = 70.6 Binnen n-k 103.1 = 70.6 / 103.1 = 0.68 Getabelleerde F waarde voor 6 en 2 vrijheidsgraden = 19.33 => geen significant verschil tussen pipetten
Voorbeeld 1 Vergelijking van de inhoud van 3 pipetten (in ml) 3 groepen (k), 9 waarnemingen (n) = 70.6 / 103.1 = 0.68 Getabelleerde F waarde voor 2 en 6 vrijheidsgraden = 5.14 => geen significant verschil tussen pipetten Variatie binnen groepen = Variatie tussen groepen aanvaard HO Stalen afkomstig van dezelfde populatie of verschillen tussen pipetten liggen binnen teverwachten foutmarges. HO H 0 wordt aanvaard als de probabiliteit of waarschijnlijkheid groter is dan 5 % (of 0.05) H 0 wordt verworpen als de probabiliteit of waarschijnlijkheid kleiner is dan 5 % (of 0.05)
df teller df noemer Hypothese testen nulhypothese verwerpen of aanvaarden Type I error Nulhypothese verwerpen terwijl ze waar is kans zo klein mogelijk houden Beslissingsregel ingevoerd om de kans om een type I error te maken zo klein mogelijk te houden (kleiner dan 1% of 5 % ) = Significantie niveau
Totaal n-1 totale variantie over n waarnemingen Tussen k-1 variantie van groepsgemiddelden (x n/k) Binnen n-k gemiddelde van de groepsvarianties Voorbeeld 2 Vergelijking van de glucose concentratie (mg/l) in serum van muizen na 4 verschillende farmaceutische behandelingen (k); 6 muizen per behandeling => 24 waarnemingen(n) Variatie tussen behandelingen (effect) (df = 3) Totale variatie (df =23) Natuurlijke variatie binnen groepen (error) (df =20)
Voorbeeld 2 Vergelijking van de glucose concentratie (mg/l) in serum van muizen na 4 verschillende farmaceutische behandelingen (k); 6 muizen per behandeling => 24 waarnemingen(n) Bron van variatie Vrijheidsgraden (df) Som kwadraten SS Gemiddelde kwadraten MS = SS/df Totaal n-1 = 23 111057.9 4828.6 Tussen k-1 = 3 104060.45 5781.14 X 6 = 34686.8 Binnen n-k = 20 6977.5 349.9 Getabelleerde F waarde (df =3 en 20 en p = 5%) = 3.1 = 99.14 HO Verworpen => significante verschillen tussen behandelingen
ANOVA (ANALYSIS OF VARIANCE) Parametrische testen 1 effect of behandeling one way ANOVA Variatie tussen groepen (effect) Totale variatie Variatie binnen groepen (error) 2 effecten of behandelingen two way ANOVA Variatie effect 1 Variatie effect 2 Var. effect 1 en 2 Variatie tussen groepen (effect) Totale variatie Variatie binnen groepen (error)
Voorbeeld 1 en 2 : één groeperende variabele : 3 pipetten, 4 behandelingen slechts 1 effect = one way ANOVA two way ANOVA 2 groeperende variabelen om effect van twee variabelen (behandelingen, gradienten) tegelijk na te gaan Voorbeeld 3 Vergelijking van de glucose concentratie (mg/l) in serum van muizen na 2 types van behandelingen : behandeling 1 : toedienen van adrenaline op dag 14 behandeling 2 : infectie met Bordetella pertussis bacteriën Zelfde data als in voorbeeld 2 maar nu is groep A : controle (geen behandeling) groep B: infectie met pertussis groep C: toedienen van adrenaline groep D: beide behandelingen (adrenaline + pertussis)
Voorbeeld 3 Vergelijking van de glucose concentratie (mg/l) in serum van muizen na 2 types van behandelingen : behandeling 1 : toedienen van adrenaline op dag 14 behandeling 2 : infectie met pertussis bacteriën n = 24 k = 4 groep A : controle (geen behandeling) groep B: infectie met pertussis groep C: toedienen van adrenaline groepD: beide behandelingen (adrenaline + pertussis) Pertussis effect Adrenaline effect Adre + Pert df = 1 df = 1 df = 1 Variatie tussen groepen (effect) tgv behandeling df = 3 Totale variatie df = 23 Variatie binnen groepen (error) of natuurlijke variatie (residueel) df = 20
Voorbeeld 3 Pertussis adrenaline Pert x Adre tussen n = 24 k = 4 totaal Binnen (df) SS MS = SS/df Bron van variatie F ratio Totaal 23 111057.9 4828.6 Tussen 3 104060.45 34686.8 Pertus 1 77407.04 77407.04 * 221 Adren 1 22143.4 22143.4 * 63.3 In teractie 1 4510.04 4510.04 12.9 Binnen 20 6977.5 349.9 * variantie van groepsgemiddelden A+C en B+D x 12 (n/2) * variantie van groepsgemiddelden A+B en C+D x 12 (n/2)
Voorbeeld 3 Vergelijking van de glucose concentratie (mg/l) in serum van muizen na 2 types van behandelingen : behandeling 1 : toedienen van adrenaline op dag 14 behandeling 2 : infectie met pertussis bacteriën n = 24 k = 4 Drie nulhypothesen : (1) geen verschil in glucose tussen geinfecteerde en niet-geinfecteerde muizen (2) geen verschil in glucose met of zonder toevoeging van adrenaline (3) er is geen interactie tussen beide types behandelingen Getabelleerde F-waarde voor 1 en 20 vrijheidsgraden voor p = 0.05 is 4.35 HO Alle verworpen => significante verschillen tgv beide behandelingen en interactie tussen beide
Niet- geinfecteerd Geinfecteerd met Pertussis
Besluit : - Met Pertussis geinfecteerde muizen hebben een significant lager glucose gehalte dan niet geïnfecteerde muizen. - Toediening van adrenaline verhoogt significant de glucose spiegel in het serum van alle muizen - Toediening van adrenaline verhoogt de glucose spiegel meer bij niet geïnfecteerde muizen dan bij met Pertussis geïnfecteerde muizen.
Voorbeeld 4 Vergelijking van de glucose concentratie (mg/l) in serum van muizen na 2 types van behandelingen : behandeling 1 : toedienen van adrenaline op dag 14 behandeling 2 : infectie met pertussis bacteriën n = 24 k = 4 3 blokken van 2 waarnemingen Randomized blocks with nesting : Pertussis adrenaline Pert x Adre tussen totaal Binnen
Voorbeeld 4 Vergelijking van de glucose concentratie (mg/l) in serum van muizen na 2 types van behandelingen : behandeling 1 : toedienen van adrenaline op dag 14 behandeling 2 : infectie met pertussis bacteriën n = 24 k = 4 3 blokken van 2 waarnemingen Randomized blocks with nesting : Pertussis adrenaline Pert x Adre Blokken (2) Behandelingen (3) blok x behand (6) Tussen (11) totaal Binnen (12)
Voorbeeld 5 Vergelijking van de glucose concentratie (mg/l) in serum van muizen na 2 types van behandelingen : behandeling 1 : toedienen van adrenaline op dag 14 behandeling 2 : infectie met pertussis bacteriën n = 24 k = 4 Blocks without nesting (lower order effect) : Pertussis adrenaline Pert x Adre Blokken (5) Behandelingen (3) blok x behand (15) totaal Tussen (23) residuele
Vergelijkingen van gemiddelden Stel H0wordt verworpen bij ANOVA => er zijn significante verschillen tussen groepen Tussen welke ???? Vergelijking tussen paren en groepen van gemiddelden Welke paren of groepen men vergelijkt hangt af van wat men wil testen Indien onafhankelijk van het resultaat op voorhand is uitgemaakt welke groepen met elkaar worden vergeleken spreken we van GEPLANDE of A PRIORI vergelijkingen Vb testen van controle tov gemiddelde van verschillende experimentele behandelingen Indien afhankelijk van het resultaat bepaalde groepen met elkaar worden vergeleken spreken we van ONGEPLANDE of A POSTERIORI vergelijkingen. Deze testen omvatten de vergelijking van alle mogelijke paren van vergelijkingen a groepen => (a (a-1)/2 combinaties)
Voorbeeld 2 Tukey HSD test; Probabilities for Post Hoc Tests MAIN EFFECT: {1} {2} {3} {4} A {1} .000176 .000176 .000615 B {2} .000176 .000175 .027491 C {3} .000176 .000175.000175 D {4} .000615 .027491 .000175
Parametrisch of niet-parametrische testen 2 groepen t - test F - test Man Withney U test > 2 groepen ANOVA Kruskal Wallis test Friedman’s test one way two way In een parametrische test wordt er bij de nulhypothese uitgegaan van een bepaalde distributie en moeten de parameters (gemiddelde en variantie) van die distributie hetzelfde zijn voor elke groep (staal of experiment). Niet-parametrische testen die niet uitgaan van deze voorwaarden, zijn minder krachtig doordat ze niet alle aanwezige informatie gebruiken => RANKING In het geval van kleine stalen en geen normale distributie van de data zijnze echter krachtiger dan parametrische testen.
Mann Withney U test Twee onafhankelijke willekeurige stalen komen van dezelfde populatie met gelijke distributie en mediaan. (geen assumpties over vorm van distributie) HO Werkwijze (voor kleine groepen) : 1. Gooi alle waarnemingen van beide groepen samen en orden ze van laag naarhoog. 2. Vervang elke waarneming door zijn rankingsnummer 3. In het geval van gelijke waarnemingen wordt het gemiddelde berekend van de overeen- stemmende rankingsgetallen en dit aan de betreffende overlappende waarnemingen toegekend. 4. Beide groepen worden terug uit elkaar gehaald en de rankingsnummers per groep gesommeerd. 5. Vervolgens wordt per groep de U- coëfficient berekend. 6. De kleinste U coefficient wordt vergeleken met getabelleerde waarde voor welbepaalde n’s en p waarden. Indien kleinste U waarde kleiner dan U tabel bij een probaliteit groter dan 0.05 => H0 is verworpen
Voorbeeld 6 Twee ongelijke, onafhankelijke stalen van Mysidaceeën met grootte broed in marsupium of broedbuidel. Staal 1 n1 = 5 data 2 4 5 7 12 rank 1 2.5 4.5 6 8 Staal 2 n2 = 10 data 4 5 8 14 14 15 19 28 36 rank 2.5 4.5 7 9.5 9.5 11.5 13 14 15 U1 = 7 U2 = 43 U waarde bij 5 %en 5 en 10 vrijheidsgraden is gelijk aan 8 => H0 verworpen
Parametrisch of niet-parametrische testen > 2 groepen ANOVA Kruskal Wallis test one way Kruskall Wallis test Voor meerdere groepen van ongelijke grootte i = aantal groepen Ri = som van ranks in staal i ni = aantal waarnemingen in staal i K is bij benadering verdeeld als een chi-kwadraat distributie met i-1 df => H0 wordt verworpen indien K > met i-1 df en bij p = 0.05
Ook voor de niet-parametrische Kruskal Wallis test wordt er geen uitsluitsel gegeven over welke stalen-groepen significant van elkaar verschillen => methode om na te gaan welke paren significant van elkaar verschillen. De groepen i en j verschillen van elkaar indien : Ri = som van ranks in staal I t = twaarde (distributie) voor N-k df en bepaalde probaliliteit Met R(Xij) het rankingsnummer van de waarneming Xij gesommeerd over alle ranks
Parametrisch of niet-parametrische testen > 2 groepen ANOVA Friedman’s test two way met randomized blocks Friedman’s test - alleen voor n groepen met gelijk aantal waarnemingen - elke groep kan ingedeeld worden in aantal blokken(b) - bepalen van rangorde in elke blok (in geval van 4 behandelingen (a) ranking van 1 tot 4) Voorbeeld 5
Friedman’s test Voorbeeld 5 Deze waarde wordt vergeleken met de chi kwadraat waarde voor a-1 of 3 vrijheidsgraden en p< 0.05 = 7.815 => Indien groter H0 wordt verworpen Er is een significant verschil Niet parametrische test kan alleen verschillen tussen groepen aantonen; de test zegt niets over interacties tussen behandelingen.