1 / 49

Statistica chemiometrica Corso di Laurea: Biologia della Salute A.A. 2011-2012 ANOVA

Statistica chemiometrica Corso di Laurea: Biologia della Salute A.A. 2011-2012 ANOVA Analysis Of VAriance Introduzione all’Analisi della Varianza. Bologna: Ist . Anatomia Umana (Via Irnerio ) Aula B 24-11-2011 ore 14-16. Dr. Antonio Gnes.

tim
Download Presentation

Statistica chemiometrica Corso di Laurea: Biologia della Salute A.A. 2011-2012 ANOVA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistica chemiometrica • Corso di Laurea: Biologia della Salute • A.A. 2011-2012 • ANOVA • Analysis Of VAriance • Introduzione all’Analisi della Varianza Bologna: Ist. Anatomia Umana (Via Irnerio) Aula B 24-11-2011 ore 14-16 Dr. Antonio Gnes

  2. IL CONFRONTO TRA LE MEDIE DI DUE O PIU' GRUPPI Nella ricerca sperimentale, il caso più frequente è il confronto simultaneo tra le medie di due o più gruppi formati da soggetti sottoposti a k trattamenti differenti o con dati raccolti in k condizioni diverse. Al fine di verificare la diversità fra medie (almeno due differiscano tra di loro) è stata sviluppata una metodologia chiamata analisi della varianza e indicata con ANOVA dall’acronimo dell'inglese ANalysis Of Variance. Per tale metodica si usa la distribuzione F. L’ANOVA, che costituisce la base della statistica moderna, permette anche di scomporre e misurare l'incidenza delle diverse fonti di variazione sui valori osservati di due o più gruppi. Da essa sono derivate le analisi più complesse, con le quali si considerano contemporaneamente molti fattori sia indipendenti che correlati. La grande rivoluzione concettuale introdotta dall’analisi della varianza rispetto al test t consiste nel differente approccio alla programmazione dell’esperimento. Tale approccio consente una grande combinazione delle condizioni sperimentali.

  3. Misure effettuate dagli studenti del corso di Chimica Analitica in aula B dell’Istituto di Anatomia Umana di Bologna il 15-11-2011. È stato misurato il lato di un parallelepipedo di plastica con calibro digitale avente accuracy di +/-0.02 mm e ripetibilità di 0.01 mm

  4. 13,75 13,77 13,79 13,79 13,81 13,81 13,81 13,82 13,84 13,84 13,87

  5. Test Q di Dixon per outlier (vedi Miller. Statistics for Analytical Chemistry 3° Edition pagg. 63-64) Q = ABS (valore sospetto – valore più prossimo )/ (valore maggiore – valore minore) Q = ABS (14.33-13.99)/(14.33-13.65) = 0.5 (per N=10 Qcrit=0.464 ) La distribuzione non è normale in quanto Q calcolato (0.5) è superiore al tabulato (0.464 Tab. A4 pag. 224 del Miller) Ad analogo risultato si è arrivati con il test di Shapiro-Wilks Esempio pag 46 di Skoog & West (Editore Piccin, 1970) È stata determinata la percentuale di ossido di calcio in un campione di calcite mediante 6 repliche in % : 55.95-56.00-56.04-56.08-56.23-56.06 Si sospetta che il valore 56.23 sia un outlier Q = ABS (56.23-56.08)/(56.23-55.95)= 0.536 (Per N=6 Q crit = 0.621 Il valore 56.23 non è un outlier

  6. 55,95 56,00 56,04 56,08 56,23 56,06

  7. One Way ANOVA ANalysis Ov VAriance

  8. Questo è lo schema tabulare dell’ ANOVA one way

  9. Per i calcoli vedi Excel a parte e Miller pag. 66-69

  10. 4,28 4,21 4,30 4,36 4,26 4,33

  11. ANOVA sui due gruppi di studenti che hanno effettuato le misure Femm Masch 13,81 13,99 13,81 13,77 13,79 13,79 13,81 13,84 14,33 13,84 13,65 13,75 13,87 13,82

  12. CONDIZIONI DI VALIDITA’ DELL’ANOVA Prima dell’applicazione di questo test parametrico, occorre verificare se esistono le seguenti condizioni. Gli errori devono: a) essere tra loro indipendenti, b) essere distribuiti normalmente; c) avere varianze dei diversi gruppi tra loro omogenee. CALCOLO DELLE DEVIANZE E DEI GRADI DI LIBERTA’ Dopo aver verificato le condizioni di cui sopra si calcolano: - la devianza totale, con i suoi gdl; - la devianza tra trattamenti o between, con i suoi gdl e la varianza relativa; - la devianza entro trattamenti o within od errore, con i suoi gdl e la varianza relativa. Si noti che: 1 - la devianza tra trattamenti più quella entro trattamenti è uguale alla devianza totale; 2 - identica proprietà additiva hanno i rispettivi gradi di libertà. Le formule per il calcolo deiparametri di cui sopra sono: Devianza totale = (vedi oltre) Gradi di libertà totali gdl = n – 1 (n = num. Dati) Nel caso di cui sopra: (4+3+3)-1=9 Devianza tra trattamenti = (vedi oltre) Gradi di libertà tra trattamenti gdl = p – 1 (p = num. gruppi) in questo caso 3-1=2

  13. Dividendo la devianza tra e la devianza entro per i rispettivi gradi di libertà, si ottengono - la varianza tra e la varianza entro. Dividendo la varianza tra per la varianza entro, si calcola il rapporto F, che deve essere riportato con i rispettivi gradi di libertà F(2,12) F = 0,251468/0,0990753 = 2,538 Il valore critico di F - con gdl 2 per il numeratore e 12 per il denominatore dalla tabella per la probabilità a = 0.05 è F = 3,89. Il valore calcolato (2,538) è inferiore a quello tabulato (3,89): - la probabilità che l'ipotesi nulla sia vera è superiore al 5%. Di conseguenza, si accetta l'ipotesi nulla: i tre campioni sono stati estratti dalla stessa popolazione; non esiste una differenza significativa tra le 3 medie campionarie.

  14. ESEMPIO DI ANOVA AD UN CRITERIO, CON DISCUSSIONE SULLE CONDIZIONI DI VALIDITA’ Si valuti l’effetto di quattro diete sul tempo di coagulazione del sangue, mediante assegnazione casuale (analisi totalmente randomizzata). 24 cavie sono state sottoposte a 4 tipi di dieta differenti. Successivamente a ognuna delle 24 cavie, prelevate in ordine casuale, è stato misurato il tempo di coagulazione (in secondi) su un campione di sangue.

  15. La devianza totale SQTOT (in inglese chiamata Total Sum of Squares, meno frequentemente Crude Sum of Squares) Con i dati dell’esempio, Sqtot = (62-64)2 + (60-64)2 ... (62-64)2 = 340 • Per comprendere come si stimano i gradi di libertà della devianza totale, è utile riprendere la formula euristica • Essa chiarisce che, per il calcolo della devianza totale, la somma deve essere fatta • per tutti gli n dati (xi ), ma che prima è necessario ricavare da essi la media generale. • ad essi occorre sottrarre l’informazione della media. • Pertanto, i gradi di libertà (degree of freedom df) della devianza totale sono n -1 • Con i dati dell’esempio, df = 24 -1 = 23

  16. 2 - La devianza tra trattamenti SQTRA (between treatment sum of squares) e i suoi gradi di libertà. Per stimare quanto della variabilità complessiva è dovuto alla differenza tra le medie dei gruppi, si ipotizza che i dati di ogni gruppo siano tutti uguali alla loro media (media di gruppo). Con k gruppi e con t n dati entro gruppo, la formula è (vedi oltre) E’ una devianza pesata, nella quale forniscono un contributo maggiore i gruppi - con una media di gruppoche dista maggiormente dalla media generale - e che hanno un numero maggiore di dati per gruppo. Con i dati dell’esempio (61 64) 4 (66 64) 6 (68 64) 6 (61 64) 8 228 = - 2 × + - 2 × + - 2 × + - 2 × = TRA SQ Anche in questo caso, esiste il problema delle medie con più decimali e dell’elevamento al quadrato delle loro differenze.

  17. Per stimare quanto della variabilità complessiva è dovuto alle differenze presenti entro ogni gruppo, si utilizza la formula Con i dati dell’esempio (62 61) (60 61) (63 61) (59 61) 10 = - 2 + - 2 + - 2 + - 2 = A SQ (63 66) (67 66) (71 66) (64 66) (65 66) (66 66) 40 = - 2 + - 2 + - 2 + - 2 + - 2 + - 2 = B SQ (68 68) (66 68) (71 68) (67 68) (68 68) (68 68) 14 = - 2 + - 2 + - 2 + - 2 + - 2 + - 2 = C SQ (56 61) (62 61) ... (63 61) (59 61) 48 = - 2 + - 2 + + - 2 + - 2 = D SQ da cui = 10 + 40 +14 + 48 = 112 E SQ Poiché tra le tre devianze esiste la proprietà additiva = 340 - 228 = 112 E SQ

  18. In altri termini, servono le n informazioni complessive, dalle quali occorre sottrarre le k informazioni rappresentate dalla media di ogni gruppo. Pertanto, i gradi di libertà (degree of freedom) della devianza totale sono n - k Con i dati dell’esempio, df = 24 - 4 = 20 La proprietà additiva delle tre devianze esiste anche tra i rispettivi gradi di libertà: n - k = (n -1)- (k -1) Con i dati dell’esempio 20 = 23 - 3 Per una visione complessiva dei calcoli effettuati e per meglio comprendere i passaggi successivi, è sempre utile riportare i risultati in una tabella

  19. Analisi dei residui Vedi grafico Excel a parte

  20. Per evidenziare la presenza di anomalie nei dati campionari, è preferibile il grafico • (il dot plot) : • - sull’asse delle ascisse sono riportate le medie dei campioni • sull’asse delle ordinate sono riportati i valori delle singole osservazioni. • Dalla osservazione, che dovrebbe essere poi confermata con test, emerge con chiarezza che • - all’aumentare dei valori medi aumenta la variabilità dei gruppi. • Ne deriva anche una diversa interpretazione della presenza dell’outlier: • - nell’ultimo gruppo, l’outlier forse non è reale ma forse solo apparente, poiché appartiene a un gruppo che tende ad avere una varianza maggiore • Per decidere in modo corretto, se si tratta di un outlier oppure di un gruppo con varianza maggiore, bisogna fare il test ( Q di Dixon o Shapiro Wilks)

  21. ANOVA a due criteri di classificazione senza repliche ocon repliche

  22. 1- la devianza totale, con 19 gdl, ottenuta come scarto al quadrato di ogni valore dalla media generale (28- 28,5)2 + (34 - 28,5)2 + (22 - 28,5)2 + ...+ (29 - 28,5)2 = 683,0 2 - la devianza tra trattamenti o tra zone, con 4 gdl, ottenuta come scarto quadratico di ognuna delle 5 medie di colonna dalla media generale, moltiplicato per il numero di dati di colonna (30,00 - 28,5)2 + 4 ×(27,25- 28,5)2 +...+ 4×(26,00 - 28,5)2 = 128,5 3 - la devianza tra blocchi o tra ore, con 3 gdl, ottenuta come scarto quadratico di ognuna delle 4 medie di riga dalla media generale, moltiplicato per il numero di dati su cui è calcolata la media 5×(26,2 - 28,5)2 + 5×(32,8- 28,5)2 +...+ 5×(33,8- 28,5)2 = 525,8 4 - la devianza d'errore e i suoi gdl possono essere calcolati in modo rapido per differenza:683,0 - 128,5 - 525,8 = 28,7 I gdl della devianza d'errore sono pure calcolati per differenza 19 - 4 - 3 = 12

  23. Per una presentazione sintetica dei dati raccolti al fine di verificare rapidamente i calcoli e per la successiva stima delle tre varianze necessarie ai due test F, con gli 8 valori stimati (4 devianze e relativi gdl) è utile costruire la tabella: La significatività della differenza tra zone è verificata con F4,12 =32,125/2,39= 13, 44 La significatività delle differenze tra ore è verificata con F3,12 =175,266/2,39= 73,33 I valori critici corrispondenti - alla probabilità a = 0.05 per Gdl=4-12 è uguale a 3,26 e per Gdl=3-12 è 3,49 - alla probabilità a = 0.01 per Gdl=4-12 è uguale 5,41 e per Gdl=3-12 è 5,95. Con probabilità a inferiore a 0.01 si rifiuta l’ipotesi nulla, sia per le medie delle zone che per le medie delleore. La differenza tra ore risulta maggiore di quella tra zone.

  24. La devianza d'errore è stata calcolata per differenza, sottraendo alla devianza totale quella tra trattamenti e quella tra blocchi. Per comprenderne più esattamente il significato, è necessario vedere quanto del valore di ogni osservazione è imputabile agli effetti congiunti della media generale, del fattore A e del fattore B (considerati nelle devianze relative) e quanto ai rimanenti fattori raggruppati nel residuo o devianza d’errore. Con i primi 3 fattori, per ogni valore Xpk osservato è possibile calcolare un valore X pk atteso, definito come X pk = X + ( X p - X ) + ( X k - X ) Dopo semplificazione, risulta che può essere stimato mediante X pk = X p + X k – X Con i dati dell’esercizio, dopo aver calcolato le medie marginali e quella totale, è possibile stimare in ogni casella, all’intersezione tra ogni riga e ogni colonna, quale è il valore atteso qualora agissero solamente i tre effetti considerati. La tabella sottostante riporta questi valori attesi X pk: Esplicitiamo il calcolo solo per il primo valore: 30.00+26.20-28.50=27.70

  25. Bibliografia: • “Statistics for Analytical Chemistry” J.C. Miller and J.N. Miller, • Second Edition, 1992, Ellis Horwood Limited • “Fundamentals of Analytical Chemistry” • Skoog, West and Holler, 7th Ed., 1996 • (Saunders College Publishing) • Chimica Analitica, Harris (Zanichelli) • Soliani, Fondamenti di Statistica Applicata, (UNIPR)

More Related