1 / 123

Analisi della Varianza Giulio Vidotto Raffaele Cioffi

Analisi della Varianza Giulio Vidotto Raffaele Cioffi. Indice. Introduzione, Piano degli Esperimenti ad Un Solo Criterio di Classificazione, Verifica delle Ipotesi nell'Analisi della Varianza, Analisi della Varianza a Due Criteri di Classificazione,

Download Presentation

Analisi della Varianza Giulio Vidotto Raffaele Cioffi

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Analisi della Varianza Giulio Vidotto Raffaele Cioffi

  2. Indice • Introduzione, • Piano degli Esperimenti ad Un Solo Criterio di Classificazione, • Verifica delle Ipotesi nell'Analisi della Varianza, • Analisi della Varianza a Due Criteri di Classificazione, • Piano degli Esperimenti a Due Criteri Con Replicazione, • Quadrato Latino.

  3. Introduzione • Un capitolo molto importante della statistica è quello che studia le sperimentazioni ripetute e le modalità di esaminarle statisticamente per verificare certe ipotesi. • La sperimentazione ripetuta, tecnicamente chiamata “piano degli esperimenti” (design, of experiments) e l'esame statistico dei risultati si effettuano con la tecnica nota come “ analisi della varianza ”.

  4. Nel settore psicologico, molte ipotesi di ricerca implicano sperimentazioni ripetute. • Ad esempio, se si studiassero gli effetti di due differenti metodi di insegnamento in relazione a due livelli di intelligenza misurati con test di profitto, ci si troverebbe di fronte a un disegno sperimentale 2x2, implicante ben quattro medie, come schematicamente viene indicato nella tabella….

  5. Tale disegno potrebbe risultare ulteriormente più complesso se si considerassero tre strategie di insegnamento in relazione a tre diversi livelli di intelligenza, tenendo contemporaneamente conto della differenza di sesso; in questo caso il disegno sperimentale sarebbe di 3 X 3 x 2, che verrebbe ad implicare ben 18 medie, come viene indicato nello schema….

  6. Rispetto al metodo del confronto tra medie, simili disegni sperimentali presentano notevoli vantaggi. In primo luogo, offrono informazioni sui principali effetti delle variabili in gioco, cioè se l'effetto sia dovuto o esclusivamente al metodo, o alla sola intelligenza, oppure al sesso solamente.

  7. Contemporaneamente consentono di trarre informazioni sulla reciproca interazione delle variabili in gioco, come potrebbe essere l'interazione tra metodo e intelligenza o tra metodo e sesso. • Permettono poi di comparare nello stesso momento tutte le medie dei campioni e indicare se tra di esse esista o meno una differenza statisticamente significativa. • Infine consentono una più accurata stima della variabilità della popolazione, in quanto basano tale stima su tutti i dati campionari considerati insieme e non su quelli di due campioni per volta, come nel caso dello z-test e del t-test.

  8. Se si dovesse eseguire separatamente il confronto tra tutte le combinazioni rilevanti delle medie dei tre o più gruppi e calcolare i singoli punti z critici o i t-test il lavoro diventerebbe quanto mai lungo. • Se per disgrazia, poi, nessuno dei numerosi confronti risultasse statisticamente significativo, si compirebbe uno sforzo inutile. • Di fronte a una prospettiva del genere, è quanto mai evidente il pregio di un test, come l'analisi della varianza, che consente di tener conto di tutti questi aspetti.

  9. Nozioni Fondamentali e Terminologia • L'analisi della varianza (detta spesso ANOVA, dalle prime lettere in inglese: ANalysis Of VAriance, oppure anche F-test) è una metodologia statistica messa a punto da RA. Fisher e collaboratori. • Inizialmente fu utilizzata per analizzare dati provenienti da disegni sperimentali complessi relativi ai settori agricolo e biologico; presto però si rivelò per le indagini psicologiche”.

  10. Il principio generale su cui si fonda tale metodo dice che la variabilità di tre o più gruppi di dati è il risultato di numerose cause, ciascuna delle quali esercita una qualche azione. • Una scomposizione di tale variabilità, in relazione alle cause che presumibilmente incidono su di essa, può far capire se la diversità tra i gruppi di dati sia da attribuire a cause sistematiche oppure semplicemente a cause accidentali. • Le prime in genere modificano il risultato di una sperimentazione, le seconde invece non lo modificano, almeno in media.

  11. Quando si ricorre all'analisi della varianza si mettono a confronto le medie ottenute in più campioni. Pertanto, come nel caso del confronto tra due medie, anche nell'analisi della varianza si devono fare alcune assunzioni: • a) che le distribuzioni delle popolazioni da cui sono estratti i campioni siano normali; • b) che i campioni siano estratti in modo casuale e siano tra loro indipendenti; • e) che le varianze dei gruppi siano omogenee.

  12. L'analisi della varianza esamina la variabilità totale dei dati mediante una sottile scomposizione in variabilità tra i gruppi (che è la variabilità sperimentale in quanto dovuta alle variabili introdotte dallo sperimentatore) e variabilità nei gruppi (dovuta a variabili difficilmente controllabili). • È, pertanto, un procedimento statistico che da una risposta alla seguente domanda: • “La variabilità tra i gruppi, rispetto a quella nei gruppi, è talmente grande da giustificare l'inferenza che le medie delle popolazioni, di cui sono campioni, sono del tutto differenti? ”

  13. Da quanto si è detto, è evidente che l'analisi della varianza presuppone l'esistenza di un disegno sperimentale mediante il quale si sottopone ad osservazione un certo numero r di gruppi di unità. • Ognuno di questi deve contenere nk unità e costituire un campione casuale estratto da un certo universo, in modo indipendente rispetto ai rimanenti r - 1 campioni. • Tali gruppi sono il risultato della classificazione delle n unità considerate rispetto alle modalità di un certo numero “ m ” di caratteristiche, dette variabili indipendenti, criteri di classificazione o fattori.

  14. Ogni gruppo, pertanto, è caratterizzato da una certa modalità di ciascuna variabile indipendente e le unità dei gruppi si distinguono per possedere una diversa modalità di almeno una delle “m” variabili indipendenti. • Per quanto riguarda la misurazione, le variabili dipendenti devono essere misurate almeno a livello di scala ad intervallo, mentre quelle indipendenti possono essere misurate anche a livello di scala nominale.

  15. Piano degli Esperimenti ad Un Solo Criterio di Classificazione • II più semplice piano degli esperimenti si ha quando si opera con un solo criteriodi classificazione o un solo fattore. • Si considerino, ad esempio, k popolazioni con distribuzione normale, le cui medie 1, 2, … k • non siano note, ma aventi la stessa varianza 2.

  16. L'assunzione della costanza della varianza è detta “omoschedasticità”, cioè variabilità costante. • Ora si supponga di estrarre da ognuna di queste popolazioni n unità. • A motivo delle oscillazioni di natura casuale presenti in ogni campionamento, le medie campionarie possono differire anche nell'ipotesi che quelle delle popolazioni siano tutte uguali. • Il problema cruciale consiste nell'accettare o respingere l'ipotesi nulla che le medie delle k popolazioni siano tutte uguali tra loro: Ho : 1 = 2 = 3 = …. = k

  17. Non esisterebbe un tal problema se si operasse con le medie delle popolazioni, in quanto un semplice confronto risolverebbe ogni dubbio. • Le difficoltà nascono perché si opera con valori campionari, che sono il risultato della sperimentazione. • L'importanza di sapere, sulla base dei dati campionari, se le medie delle popolazioni siano tutte uguali è dovuta alle conseguenze che da ciò si possono ricavare.

  18. Ad esempio, si consideri un ipotetico esperimento in cui si studia la relazione tra distanza fisica e manifestazione della propria vita psichica. • Si può pensare che la gente si confidi in maniera più completa quando un intervistatore è seduto vicino che a distanza ragguardevole. • Per verificare questa supposizione, si conduca un esperimento mediante intervista. • Ai Soggetti sottoposti ad esperimento si dica che si stanno studiando le tecniche dell'intervista.

  19. Ognuno di essi venga fatto sedere in una stanza; l'intervistatore entri e sieda in una delle tre sedie poste a distanze diverse dal soggetto: vicino: 61 cm.; distanza media: 1 metro e 22 cm.; distanza elevata: 1 metro e 83 cm. • Le distanze scelte dall'intervistatore costituiscano la variabile indipendente manipolabile, chiamata anche, come si è detto, fattore. • Trenta soggetti, scelti casualmente da una medesima popolazione, vengano assegnati a caso nelle tre diverse condizioni di distanza, e il comportamento dell'intervistatore sia costante in tutte le situazioni.

  20. L'intervista consista in un numero di domande e la variabile dipendente sia il numero di affermazioni di carattere personale e rilevanti fatte dal soggetto sperimentale durante l'intervista. • Le ipotesi possono essere così formulate: Ho : 1 = 2 = 3 • H1: almeno dei medie significativamente diverse tra loro

  21. Il ricercatore è interessato a conoscere quanta varianza totale dei punteggi debba essere attribuita al cambiamento della variabile indipendente (la distanza), che egli ha ipotizzato essere la causa della sistematica variabilità nelle risposte degli intervistati. • In altre parole, desidera conoscere quanto le differenti distanze influiscano sulla varianza totale dei punteggi e quanto la differenza dei soggetti sottoposti ad esperimento. • È quindi una conoscenza che ha una notevole rilevanza nelle applicazioni pratiche.

  22. La Scissione della Varianza Totale • L'analisi della varianza si fonda su due principi generali. Questi sono: • a) la scissione della devianza totale in due o più partì, • b) la scissione dei gradi di libertà in due o più partì. • Queste due scissioni assumono forme diverse a seconda del tipo di analisi intrapresa.

  23. Nel caso di un solo criterio di classificazione o un solo fattore si considerano k campioni, ognuno costituito da n osservazioni, per cui il numero totale dei dati è:N = n X k

  24. Gli N dati possono essere disposti in una tabella come quella disegnata sopra. • Per una lettura esatta di questa tabella, è necessario tener presente, con riferimento a Xij che se si varia il primo dei due indici (i) e si tiene fisso il secondo (j) ci si sposta lungo una colonna. • Se invece si varia il secondo dei due indici (j) e si tiene fisso il primo ci si sposta lungo una riga.

  25. Andiamo a considerare l'j-esimo campione e calcoliamo la sua devianza (somma dei quadrati degli scarti dalla media) ossia: se ricorriamo al principio della scomposizione degli scarti in modo da introdurre la media del campione considerato , si avrà l'equazione di base:

  26. Dal momento che la somma degli scarti dalla media è nulla, ossia: l'intero ultimo addendo sarà uguale a zero….

  27. In oltre, dal momento che sussiste l'uguaglianza: se quest'ultima viene sostituita nell'equazione di base, si avrà:

  28. Se questa si estende ai k campioni che costituiscono l'insieme degli n dati, si avrà…

  29. Devianza totale (Dtot ) = Devianza tra i campioni (tra i gruppi) (Dtra) = Devianza nei campioni (Dnei) o Devianza residua (Dres) = L'equazione ora esposta si scompone nelle seguenti parti:

  30. Andando a sostituire le singole equazioni con le rispettive diciture, si avrà: Dtot = Dtra + Dnei • La devianza nei campioni è detta devianza residua (Dres) e corrisponde alla devianza che rimane una volta che dalla devianza totale (Dtot) è stata sottratta la devianza tra i gruppi (Dtra).

  31. Ad esempio, supponiamo di voler studiare l'influenza di tre diverse condizioni sperimentali di luminosità sul rendimento del controllo del confezionamento di capi di abbigliamento, per eseguire tale esperimento, si ricorre ad un campione di 9 donne assegnando a caso 3 di esse a ciascuna condizione di luminosità (alta, media e bassa). • Si faccia riferimento alla tabella...

  32. Calcoliamo la devianza totale:Dtot = Dtra + Dneiossia… quindi…

  33. devianza totale (Dtot) =

  34. devianza tra i campioni (Dtra) =

  35. devianza nei campioni (Dnei) o Devianza residua (Dres)

  36. sostituendo i valori trovati si verifica che i risultati sono o meno esatti: Dtot = Dtra + Dnei=82=40+42

  37. Scissione dei Gradi di Libertà • Quando si lavora con diverse devianze, necessariamente si opera anche con un certo numero di gradi di libertà (o di indipendenza); i gradi di libertà (v)si ottengono sottraendo dal numero dei dati il numero dei vincoli lineari.

  38. Dal momento che i gruppi sperimentali sono 3 (testo dell'esercizio precedente) si avranno 3 gradi di libertà. I gradi di libertà totali quindi sono dati dalla formula: vtot = N - 1 = n  k - 1 • I gradi di libertà tra i campioni saranno dati da: ntra = k - 1

  39. i gradi di libertà residui, infine, si determinano… vres = (n - 1)  k • anche nel caso dei gradi di libertà la relazione è paritaria, ossia… vtot = vtra + vres • in quanto: (k - 1) + (n - 1)  k = k - 1 + n  k - k = n  k - 1

  40. In altri termini, i gradi di libertà totali sono uguali alla somma di quelli tra campioni e di quelli residui o nei campioni. • Rifacendosi al testo dell'esercizio precedente, volendoli calcolare separatamente…….

  41. i gradi di libertà tra i campioni saranno dati da: ntra = k - 1 = 3 - 1 = 2 • i gradi di libertà residui, infine, si determinano… vres = (n - 1)  k = (3 - 1)  3 = 6 • i gradi di libertà totali quindi sono dati dalla formula: vtot = N - 1 = n  k - 1 = 3  3 - 1 = 8 • perciò…. 8 = 2 + 6

  42. Calcolo delle Tre Varianze • È possibile riunire le dure relazioni fondamentali della scissione delle devianze e dei gradi di libertà nella seguente maniera:

  43. Quindi: il rapporto tra una devianza e i corrispondenti gradi di libertà genera a una varianza. Infatti si ha che: le due precedenti relazioni (quelle precedute da parentesi graffa) danno luogo a tre varianze campionarie (media dei quadrati, o in inglese, mean square); ossia…

  44. Varianza totale

  45. Varianza tra campioni

  46. Varianza residua

  47. Si può dimostrare che la varianza totale (s2tot) è la media aritmetica ponderata delle altre due varianze parziali, con pesi uguali ai rispettivi gradi di libertà, infatti:

More Related