340 likes | 903 Views
Corso di biomatematica lezione 10: test di Student e test F. Silvia Capelli. Sommario. Distribuzione di Student Media osservata e attesa Medie di due campioni Test F Facciamo il punto sui test di significatività. t di Student. La distribuzione t di Student .
E N D
Corso di biomatematica lezione 10:test di Student e test F Silvia Capelli
Sommario • Distribuzione di Student • Media osservata e attesa • Medie di due campioni • Test F • Facciamo il punto sui test di • significatività
t di Student • La distribuzione t di Student Abbiamo già incontrato la distribuzione t di Student come distribuzione campionaria diversa dalla distribuzione normale Z ed espressa dalla formula Quando la media della popolazione non è nota, di solito anche la sua varianza è ignota. Si utilizza quindi la varianza del campione S, che ne rapprensenta la stima più attendibile. La distribuzione di probabilità non è più quindi data da Z, ma dalla t di Student. Essa può essere applicata a piccoli campioni anche con meno di una decina di osserv. Per n40Student Z. Silvia Capelli - Dottorato in Biologia
t di Student • La distribuzione t di Student La forma della distribuzione t di Student è a campana con una dispersione maggiore rispetto alla gaussiana standardizzata, ed esiste un’intera famiglia di distribuzioni t in funzione dei gradi di libertà (la distribuzione normale rappresenta una t quando i g.d.l. aumentano…). I valori critici per l’area in una coda alla probabilità a coincidono con quelli a probabilità 2a nella distribuzione a due code e viceversa. Con il t di student calcolerò un intervallo fiduciale ovvero l’intervallo entro il quale è collocato il valore reale della popolazione alla probabilità , partendo dalla misura campionaria! Silvia Capelli - Dottorato in Biologia
t di Student • La distribuzione t di Student • Condizioni di validità: • Distribuzione di dati normale • Osservazioni indipendenti • La t di Student è robusta, ovvero vale anche per una serie di dati che devia dalla normalità.. • Applicazioni per il confronto tra: • Media campione e media universo • Singolo dato e media di un campione • Media delle differenze di due campioni dipendenti e differenza media attesa • Medie di due campioni indipendenti Silvia Capelli - Dottorato in Biologia
t di Student • Media osservata e media attesa • La t di Student con n-1 g.d.l. è data da • Con: • - m valore atteso • - errore standard • - n numero di dati • - S la deviazione standard calcolata sui dati del campione. Silvia Capelli - Dottorato in Biologia
t di Student • Media osservata e media attesa • Per verificare l’ipotesi relativa alla media nel caso di un • test bilaterale avremo: • Ipotesi nulla H0 :m = m0 • Ipotesi alternativa H1 :m m0 • Mentre nel caso di un test unilaterale l’ipotesi relativa alla • media sarà: • Ipotesi nulla H0 :m () m0 • Ipotesi alternativa H1 :m< (>) m0 • Per verificare se la media è significativamente inferiore (o • maggiore) di quella attesa Silvia Capelli - Dottorato in Biologia
t di Student • Media osservata e media attesa • Quindi dalla formula per la differenza tra media attesa e • campionaria avremo • E da questo posso stimare l’intervallo fiduciale • (o intervallo di confidenza) entro il quale è compresa la • media reale della popolazione da cui ho estratto • il campione alla probabilità a. Silvia Capelli - Dottorato in Biologia
t di Student • Media osservata e media attesa - esempio • Abbiamo un vivaio con pianticelle di tipo A, che dopo due • mesi raggiungono un’altezza media di 25 cm (m0), nel • terreno vengono versate sostanze tossiche e per verificare • l’incidenza negativa sulla crescita delle piante ne vengono • seminate 7 che dopo 2 mesi raggiungono le altezze di • 22,25, 21,23,24,25,21 cm • Voglio sapere: • Le sostanze tossiche inibiscono la crescita? • Qual è la media reale dell’altezza delle piante nel nuovo terreno? Silvia Capelli - Dottorato in Biologia
t di Student • Media osservava e media attesa - esempio • Le sostanze tossiche inibiscono la crescita? • Questo è un test ad una coda con • Ipotesi alternativa H1 :m< m0 • Ipotesi nulla H0 :m m0 • Il test ovviamente assume significato solo se la media • campionaria assume valore minore della media attesa m0, e • serve per verificare se la differenza sia casuale o • significativa. • Scegliamo una probabilità a =0,05 Silvia Capelli - Dottorato in Biologia
t di Student • Media osservata e media attesa - esempio • Avremo dunque la formula • Con i nostri 7 dati abbiamo • X =23,0 • S =1,732 • t0,025;6 =2,447 • n=7 • m0=25 Silvia Capelli - Dottorato in Biologia
t di Student • Media osservata e media attesa - esempio • Ed il calcolo di t con 6 g.d.l. mi dà • Cioè t(6) = - 3,053 • Dove il segno meno indica solamente che la differenza è • negativa rispetto al valore atteso. Per la significatività • prendo il modulo. • Per il test ad una coda abbiamo con a =0,05 • t0,05;6 =1,943 • Accetto dunque H1 (cioè le sostanze tossiche inibiscono la • crescita) e rifiuto H0 con il 5% di prob. di sbagliare Silvia Capelli - Dottorato in Biologia
t di Student • Media osservata e media attesa - esempio • Qual è la media reale dell’altezza delle piante nel nuovo terreno? • L’altezza media reale può essere stimata tramite • l’intervallo di confidenza, ovvero • Prendendo i dati del nostro campione con la probabilità • associata ad a =0,05 per un test a due code t0,025;6 =2,447 • Cioè (21,398 ; 24,602) Silvia Capelli - Dottorato in Biologia
t di Student • Confronto tra una misura e la media di un campione • Voglio ora stabilire se una misura (per ragioni non note) si • possa considerare errata. Questo può essere effettuato con • un test unilaterale o bilaterale a seconda delle ipotesi • mediante la formula: • Con: • - nA numero di oservazioni del campione, • - x1 misura da verificare, • - xA,media del campione • - S2A varianza del campione A Silvia Capelli - Dottorato in Biologia
t di Student • Confronto una misura e media di un campione • Ad esempio voglio “rigettare” una misura (x1 =49,7) nel • campione A=(40,3 - 38,8 – 33,5 – 38,6 – 31,9 – 37,6) • Dove nA =6, xA= 36,873, S2A=12,206, ottenendo • Ora dalle tabelle per il test bilaterale abbiamo i valori • critici • 2,571 per a =0,05 • 4,032 per a =0,01 • Mentre il test unilaterale dà • 3,365 per a =0,01 • 5,893 per a =0,001 • Rifuto l’ipotesi nulla (quindi rigetto x1 ) con a tra 0,05 e • 0,01 (0,01 e 0,001 uni) Silvia Capelli - Dottorato in Biologia
t di Student • Confronto le medie di due campioni • Posso derivare la distribuzione t di Student dal rapporto • tra la differenza delle due medie campionarie ed il suo • errore standard, ovvero • Dove nell’ipotesi nulla H0 le due medie sono identiche, • Ovvero H0 :m1 = m2 oppure H0 :m1 - m2 =0 Silvia Capelli - Dottorato in Biologia
t di Student • Confronto le medie di due campioni DIPENDENTI • Se ho due campioni dipendenti, posso accoppiare ogni • osservazione di un campione con UNA ed UNA SOLA • osservazione dell’altro (senza entrare nello specifico • dell’appaiamento). • L’analisi dunque è applicata ad una nuova serie di dati, • risultanti dalle differenze tra gli elementi di ciascuna • coppia. • Per il test di Student bilaterale, abbiamo • H0 : d =0 mentre H1 : d 0 • Il test unilaterale invece è • H0 : d < (>) 0 mentre H1 : d () 0 Silvia Capelli - Dottorato in Biologia
t di Student • Confronto le medie di due campioni DIPENDENTI • La significatività della media delle differenze viene • verificata con: • Dove dm è la media delle differenze, è la differenza • media attesa (spesso ma non sempre 0), n è il numero di • differenze e Sd è la deviazione standard delle differenze. • L’intervallo di confidenza entro cui è compresa la • differenza media reale d è Silvia Capelli - Dottorato in Biologia
t di Student • Confronto le medie di due campioni INDIPENDENTI • In questo caso aumenta la variabilità tra i due gruppi, • ovvero potrò • Utilizzare numero diverso di osservazioni tra i due gruppi • Avere dati che esprimono la variabilità casuale • Confrontare il mio campione con quello raccolto da altri • Nel caso di due campioni indipendenti i calcoli per il test di • significatività vengono effettuati sulle due serie di • osservazioni e non sulla serie delle differenze come era nel • caso di campioni dipendenti Silvia Capelli - Dottorato in Biologia
t di Student • Confronto le medie di due campioni INDIPENDENTI • Nel caso di un test bilaterale l’ipotesi nulla H0 è che i due • campioni A e B siano estratti dalla stessa popolazione o da • due popolazioni diverse ma con media m uguale ovvero: • Ipotesi nulla Ho • mA = mB oppure mA - mB =0 • L’ipotesi alternativa H1 sarà • mA mB oppure mA - mB 0 • Mentre nel test unilaterale avremo • H0mA ()mB oppure mA - mB () 0 • H1mA< (>)mB oppure mA - mB<(>) 0 Silvia Capelli - Dottorato in Biologia
t di Student • Confronto le medie di due campioni INDIPENDENTI • Per due campioni indipendenti i gradi di libertà di t sono • dati da (nA-1) + (nB-1) =(nA+ nB-2) =(N-2) • Il valore di t è ottenuto così: • Con xAe xB medie dei due campioni, mAe mb medie attese • nAe nB numero di osservazioni e S2p è la varianza associata • (pooled) dei due gruppi a confronto Silvia Capelli - Dottorato in Biologia
t di Student • Confronto le medie di due campioni INDIPENDENTI • S2p la varianza pooled è in pratica una varianza media • ponderata (sul numero di dati presi per ciascun gruppo) • calcolata a partire dalle due devianze e dai loro g.d.l. ed è • data dalla formula: • Questo test si può quindi applicare anche ai risultati di due • ricercatori diversi (che saranno ora A e B), al patto di • disporre dei dati, delle rispettive varianze, e delle medie Silvia Capelli - Dottorato in Biologia
t di Student • Validità del t-di Student • Le assunzioni per la validità del test di Student sono • essenzialmente tre: • Indipendenza dei dati entro i campioni • Omogeneità della varianza tra i due campioni • Dati (o scarti rispetto alla media) distribuiti normalmente • Con due campioni indipendenti è molto importante • che le varianze dei due campioni siano statisticamente • uguali. • Infatti la varianza pooled S2p che è una quantità • fondamentale ha significato solo se è rappresentativa delle • varianze di ogni gruppo. Silvia Capelli - Dottorato in Biologia
t di Student • Validità del t-di Student • Per applicare il test t , la cosiddetta omoschedasticità tra • due gruppi A e B è verificata con un test bilaterale, dove • l’ipotesi nulla e l’ipotesi alternativa sono: • H0s2A=s2B e • H1 s2A s2B • Esistono vari test per verificare quella che si chiama • omoschedasticità bilaterale o unilaterale, in particolare • accenneremo solo al test F bilaterale Silvia Capelli - Dottorato in Biologia
t di Student • Validità del t-di Student: test F Il test F bilaterale è fondato sul rapporto tra la varianza campionaria (S2) maggiore e quella minore: Dove S21 è la varianza maggiore e S22 è quella minore (F[1;)). Una volta calcolato il rapporto (che non sarà mai 1 perchè la stima delle due varianze campionarie non è mai esatta) lo si confronta con una tabella di distribuzione F relativa ai due g.d.l. (di solito entro a =0,05) Silvia Capelli - Dottorato in Biologia
t di Student • Validità del t-di Student: test F Solo se si dimostra che l’ipotesi nulla (s2A=s2B) è vera, ovvero i due gruppi hanno varianze statisticamente uguali, posso usare il test t di Student per i due campioni indipendenti. NB: Sono costretto ad utilizzare un test di inferenza statistica per verificare se s2A=s2B perchè non conosco i valori reali delle varianze, ma solo i valori campionari. Se avessi conosciuto i valori reali sarebbe bastato il semplice confronto.
test F di Fisher e analisi della varianza • Confronto tra medie Nel caso del confronto tra più medie non è corretto ricorrere al test t di Student per ripetere l’analisi tante volte quanti sono i possibili confronti a coppie tra i singoli gruppi in quanto la probabilità a di commettere un errore di I tipo (rifiutare Ho quando è vera) è valida SOLO per ogni singolo confronto. Se i confronti sono numerosi la probabilità complessiva di sbagliare rifiutando l’ipotesi nulla diventa a’=1-(1-a)k con k numero dei confronti effettuati ovvero aumenta col numero di confronti. Silvia Capelli - Dottorato in Biologia
test F di Fisher e analisi della varianza • Confronto tra medie • In questo caso si utilizza quindi un metodo detto di • analisi della varianza. • Abbiamo già introdotto un metodo di analisi della • varianza per il test di Student, ovvero il confronto tra le • varianze di due campioni a cui è applicato il test. • Per confrontare le due varianze abbiamo detto che si • effettua un test di Fisher, dato dal rapporto tra s21, la • varianza maggiore e s22 è quella minore. In seguito il • risultato viene confrontato con le tabelle del test di Fisher • tenendo conto dei gradi di libertà dei due campioni. Silvia Capelli - Dottorato in Biologia
Facciamo il punto sui test... -Test del2: • Si utilizza per: • Confrontare distribuzione osservata e distribuzione attesa • Confrontare 2 o più distribuzioni osservate Condizioni di validità: * è valido quando il numero totale di osservazioni > 100 * è meno attendibile, ed ha bisogno di una correzione (Yates) per numero di osservazioni tra 30 e 100 * perde ogni attendibilità quando il numero totale di osservazioni è < 30 e/o il numero di osservazioni attese entro una o più classi < 5 Silvia Capelli - Dottorato in Biologia
Facciamo il punto sui test... -Test t di Student: • Si utilizza per: • Cfr la media di un campione e la media attesa • Cfr un dato di un campione e la media del campione • Cfr la media delle differenze di due campioni dipendenti con • una differenza media attesa • Cfr le medie di due campioni indipendenti Condizioni di validità: * Si utilizza per piccoli campioni (decina o meno). Per n >40 diventa equivalente allo Z test * I dati entro e tra i campioni devono essere indipendenti * Le varianze delle popolazioni da cui sono estratti i campioni a confronto devono essere simili * I dati (o gli scarti rispetto alla media) devono essere distribuiti in modo normale (gaussiano) Silvia Capelli - Dottorato in Biologia
Facciamo il punto sui test... -Test F di Fisher: • Si utilizza per: • Confrontare varianze campionarie • Verificare la significatività di una regressione lineare • calcolata • Confrontare più medie tra loro (analisi della varianza) Condizioni di validità: * I fattori non noti (non dovuti al trattamento effettuato sui campioni) che determinano la differenza tra la media generale e la media di ogni campione a confronto devono essere indipendenti tra loro, distribuiti normalemente, * Le varianze dei vari gruppi devono essere omogenee Silvia Capelli - Dottorato in Biologia