1 / 31

Corso di biomatematica lezione 10: test di Student e test F

Corso di biomatematica lezione 10: test di Student e test F. Silvia Capelli. Sommario. Distribuzione di Student Media osservata e attesa Medie di due campioni Test F Facciamo il punto sui test di significatività. t di Student. La distribuzione t di Student .

egan
Download Presentation

Corso di biomatematica lezione 10: test di Student e test F

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Corso di biomatematica lezione 10:test di Student e test F Silvia Capelli

  2. Sommario • Distribuzione di Student • Media osservata e attesa • Medie di due campioni • Test F • Facciamo il punto sui test di • significatività

  3. t di Student • La distribuzione t di Student Abbiamo già incontrato la distribuzione t di Student come distribuzione campionaria diversa dalla distribuzione normale Z ed espressa dalla formula Quando la media della popolazione  non è nota, di solito anche la sua varianza  è ignota. Si utilizza quindi la varianza del campione S, che ne rapprensenta la stima più attendibile. La distribuzione di probabilità non è più quindi data da Z, ma dalla t di Student. Essa può essere applicata a piccoli campioni anche con meno di una decina di osserv. Per n40Student Z. Silvia Capelli - Dottorato in Biologia

  4. t di Student • La distribuzione t di Student La forma della distribuzione t di Student è a campana con una dispersione maggiore rispetto alla gaussiana standardizzata, ed esiste un’intera famiglia di distribuzioni t in funzione dei gradi di libertà (la distribuzione normale rappresenta una t quando i g.d.l. aumentano…). I valori critici per l’area in una coda alla probabilità a coincidono con quelli a probabilità 2a nella distribuzione a due code e viceversa. Con il t di student calcolerò un intervallo fiduciale ovvero l’intervallo entro il quale è collocato il valore reale della popolazione alla probabilità , partendo dalla misura campionaria! Silvia Capelli - Dottorato in Biologia

  5. t di Student • La distribuzione t di Student • Condizioni di validità: • Distribuzione di dati normale • Osservazioni indipendenti • La t di Student è robusta, ovvero vale anche per una serie di dati che devia dalla normalità.. • Applicazioni per il confronto tra: • Media campione e media universo • Singolo dato e media di un campione • Media delle differenze di due campioni dipendenti e differenza media attesa • Medie di due campioni indipendenti Silvia Capelli - Dottorato in Biologia

  6. t di Student • Media osservata e media attesa • La t di Student con n-1 g.d.l. è data da • Con: • - m valore atteso • - errore standard • - n numero di dati • - S la deviazione standard calcolata sui dati del campione. Silvia Capelli - Dottorato in Biologia

  7. t di Student • Media osservata e media attesa • Per verificare l’ipotesi relativa alla media nel caso di un • test bilaterale avremo: • Ipotesi nulla H0 :m = m0 • Ipotesi alternativa H1 :m m0 • Mentre nel caso di un test unilaterale l’ipotesi relativa alla • media sarà: • Ipotesi nulla H0 :m  () m0 • Ipotesi alternativa H1 :m< (>) m0 • Per verificare se la media è significativamente inferiore (o • maggiore) di quella attesa Silvia Capelli - Dottorato in Biologia

  8. t di Student • Media osservata e media attesa • Quindi dalla formula per la differenza tra media attesa e • campionaria avremo • E da questo posso stimare l’intervallo fiduciale • (o intervallo di confidenza) entro il quale è compresa la • media reale della popolazione da cui ho estratto • il campione alla probabilità a. Silvia Capelli - Dottorato in Biologia

  9. t di Student • Media osservata e media attesa - esempio • Abbiamo un vivaio con pianticelle di tipo A, che dopo due • mesi raggiungono un’altezza media di 25 cm (m0), nel • terreno vengono versate sostanze tossiche e per verificare • l’incidenza negativa sulla crescita delle piante ne vengono • seminate 7 che dopo 2 mesi raggiungono le altezze di • 22,25, 21,23,24,25,21 cm • Voglio sapere: • Le sostanze tossiche inibiscono la crescita? • Qual è la media reale dell’altezza delle piante nel nuovo terreno? Silvia Capelli - Dottorato in Biologia

  10. t di Student • Media osservava e media attesa - esempio • Le sostanze tossiche inibiscono la crescita? • Questo è un test ad una coda con • Ipotesi alternativa H1 :m< m0 • Ipotesi nulla H0 :m  m0 • Il test ovviamente assume significato solo se la media • campionaria assume valore minore della media attesa m0, e • serve per verificare se la differenza sia casuale o • significativa. • Scegliamo una probabilità a =0,05 Silvia Capelli - Dottorato in Biologia

  11. t di Student • Media osservata e media attesa - esempio • Avremo dunque la formula • Con i nostri 7 dati abbiamo • X =23,0 • S =1,732 • t0,025;6 =2,447 • n=7 • m0=25 Silvia Capelli - Dottorato in Biologia

  12. t di Student • Media osservata e media attesa - esempio • Ed il calcolo di t con 6 g.d.l. mi dà • Cioè t(6) = - 3,053 • Dove il segno meno indica solamente che la differenza è • negativa rispetto al valore atteso. Per la significatività • prendo il modulo. • Per il test ad una coda abbiamo con a =0,05 • t0,05;6 =1,943 • Accetto dunque H1 (cioè le sostanze tossiche inibiscono la • crescita) e rifiuto H0 con il 5% di prob. di sbagliare Silvia Capelli - Dottorato in Biologia

  13. t di Student • Media osservata e media attesa - esempio • Qual è la media reale dell’altezza delle piante nel nuovo terreno? • L’altezza media reale può essere stimata tramite • l’intervallo di confidenza, ovvero • Prendendo i dati del nostro campione con la probabilità • associata ad a =0,05 per un test a due code t0,025;6 =2,447 • Cioè   (21,398 ; 24,602) Silvia Capelli - Dottorato in Biologia

  14. t di Student • Confronto tra una misura e la media di un campione • Voglio ora stabilire se una misura (per ragioni non note) si • possa considerare errata. Questo può essere effettuato con • un test unilaterale o bilaterale a seconda delle ipotesi • mediante la formula: • Con: • - nA numero di oservazioni del campione, • - x1 misura da verificare, • - xA,media del campione • - S2A varianza del campione A Silvia Capelli - Dottorato in Biologia

  15. t di Student • Confronto una misura e media di un campione • Ad esempio voglio “rigettare” una misura (x1 =49,7) nel • campione A=(40,3 - 38,8 – 33,5 – 38,6 – 31,9 – 37,6) • Dove nA =6, xA= 36,873, S2A=12,206, ottenendo • Ora dalle tabelle per il test bilaterale abbiamo i valori • critici • 2,571 per a =0,05 • 4,032 per a =0,01 • Mentre il test unilaterale dà • 3,365 per a =0,01 • 5,893 per a =0,001 • Rifuto l’ipotesi nulla (quindi rigetto x1 ) con a tra 0,05 e • 0,01 (0,01 e 0,001 uni) Silvia Capelli - Dottorato in Biologia

  16. t di Student • Confronto le medie di due campioni • Posso derivare la distribuzione t di Student dal rapporto • tra la differenza delle due medie campionarie ed il suo • errore standard, ovvero • Dove nell’ipotesi nulla H0 le due medie sono identiche, • Ovvero H0 :m1 = m2 oppure H0 :m1 - m2 =0 Silvia Capelli - Dottorato in Biologia

  17. t di Student • Confronto le medie di due campioni DIPENDENTI • Se ho due campioni dipendenti, posso accoppiare ogni • osservazione di un campione con UNA ed UNA SOLA • osservazione dell’altro (senza entrare nello specifico • dell’appaiamento). • L’analisi dunque è applicata ad una nuova serie di dati, • risultanti dalle differenze tra gli elementi di ciascuna • coppia. • Per il test di Student bilaterale, abbiamo • H0 : d =0 mentre H1 : d 0 • Il test unilaterale invece è • H0 : d < (>) 0 mentre H1 : d () 0 Silvia Capelli - Dottorato in Biologia

  18. t di Student • Confronto le medie di due campioni DIPENDENTI • La significatività della media delle differenze viene • verificata con: • Dove dm è la media delle differenze,  è la differenza • media attesa (spesso ma non sempre 0), n è il numero di • differenze e Sd è la deviazione standard delle differenze. • L’intervallo di confidenza entro cui è compresa la • differenza media reale d è Silvia Capelli - Dottorato in Biologia

  19. t di Student • Confronto le medie di due campioni INDIPENDENTI • In questo caso aumenta la variabilità tra i due gruppi, • ovvero potrò • Utilizzare numero diverso di osservazioni tra i due gruppi • Avere dati che esprimono la variabilità casuale • Confrontare il mio campione con quello raccolto da altri • Nel caso di due campioni indipendenti i calcoli per il test di • significatività vengono effettuati sulle due serie di • osservazioni e non sulla serie delle differenze come era nel • caso di campioni dipendenti Silvia Capelli - Dottorato in Biologia

  20. t di Student • Confronto le medie di due campioni INDIPENDENTI • Nel caso di un test bilaterale l’ipotesi nulla H0 è che i due • campioni A e B siano estratti dalla stessa popolazione o da • due popolazioni diverse ma con media m uguale ovvero: • Ipotesi nulla Ho • mA = mB oppure mA - mB =0 • L’ipotesi alternativa H1 sarà • mA mB oppure mA - mB 0 • Mentre nel test unilaterale avremo • H0mA ()mB oppure mA - mB () 0 • H1mA< (>)mB oppure mA - mB<(>) 0 Silvia Capelli - Dottorato in Biologia

  21. t di Student • Confronto le medie di due campioni INDIPENDENTI • Per due campioni indipendenti i gradi di libertà di t sono • dati da (nA-1) + (nB-1) =(nA+ nB-2) =(N-2) • Il valore di t è ottenuto così: • Con xAe xB medie dei due campioni, mAe mb medie attese • nAe nB numero di osservazioni e S2p è la varianza associata • (pooled) dei due gruppi a confronto Silvia Capelli - Dottorato in Biologia

  22. t di Student • Confronto le medie di due campioni INDIPENDENTI • S2p la varianza pooled è in pratica una varianza media • ponderata (sul numero di dati presi per ciascun gruppo) • calcolata a partire dalle due devianze e dai loro g.d.l. ed è • data dalla formula: • Questo test si può quindi applicare anche ai risultati di due • ricercatori diversi (che saranno ora A e B), al patto di • disporre dei dati, delle rispettive varianze, e delle medie Silvia Capelli - Dottorato in Biologia

  23. t di Student • Validità del t-di Student • Le assunzioni per la validità del test di Student sono • essenzialmente tre: • Indipendenza dei dati entro i campioni • Omogeneità della varianza tra i due campioni • Dati (o scarti rispetto alla media) distribuiti normalmente • Con due campioni indipendenti è molto importante • che le varianze dei due campioni siano statisticamente • uguali. • Infatti la varianza pooled S2p che è una quantità • fondamentale ha significato solo se è rappresentativa delle • varianze di ogni gruppo. Silvia Capelli - Dottorato in Biologia

  24. t di Student • Validità del t-di Student • Per applicare il test t , la cosiddetta omoschedasticità tra • due gruppi A e B è verificata con un test bilaterale, dove • l’ipotesi nulla e l’ipotesi alternativa sono: • H0s2A=s2B e • H1 s2A s2B • Esistono vari test per verificare quella che si chiama • omoschedasticità bilaterale o unilaterale, in particolare • accenneremo solo al test F bilaterale Silvia Capelli - Dottorato in Biologia

  25. t di Student • Validità del t-di Student: test F Il test F bilaterale è fondato sul rapporto tra la varianza campionaria (S2) maggiore e quella minore: Dove S21 è la varianza maggiore e S22 è quella minore (F[1;)). Una volta calcolato il rapporto (che non sarà mai 1 perchè la stima delle due varianze campionarie non è mai esatta) lo si confronta con una tabella di distribuzione F relativa ai due g.d.l. (di solito entro a =0,05) Silvia Capelli - Dottorato in Biologia

  26. t di Student • Validità del t-di Student: test F Solo se si dimostra che l’ipotesi nulla (s2A=s2B) è vera, ovvero i due gruppi hanno varianze statisticamente uguali, posso usare il test t di Student per i due campioni indipendenti. NB: Sono costretto ad utilizzare un test di inferenza statistica per verificare se s2A=s2B perchè non conosco i valori reali delle varianze, ma solo i valori campionari. Se avessi conosciuto i valori reali sarebbe bastato il semplice confronto.

  27. test F di Fisher e analisi della varianza • Confronto tra medie Nel caso del confronto tra più medie non è corretto ricorrere al test t di Student per ripetere l’analisi tante volte quanti sono i possibili confronti a coppie tra i singoli gruppi in quanto la probabilità a di commettere un errore di I tipo (rifiutare Ho quando è vera) è valida SOLO per ogni singolo confronto. Se i confronti sono numerosi la probabilità complessiva di sbagliare rifiutando l’ipotesi nulla diventa a’=1-(1-a)k con k numero dei confronti effettuati ovvero aumenta col numero di confronti. Silvia Capelli - Dottorato in Biologia

  28. test F di Fisher e analisi della varianza • Confronto tra medie • In questo caso si utilizza quindi un metodo detto di • analisi della varianza. • Abbiamo già introdotto un metodo di analisi della • varianza per il test di Student, ovvero il confronto tra le • varianze di due campioni a cui è applicato il test. • Per confrontare le due varianze abbiamo detto che si • effettua un test di Fisher, dato dal rapporto tra s21, la • varianza maggiore e s22 è quella minore. In seguito il • risultato viene confrontato con le tabelle del test di Fisher • tenendo conto dei gradi di libertà dei due campioni. Silvia Capelli - Dottorato in Biologia

  29. Facciamo il punto sui test... -Test del2: • Si utilizza per: • Confrontare distribuzione osservata e distribuzione attesa • Confrontare 2 o più distribuzioni osservate Condizioni di validità: * è valido quando il numero totale di osservazioni > 100 * è meno attendibile, ed ha bisogno di una correzione (Yates) per numero di osservazioni tra 30 e 100 * perde ogni attendibilità quando il numero totale di osservazioni è < 30 e/o il numero di osservazioni attese entro una o più classi < 5 Silvia Capelli - Dottorato in Biologia

  30. Facciamo il punto sui test... -Test t di Student: • Si utilizza per: • Cfr la media di un campione e la media attesa • Cfr un dato di un campione e la media del campione • Cfr la media delle differenze di due campioni dipendenti con • una differenza media attesa • Cfr le medie di due campioni indipendenti Condizioni di validità: * Si utilizza per piccoli campioni (decina o meno). Per n >40 diventa equivalente allo Z test * I dati entro e tra i campioni devono essere indipendenti * Le varianze delle popolazioni da cui sono estratti i campioni a confronto devono essere simili * I dati (o gli scarti rispetto alla media) devono essere distribuiti in modo normale (gaussiano) Silvia Capelli - Dottorato in Biologia

  31. Facciamo il punto sui test... -Test F di Fisher: • Si utilizza per: • Confrontare varianze campionarie • Verificare la significatività di una regressione lineare • calcolata • Confrontare più medie tra loro (analisi della varianza) Condizioni di validità: * I fattori non noti (non dovuti al trattamento effettuato sui campioni) che determinano la differenza tra la media generale e la media di ogni campione a confronto devono essere indipendenti tra loro, distribuiti normalemente, * Le varianze dei vari gruppi devono essere omogenee Silvia Capelli - Dottorato in Biologia

More Related