470 likes | 712 Views
Statistica per la ricerca sperimentale (II anno). Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli. MARZO/ APRILE 2006. Programma del modulo. L’approccio all’indagine Come riassumere i dati: * Misure di posizione e di variabilità * Distribuzioni di frequenza
E N D
Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006
Programma del modulo • L’approccio all’indagine • Come riassumere i dati: * Misure di posizione e di variabilità * Distribuzioni di frequenza • Come analizzare e confrontare i dati * Le distribuzioni di probabilità (Binomiale, di Poisson e Normale) * Il concetto di inferenza statistica, di test ad ipotesi ed alcuni esempi di utilizzo * I metodi di standardizzazione diretta e indiretta • Come presentare i dati: * Tabelle * Istogrammi * Linee * Torte * Dispersione
Definizione dell’obiettivo pianificazione del razionale dell’indagine (studio ad hoc, analisi di archivi standard) definizione della metodologia di analisi e di sintesi dei risultati valutazione delle fonti di dati a disposizione individuazione degli standard di riferimento modalità comuni di approccio all’indagine ?
Pianificazione del razionale dell’indagine : alcune delle domande che dovremmo porci Si lavora a livello di popolazione? Conosco tutte le variabili che mi interessano?? Si lavora analizzando dei campioni? Come li estraggo??? L’outcome di interesse di che tipo è? Conosco la distribuzione di probabilità che più si avvicina alla realtà?? Quali fonti di dati posso utilizzare?? Qual è la loro affidabilità?? Esistono degli standard di riferimento? Quali strumenti di analisi ho a disposizione?? Che tipo di approccio statistico intendo seguire?? […..]
Alcuni concetti di statistica Variabile continua :può assumere qualsiasi valore all’interno di un ragionevole range (es. altezza, peso, pressione arteriosa Variabile discreta :può assumere soltanto alcuni valori fissi (es. n. figli, età al compleanno) Variabile dicotomica: può assumere solo due modalità (es. sesso, lancio di una moneta) campioni n1 Popolazione n2 popolazione campione Numeros. N n µ ŷ σ2s2 σ s n3 media nn varianza. Dev. St
N figli freqrelativa frcumulata freqdonne 0 figli 20 / 100 20 % 20 1figlio 40 / 100 60 % 40 2 figli 40 / 100 100 % 40 totale 100 100 Distribuzione di frequenza assoluta Numero di donne che presentano ognuna delle modalità Distribuzione di frequenza cumulativa Sommatoria delle singole percentuali relative ad ogni modalità Distribuzione di frequenza relativa Proporzione di donne che presentano ognuna delle modalità, rapportata al numero totale di donne
n. soggetti n. soggetti 1.65 1.70 1.75 1.80 2.0 3.5 4.00 4.5 Peso medio dei nati vivi alla nascita (variabile continua asimmetrica verso sinistra) Altezza degli uomini adulti (variabile continua approssimativamente simmetrica) n. soggetti n. soggetti 0 1 2 0 6 12 18 24 30 36 Tempo di sopravvivenza (mesi) dopo diagnosi di un particolare tumore maligno (variabile continua con forma esponenziale) Distribuzioni di frequenza Numero di figli per donna (variabile discreta)
Misure di posizione (o grandezza) Media: somma di tutti i valori / numero delle osservazioni Mediana: valore centrale quando le osservazioni sono ordinate in ordinecrescente; la mediana è quel valore che divide la distribuzione di frequenza in due parti uguali Moda: valore che si presenta più frequentemente Supponiamo di avere questa serie di dati: MEDIA : (10+ 12+24+2+….+8)/ 15 = 146/15 = 9,7 MEDIANA: ordino i dati in modo crescente e individuo il valore centrale della serie MODA: non esiste una moda perchè ogni valore è presente una sola volta 50% 50%
Come calcolare le misure di posizione (o grandezza) in tabelle di frequenza Media: 6713,2 / 500= 13,43 Mediana: 13,42 Moda: 13,42
Misure di variabilità Range: differenza fra l’osservazione più grande e quella più piccola Percentili: valore che separa l’n% delle osservazioni dal resto delle osservazioni in una distribuzione cumulativa delle frequenze relative (25% ovvero 25° percentile o quartile; 50% ovvero 50° percentile o mediana) Varianza: si basa sulla differenza fra ogni osservazione e la media varianza in una popolazione σ2=Σ(y-µ)2/N Varianza in un campione s2=Σ(y-ŷ)2/(n-1) Deviazione standard: radice quadrata della varianza; è una sorta di deviazione media delle osservazioni dalla media Coefficiente di variazione:100σ/µ misura la variabilità delle osservazioni relativamente alla loro grandezza totale
Supponiamo di avere questa serie di dati: RANGE : 24-2 = 22 MEDIA : 146/15 = 9,7 VARIANZA: [(10-9,7)2+ (12-9,7)2+ ……..+(8-9,6)2] / (15-1)= 35,21 DEVIAZIONE STANDARD : √Varianza = 5,93 COEFFICIENTE DI VARIAZIONE : 100* 5,93/9,7 = 61,13
Probabilità La probabilità di un evento è definita come la proporzione delle volte in cui si verifica l’evento sul totale delle prove realizzate in una lunga serie casuale. In una popolazione di uomini, il 10% è più alto di 2 metri. Se un uomo venisse selezionato a caso da questa popolazione si potrebbe dire che la probabilità che la sua altezza sia maggiore di 2 metri è 1/10 o 0.1 perché in media questo accade in un uomo su 10. Distribuzioni di probabilità E’ assimilabile ad una distribuzione di frequenza relativa calcolata però NON su un campione di osservazioni, ma su un’intera popolazione. Ciò significa che se noi costruissimo un istogramma con le frequenze cumulative relative ad ogni valore di altezza rilevato sull’intera popolazione mondiale otterremmo una distribuzione di densità di probabilità.
Le distribuzioni di probabilità più significativesono: • Binomiale(che riguarda variabili di tipo dicotomico,per esempio testa o croce) • Pr(T) + PR(C) = 1 • 0.5 + 0.5 = 1 questo è un esempio molto semplice di distr. Binomiale • Supponiamo di effettuare 8 lanci (n) di una moneta, quindi con Pr(T)=Pr(C)= ½ • K rappresenta il numero dei successi • La funzione di probabilità sarà 8* ½ 1*½7 (8*7)/ (1*2)* ½ 2*½6
di Poisson (che riguarda eventi che si verificano • in un periodo di tempo definito:per esempio n° di chiamate al 118 in un’ora) • Si supponga che il 2% dei pezzi prodotti da una fabbrica siano difettosi. Si determini la probabilità che in un campione di 100 pezzi ve ne siano 3 difettosi. • La formula è la seguente : p(k;λ) = (λk * e – λ)/ K! con K=0,1,2,3…. • Quindi P (3;2) =( 23*e-2)/3! = 0.180
Applicazione della distribuzione di Poisson in Epidemiologia Per molte malattie croniche la distribuzione dei casi avviene in modo casuale nel tempo e se si considera un periodo non troppo lungo si può assumere un tasso costante di incidenza. Così il numero osservato di casi d in un periodo definito di tempo sarà una variabile poissoniana. Se n è il numero di persone osservate in un anno o il numero di anni-persona di esposizione al rischio, il tasso poissoniano è pari a d/n e la deviazione standard è uguale a √d/n. Questi risultati vengono utilizzati per trarre conclusioni relativamente alla precisione dei tassi e per i test di siginificatività
normale (o di Gauss-LaPlace) • La normale è la distribuzione statistica più famosa ed utilizzata. Le tre ragioni principali sono: • essa si adatta bene alla rappresentazione grafica di molti fenomeni fisici, biologi, sociali, ecc.; • essa è fondamentale in inferenza statistica; • La formula matematica che descrive la funzione della densità di probabilità normale è la seguente: • dove µ e σ rappresentano la popolazione media e lo scarto quadratico medio (o deviazione standard). L'equazione della funzione di densità è costruita in modo tale che l'area sottesa alla curva rappresenti la probabilità. Perciò, l'area totale è uguale a 1.
Questi dati si riferiscono al diametro in millimetri della testa di n = 500 rivetti, classificati in k = 15 intervalli, ognuno dell'ampiezza di h = 0.05 mm. Le frequenze riportate nella tabella si riferiscono al numero di misurazioni che rientrano nell'intervallo indicato dal corrispondente valore nella prima colonna. Il lotto dei 500 rivetti può essere considerato un semplice campione casuale preso da una distribuzione di probabilità. Si presuppone che questa distribuzione sia una normale. In questo caso, questa scelta è fatta solamente basandosi sull'osservazione che un simile tipo di rilevazioni spesso si mostra in accordo con una distribuzione normale. Distribuzione di frequenza con media e deviazione standard DS Distribuzione di probabilità con la stessa media e deviazione standard della distribuzione di frequenza
Distr. Normale: • Riguarda variabili continue • Ha forma a campana • È simmetrica intorno alla media µ • É determinata da due quantità: la media ( µ )e la deviazione standard (σ) µ Distr. Normale Standardizzata: Poiché le tavole della distribuzione normale non possono essere tabulate per tutti i possibili valori di µ e σ, si utilizza la normale standardizzata che ha media =0 e deviazione standard =1. L’area al di sotto della curva normale standardizzata corrisponde a 1 68% (µ± σ) 95% ( µ± 1.96σ) I valori relativi al campione in osservazione si standardizzano secondo la formula Z= (x-µ) / σ e si confrontano con la tavola della normale standardizzata per sapere a quale valore di probabilità coincidono 99% (µ± 2.58σ)
Inferenza : stima di un parametro riguardante una popolazione attraverso l’uso di un campione MEDIA camp DS camp Popolazione 1 s1 ŷ1 CAMPIONE 1 MEDIA pop µ ŷ2 s2 CAMPIONE 2 DS pop σ CAMPIONE 3 s3 ŷ3 CAMPIONE n sn ŷn
Inferenza : alcune fra le varie possibilità di procedere 1) supponiamo di volere stimare la media µ di una popolazione utilizzando un campione con media ŷ CAMPIONE 1 Popolazione 1 CAMPIONE 1 2) supponiamo di volere confrontare la media di un campione e la media di una popolazione Popolazione 1 CAMPIONE 1 prima CAMPIONE 1 dopo 3) supponiamo di volere confrontare la media di un DUE campioni dipendenti (prima/dopo) CAMPIONE 1 CAMPIONE 2 3) supponiamo di volere confrontare la media di un DUE campioni INdipendenti
Primo approccio: costruire l’intervallo di confidenza per la media µ. Per esempio: supponiamo di volere stimare la media µ di una popolazione utilizzando un campione con media ŷ Ciò che ci interessa è sapere in che misura la media campionaria è una stima precisa della media sconosciuta della popolazione. Sappiamo che la distribuzione di tutte le possibile medie campionarie è una distribuzione normale con media µ e deviazione standard σ/√n (ovvero uguale all’errore standard ES) [Teorema del limite centrale] 1) Quindi essendo la media campionaria ŷ un singolo valore della distribuzione di tutte le possibili medie campionarie, la probabilità che tale valore stia entro µ±1.96 ES è pari al 95% µ (media) Ciò significa che c’è un 95% di possibilità che la media campionaria si trovi all’interno dell’intervallo µ±1.96 ES(ŷ) 95% (µ± 1.96ES )
Quindi la probabilità che l’intervallo ŷ±1.96 ES(ŷ) contenga la media sconosciuta della popolazione (µ) è pari a 0.95 o 95%. L’intervallo ŷ±1.96 ES(ŷ) è chiamato Intervallo di confidenza al 95% di µ ed è una misura della precisione della media campionaria ŷ quale stima della media della popolazione 2) Se come di solito accade σ (deviazione standard nella popolazione) non si conosce e deve essere stimata attraverso un campione, c’è bisogno di un piccolo aggiustamento. Se la varianza di y è stimata dal campione attraverso la formula s2=Σ(y-ŷ)2/(n-1) è necessario usare il valore critico della distribuzione t con n-1 gradi di libertà Allora l’intervallo di confidenza diventa ŷ ±t(n-1)s/√n
Problema n.3 Una popolazione di altezze di uomini ha una DS di 6.6 cm e la media dei campioni è pari a 180 cm. Qual è l’errore standard della media di un campione casuale di : a) 25 uomini b) 100 uomini ? Qual’e l’intervallo di confidenza al 95% della media campionaria? DATI: Media dei campioni= 180 cm Deviazione standard della popolazione (σ)= 6.6 cm Numerosità campionaria: a) n=25 uomini b) n= 100 uomini • SOLUZIONE: • Errore Standard della media campionaria = σ/√n • ES (ŷ)= 6.6 / √25= 1.32 • ES (ŷ)= 6.6 / √100= 0.66 • Intervallo di confidenza al 95% = ŷ±1.96*ES(ŷ) • 180±1.96*1.32 [177.4 – 182.6] • 180±1.96*0.66 [178.7 – 181.3]
Problema n.3 Una popolazione di altezze di uomini ha una DS sconosciuta e la media del campione è pari a 180 cm. Qual è l’errore standard della media di un campione casuale di 25 uomini ? Supponendo che il campione abbia un DS pari a 4.5 cm qual’e l’intervallo di confidenza al 95% della media campionaria? DATI: Media del campione = 180 cm Deviazione standard della popolazione (σ) sconosciuta Numerosità campionaria: n=25 uomini Deviazione Standard del campione (s) =4.5 cm SOLUZIONE: Errore Standard della media campionaria ES(ŷ)=s/√n = 4.5 /√25 = 0.9 Intervallo di confidenza al 95% = ŷ ±t(n-1)*ES(ŷ) in cuin-1=25-1=24 e t(n-1) dalle tavole della distribuzione t è pari a 1.711 quindi 180±1.711*0.9 [178.5 – 181.5]
Secondo approccio: confrontare la media di un campione e la media di una popolazione Per esempio: supponiamo di volere valutare il rischio per la salute legato ad una certa occupazione: la media di pressione sistolica misurata in un campione di 20 uomini (30-39 anni) impiegati in quel tipo di occupazione è pari a 141.4 mmHg mentre in uomini della stessa età nella popolazione generale la media della pressione sistolica è pari a 133.2 mmHg con una deviazione standard σdi 15.1 mmHg. La nostra ipotesi nulla è che non ci sia un cambiamento nella pressione sistolica dovuto a quel tipo di occupazione e che i 20 lavoratori rappresentino un campione random selezionato dalla popolazione generale. Se l’ipotesi fosse vera la media del campione sarebbe distribuita normalmente intorno alla media della popolazione (133.2) con una deviazione standard pari a 15.1/√20= 3.38mmHg (errore standard) ovvero la media del campione dovrebbe stare entro l’intervallo 133.2 ± 1.96*3.38 [126.6 – 139.8] In realtà la media del campione (141.4) stà al di fuori di questo IC 95% , ovvero cade in quel 5% di probabilità che ci fà dire che esiste una differenza significativa fra la pressione sistolica del campione e quella della popolazione generale maschile della stessa età. Questo approccio è tecnicamnte noto come TEST DI SIGNIFICATIVITA’ O TEST AD IPOTESI
popolazione realtà µ=µ0 µ≠µ0 accetto H0 rifiuto H0 corretto β α corretto risultato del test Test ad ipotesi Supponiamo di voler valutare se la media della popolazione (µ) è uguale ad un valore prefissato µ0 H0:µ=µ0 Ipotesi nulla Popolazione 1 Popolazione 2 HA:µ≠µ0 Ipotesi alternativa µ µ0 α: probabilità di rifiutare H0 quando questa è vera β: probabilità di accettare H0 quando questa è falsa 1- β: potenza del test ovvero la probabilità di rifiutare H0 quando questa è falsa
Test t su campioni dipendenti A 5 soggetti è stata somministrata una dose di ipotensivo e si sono registrati i valori di pressione arteriosa sistolica prima e dopo la somministrazione ottenendo i seguenti risultati in mmHg: Prima Dopo Soggetto 1 180 160 Soggetto 2 210 205 Soggetto 3 240 200 Soggetto 4 195 195 Soggetto 5 170 160 Esiste differenza tra i valori medi della pressione prima e dopo la somministrazione (α= 0.05)? Si procede calcolando la differenza fra i valori pressori prima del trattamento e dopo lo stesso
Prima Dopo differenza (d) d2 Soggetto 1 180 160 20 400 Soggetto 2 210 205 5 25 Soggetto 3 240 200 40 1600 Soggetto 4 195 195 0 0 Soggetto 5 170 160 10 100 75 2125 Fissiamo anche l’ipotesi nulla H0: µprima = µdopo e l’ipotesi alternativa Ha: µprima ≠ µdopo La formula del test t per dati appaiati è la seguente t = dmedia /ES (d media) Per applicare questa formuladobbiamo calcolarela DS della differenza sapendo che Σd= 75 dmedia= 75/5=15 Σ (d- dmedia)2= Σd2- (Σd)2/n=(2125-5625/5)=1000 S2(d)= Σ (d- dmedia)2/ (n-1)=1000/4=250 e ES(dmedia)= √s2(d)/n=√250/5=7.07 Quindi t = dmedia /ES (d media)= 15 /7.07=2.12
I gradi di libertà da considerare sono: numero delle osservazioni meno 1, ovvero 5-1=4 e dalle tavole t(0.05) sulle due code è =2.776 Accetto H0 Rifiuto H0 Rifiuto H0 -2.776 2.776 2.12 Poiché il valore che risulta dal test t cade nella zona di accettazione dell’ipotesi nulla, posso affermare che non c’è differenza fra i valori di pressione prima e dopo il trattamento, sapendo di avere una percentuale di errore nell’affermare ciò pari al 5%
Test t su campioni INdipendenti E’ stata misurata la velocità di eritrosedimentazione in un gruppo di pazienti (gruppo A) che avevano una certa infezione. Per controllo le stesse misurazioni sono state condotte in un gruppo di controllo (gruppo B). I dati ottenuti sono i seguenti: gruppo A 3 9 8 6 5 5 7 3 10 8 10 4 gruppo B 10 13 6 11 10 7 8 8 5 9 Esiste una differenza significativa nella velocità media di sedimentazione tra il gruppo A e il gruppo B ? H0: µA= µB HA: µA≠ µB gruppo A 9 81 64 36 25 25 49 9 100 64 100 16 Σx2= 578 gruppo B 100 169 36 121 100 49 64 64 25 81 Σx2= 809 media gruppo A= 87/ 10=8.7 media gruppo B= 78/12= 6.5 Per applicare il test t su dati indipendenti devo valutate l’omogeneità delle varianze dei due gruppi Σ(x-xmedioA)2= ΣxA2-(ΣxA)2/nA=809- (87)2/10=52.1 ovvero DEVIANZA nel gruppo A e Σ(x-xmedioB)2= 71 ovvero DEVIANZA nel gruppo B
Calcolo allora le Devianze: Σ(x-xmedioA)2= ΣxA2-(ΣxA)2/nA=809- (87)2/10=52.1 ovvero DEVIANZA nel gruppo A e Σ(x-xmedioB)2= 71 ovvero DEVIANZA nel gruppo B E successivamente le varianze = devianza/ n-1 Varianza di A 71/(12-1)= 6.45 Varianza di B 52.1/(10-1)= 5.78 Verifico ora l’omogeneità attraverso un test F sue varianze F=Varianza più grande / varianza più piccola = 6.45/5.78= 1.11 H0σA=σB H0σA≠σB Gradi di libertà del numeratore= 12-1=11 Gradi di libertà del denominatore= 10-1=9 Dalle tavole della distribuzione F si rileva che F (11;9; 0.05)= 3.07 Accetto H0 Accettiamo l’ipotesi nulla di omogeneità delle varianze, allora posso applicare il test t Rifiuto H0 1.11 3.07
Calcoliamo la varianza combinata S2(combinata)= dev A+ dev B/( nA+nB-2)= 71+52.1/20= 6.16 XmedioB-XmedioA t= = 2.08 √ S2(combinata)/nA + S2(combinata)/nB Dalle tavole t (20;0.050)= 2.086 Accetto H0 Accetto l’ipotesi nulla, ovvero non c’è differenza fra i due gruppi Rifiuto H0 Rifiuto H0 -2.086 2.086 2.080
Come confrontare due tassi Supponiamo di dover confrontare i livelli di mortalità dell’USL22 rispetto al livello medio regionale del Veneto. Questi sono i dati a disposizione: popolazione per età e sesso – USL22 (POP in esame) Deceduti per età e sesso – USL22 Tassi grezzi per sesso *10.000ab – USL22 Tassi specifici per età e sesso *10.000ab– USL22
Metodo diretto popolazione per età e sesso – Veneto (POP standard) Decessi attesi utilizzando la popolazione del Veneto Tassi specifici per età e sesso*10.000ab – USL22 Tasso standardizzato diretto di mortalità per USL22 Tassi grezzi per sesso – USL22 = 457,8483/2.185.477
Metodo INdiretto popolazione per età e sesso – USL22 (POP in esame) Tassi specifici per età e sesso – Veneto (POP standard) SMR (osservati/ attesi) Deceduti per età e sesso – USL22 Casi attesi per USL 22
Come presentare i propri dati Tabella ad una entrata Frequenza assoluta dei ricoveri per ernia disaggregati per sesso Tabella a doppia entrata Frequenza assoluta dei ricoveri per ernia disaggregati per sesso e classi di età
Rappresentazioni grafiche Le frequenze o numeri assoluti possono essere visualizzate attraverso dei grafici a linee quando vogliono evidenziare una tendenza nel tempo (età, singoli anni di un periodo di osservazione, ecc.) Quando invece si vuole visualizzare la differenza in numero assoluto fra diversi livelli di aggregazione del dato (sesso, comuni, ecc.) che non hanno un riferimento temporale, si possono usare gli istogrammi (o grafici a barre)
Le frequenze percentuali di una sola variabile (tipo di ricovero) distribuita in base alle sue modalità (neonati, ricoveri programmati non urgenti, urgenti, ecc.) possono essere visualizzate attraverso dei grafici a torta nei quali è immediato rilevare il contributo delle singole modalità sulla variabile in osservazione Se la distribuzione percentuale che si sta graficando prevede una stratificazione della variabile in più livelli di altre due caratteristiche (età e comune di residenza) è necessario utilizzare una forma grafica che visualizzi contestualmente tutte le informazioni previste.
Se si vuole visualizzare l’andamento contestuale di due variabili che si suppone siano correlate si utilizza il grafico a dispersione. Questo grafico evidenzia la possibile relazione esistente fra le due variabili: se i punti di dispersione sono distribuiti lungo un’ipotetica retta la relazione si definisce lineare.
I miei recapiti: Dott. Michela Franchini Coordinatore Epidemiologia – ASL 11 Empoli Telefono ufficio: 0571-702932 Cellulare aziendale : 335/5722279 Testi di consultazione consigliati: Glantz Statistica per discipline biomediche Ed. McGraw-Hill Pagano – Gauvreau Biostatistica Ed. Idelson-Gnocchi