310 likes | 433 Views
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI. Le tabelle rxc. Si consideri una popolazione le cui N unità siano classificate secondo le r modalità di un carattere X (esempio sesso) e le c modalità di un carattere Y (classi di età ).
E N D
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI Le tabelle rxc
Si consideri una popolazione le cui N unità siano classificate secondo le r modalità di un carattere X (esempio sesso) e le c modalità di un carattere Y (classi di età)
Estraiamo da questa popolazione un campione di n unità e si ha Sulla base delle osservazioni campionarie vogliamo sapere se i due caratteri X ed Y sono indipendenti
Esempio:Verificare l’ipotesi nulla di indipendenza tra reflusso gastro-esofageo e peso corporeo al livello di significatività dell’1%. Distribuzione marginale di colonna p.j Distribuzione marginale di riga pi.
Test di indipendenza Per la legge del prodotto di due eventi indipendenti, la probabilità del prodotto pij è uguale al prodotto delle probabilità pi. per p.j Si utilizza una statistica test che è una sorta di distanza tra la tabella delle frequenze osservate nij e la tabella delle frequenze attese υij nell’ipotesi di indipendenza
Generalmente le probabilità marginali non sono note. Occorre stimarle: Sotto H0: Allora:
Il chi quadro indica la misura in cui le frequenze osservate in ogni casella della tabella differiscono dalle frequenze che ci aspetteremmo se non ci fosse associazione fra i due caratteri. I gradi di libertà sono dati dal numero totale delle celle meno il numero di parametri stimati, ovvero 1 frequenza totale, r frequenze marginali di riga e c frequenze marginali di colonna: rc-1-r-c=r(c-1)-(c-1)=(r-1)(c-1)
Affinché si possa utilizzare il chi quadro e' • indispensabile: • che i dati siano indipendenti, cioe' nessun soggetto • puo' apparire in più di una cella della tabella; • b) che non più del 20 % delle frequenze attese nella • tabella può essere < 5 (altrimenti si deve usare • il test esatto di Fisher); • c) nessuna cella deve avere una frequenza attesa < 1 • (altrimenti si deve usare il test esatto di Fisher). • d) Non c’è alcuna ipotesi di normalità sulla distribuzione • della popolazione di provenienza del campione. Per questo • fa parte della famiglia dei test non parametrici
Abbiamo detto che per una tabella rxc il test si distribuisce approssimativamente come un Chi-quadro. Questa approssimazione è valida purché vi siano un numero sufficiente di g.l. Per tabelle 2x2, con 1 solo g.l., è meglio utilizzare un fattore di correzione per la continuità: Correzione di Yates: consiste nel sottrarre 0.5 alla differenza tra frequenze osservate e attese in valore assoluto
Test esatto di Fisher • Quando le dimensioni campionarie sono piccole, è possibile elencare tutte le possibili combinazioni delle osservazioni e quindi calcolare le probabilità esatte associate a ogni possibile combinazione di dati. • La probabilità totale a una coda o a due code di ottenere la tabella osservata o una più estrema è il valore di P associato all’ipotesi che i due caratteri siano indipendenti
Si consideri il seguente esempio: Si deve usare il test esatto di Fisher
. tabi 1 8\10 4, exact | col row | 1 2 | Total -----------+----------------------+---------- 1 | 1 8 | 9 2 | 10 4 | 14 -----------+----------------------+---------- Total | 11 12 | 23 Fisher's exact = 0.009 1-sided Fisher's exact = 0.007
L'associazione e' il grado di dipendenza statistica tra 2 o piu' eventi variabili; Infatti l'associazione puo' essere: - causale o eziologica (il fumo di tabacco provoca il cancro); - secondaria o indiretta (la bronchite cronica, causata dal fumo, e' associata al cancro); - non causale o spuria o artificiale: e' determinata da una circostanza esterna: o un fattore di confon- dimento o una distorsione della metodologia statistica usata.
Misure di rischio Facciamo l'esempio di due gruppi di soggetti (ad es. quelli con colesterolo alto e quelli con colesterolo basso), inizialmente sani, che esposti ad un fattore di rischio (colesterolemia alta) dopo un certo tempo sviluppano una malattia (cardiopatia). Al termine del periodo di follow-up si avranno 4 categorie di soggetti: malati esposti (a), malati non esposti (c), non malati esposti (b) non malati non esposti (d):
Si consideri uno studio prospettico (1) Malato (M+) Non malato (M-) Totale Esposto (E+) a=50 b=450 500 Non esposto (E-) c=25 d=475 500 La probabilità che un soggetto esposto sia malato è detta Incidenza o rischio assoluto: a/a+b, cioe' 50/500
… oppure i risultati di un Trial (2) • Morti Non Morti Totale • Terapia tradizionale (TT) 35 41 76 • Terapia Sperimentale (TS) 49 26 75
Rischio attribuibile individuale (RA)o Riduzione del Rischio Assoluto (RRA) Rappresenta la quantita' di rischio supplementare attribuibile al fattore di rischio ( o alla terapia tradizio- nale): (1) RA = IE+ - IE- = 0.10 - 0.05= 0.05 (il fattore di rischio aumenta il rischio del 5%) (2) RA = I(TT) - I(TS) = 0.46 - 0.65= -0.19 (la terapia sperimentale aumenta il rischio di morte del 19%: si noti il segno negativo di RA)
Rischio Relativo (RR o risk ratio) Rapporto fra incidenza negli esposti e incidenza nei non esposti, cioe': a/(a+b) 50/500 0.10 RR = ________ = _______ = ___ =2 (1) c/(c+d) 25/500 0.05 (cioe' gli esposti hanno un rischio doppio dei non esposti). Se il valore e' attorno a 1 indica che il fattore non ha influenza nello sviluppo della malattia; se e' <1 indica che il fattore ha un ruolo protettivo, se e' >1 indica che esiste un'associazione tra fattore e malattia.
Rischio Relativo (RR o risk ratio) Rapporto fra incidenza negli esposti e incidenza nei non esposti, cioe': a/(a+b) 35/76 0.46 RR = ________= _______ = ___ = 0.71 (2) c/(c+d) 49/75 0.65 (cioe' i pazienti trattati con terapia tradizionale hanno un rischio minore rispetto ai pazienti trattati con terapia sperimentale) Se il valore e' attorno a 1 indica che le due terapie sono equivalenti; se e' <1 indica che la terapia al numeratore è più efficace se e' >1 indica che è meno efficace
Riduzione del Rischio Relativo (RRR) Rapporto fra incidenza negli esposti e incidenza nei non esposti, cioe': RRR = 1-RR = 1- 0.71=0.29 (2) (cioe' i pazienti trattati con terapia sperimentale hanno un rischio del 29% più alto dei pazienti trattati con terapia tradizionale)
Rischio Relativo (RR o risk ratio) Gli intervalli di confidenza per RR possono essere ottenuti tramite una trasformazione logaritmica
Odds ratio o rapporto crociato(“Crude” OR) Il RR puo' essere calcolato correttamente solo negli studi longitudinali (insorgenza di una malattia nel tempo). Casi Controlli Totale Fattore di rischio presente 19 3 22 Fattore di rischio assente 17 11 28 Totale 36 14 50 Odds è il rapporto della probabilità di essere caso rispetto alla probabilità di essere controllo
Odds ratio o rapporto crociato(“Crude” OR) Negli studi caso-controllo si puo' ottenere una stima del rischio con il c.d. odds ratio: Odds (f.r.presente)=(19/22)/(3/22)=19/3=6.3 Odds (f.r.assente)=(17/28)/(11/28)=17/11=1.5 OR = Odds (f.r.presente)/Odds (f.r.assente)=(a/b) / (c/d) = a d/b c=6.3/1.5=4.2
Statistica di Mantel-Haenszel • Quando nello studio osservazionale interviene una variabile di confondimento occorre stratificare casi e controlli in funzione delle sue categorie.
Tabella di contingenza relativa all’i-esima categoria della v. di confounding D E
Test di omogeneità Per ogni categoria della variabile di confondimento abbiamo un OR Occorre verificare l’ipotesi nulla Si utilizza un test Chi-quadro:con pesi dati dall’inverso della varianza stimata del log dell’ORi:
Se il test risulta non significativo, possiamo calcolare un OR globale Test di associazione:
Procedura • 1. Calcolare • 2. Calcolare • 3. Calcolare