METODI STATISTICI PER LO STUDIO DELLâ€™ASSOCIAZIONE TRA DATI QUALITATIVI

METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI Le tabelle rxc

Si consideri una popolazione le cui N unità siano classificate secondo le r modalità di un carattere X (esempio sesso) e le c modalità di un carattere Y (classi di età)

Estraiamo da questa popolazione un campione di n unità e si ha Sulla base delle osservazioni campionarie vogliamo sapere se i due caratteri X ed Y sono indipendenti

Esempio:Verificare l’ipotesi nulla di indipendenza tra reflusso gastro-esofageo e peso corporeo al livello di significatività dell’1%. Distribuzione marginale di colonna p.j Distribuzione marginale di riga pi.

Test di indipendenza Per la legge del prodotto di due eventi indipendenti, la probabilità del prodotto pij è uguale al prodotto delle probabilità pi. per p.j Si utilizza una statistica test che è una sorta di distanza tra la tabella delle frequenze osservate nij e la tabella delle frequenze attese υij nell’ipotesi di indipendenza

Generalmente le probabilità marginali non sono note. Occorre stimarle: Sotto H0: Allora:

P-value

Il chi quadro indica la misura in cui le frequenze osservate in ogni casella della tabella differiscono dalle frequenze che ci aspetteremmo se non ci fosse associazione fra i due caratteri. I gradi di libertà sono dati dal numero totale delle celle meno il numero di parametri stimati, ovvero 1 frequenza totale, r frequenze marginali di riga e c frequenze marginali di colonna: rc-1-r-c=r(c-1)-(c-1)=(r-1)(c-1)

Affinché si possa utilizzare il chi quadro e' • indispensabile: • che i dati siano indipendenti, cioe' nessun soggetto • puo' apparire in più di una cella della tabella; • b) che non più del 20 % delle frequenze attese nella • tabella può essere < 5 (altrimenti si deve usare • il test esatto di Fisher); • c) nessuna cella deve avere una frequenza attesa < 1 • (altrimenti si deve usare il test esatto di Fisher). • d) Non c’è alcuna ipotesi di normalità sulla distribuzione • della popolazione di provenienza del campione. Per questo • fa parte della famiglia dei test non parametrici

Abbiamo detto che per una tabella rxc il test si distribuisce approssimativamente come un Chi-quadro. Questa approssimazione è valida purché vi siano un numero sufficiente di g.l. Per tabelle 2x2, con 1 solo g.l., è meglio utilizzare un fattore di correzione per la continuità: Correzione di Yates: consiste nel sottrarre 0.5 alla differenza tra frequenze osservate e attese in valore assoluto

Test esatto di Fisher • Quando le dimensioni campionarie sono piccole, è possibile elencare tutte le possibili combinazioni delle osservazioni e quindi calcolare le probabilità esatte associate a ogni possibile combinazione di dati. • La probabilità totale a una coda o a due code di ottenere la tabella osservata o una più estrema è il valore di P associato all’ipotesi che i due caratteri siano indipendenti

Si consideri il seguente esempio: Si deve usare il test esatto di Fisher

. tabi 1 8\10 4, exact | col row | 1 2 | Total -----------+----------------------+---------- 1 | 1 8 | 9 2 | 10 4 | 14 -----------+----------------------+---------- Total | 11 12 | 23 Fisher's exact = 0.009 1-sided Fisher's exact = 0.007

Misure di rischio

L'associazione e' il grado di dipendenza statistica tra 2 o piu' eventi variabili; Infatti l'associazione puo' essere: - causale o eziologica (il fumo di tabacco provoca il cancro); - secondaria o indiretta (la bronchite cronica, causata dal fumo, e' associata al cancro); - non causale o spuria o artificiale: e' determinata da una circostanza esterna: o un fattore di confondimento o una distorsione della metodologia statistica usata.

Misure di rischio Facciamo l'esempio di due gruppi di soggetti (ad es. quelli con colesterolo alto e quelli con colesterolo basso), inizialmente sani, che esposti ad un fattore di rischio (colesterolemia alta) dopo un certo tempo sviluppano una malattia (cardiopatia). Al termine del periodo di follow-up si avranno 4 categorie di soggetti: malati esposti (a), malati non esposti (c), non malati esposti (b) non malati non esposti (d):

Si consideri uno studio prospettico (1) Malato (M+) Non malato (M-) Totale Esposto (E+) a=50 b=450 500 Non esposto (E-) c=25 d=475 500 La probabilità che un soggetto esposto sia malato è detta Incidenza o rischio assoluto: a/a+b, cioe' 50/500

… oppure i risultati di un Trial (2) • Morti Non Morti Totale • Terapia tradizionale (TT) 35 41 76 • Terapia Sperimentale (TS) 49 26 75

Rischio attribuibile individuale (RA)o Riduzione del Rischio Assoluto (RRA) Rappresenta la quantita' di rischio supplementare attribuibile al fattore di rischio ( o alla terapia tradizionale): (1) RA = IE+ - IE- = 0.10 - 0.05= 0.05 (il fattore di rischio aumenta il rischio del 5%) (2) RA = I(TT) - I(TS) = 0.46 - 0.65= -0.19 (la terapia sperimentale aumenta il rischio di morte del 19%: si noti il segno negativo di RA)

Rischio Relativo (RR o risk ratio) Rapporto fra incidenza negli esposti e incidenza nei non esposti, cioe': a/(a+b) 50/500 0.10 RR = ________ = _______ = ___ =2 (1) c/(c+d) 25/500 0.05 (cioe' gli esposti hanno un rischio doppio dei non esposti). Se il valore e' attorno a 1 indica che il fattore non ha influenza nello sviluppo della malattia; se e' <1 indica che il fattore ha un ruolo protettivo, se e' >1 indica che esiste un'associazione tra fattore e malattia.

Rischio Relativo (RR o risk ratio) Rapporto fra incidenza negli esposti e incidenza nei non esposti, cioe': a/(a+b) 35/76 0.46 RR = ________= _______ = ___ = 0.71 (2) c/(c+d) 49/75 0.65 (cioe' i pazienti trattati con terapia tradizionale hanno un rischio minore rispetto ai pazienti trattati con terapia sperimentale) Se il valore e' attorno a 1 indica che le due terapie sono equivalenti; se e' <1 indica che la terapia al numeratore è più efficace se e' >1 indica che è meno efficace

Riduzione del Rischio Relativo (RRR) Rapporto fra incidenza negli esposti e incidenza nei non esposti, cioe': RRR = 1-RR = 1- 0.71=0.29 (2) (cioe' i pazienti trattati con terapia sperimentale hanno un rischio del 29% più alto dei pazienti trattati con terapia tradizionale)

Rischio Relativo (RR o risk ratio) Gli intervalli di confidenza per RR possono essere ottenuti tramite una trasformazione logaritmica

Odds ratio o rapporto crociato(“Crude” OR) Il RR puo' essere calcolato correttamente solo negli studi longitudinali (insorgenza di una malattia nel tempo). Casi Controlli Totale Fattore di rischio presente 19 3 22 Fattore di rischio assente 17 11 28 Totale 36 14 50 Odds è il rapporto della probabilità di essere caso rispetto alla probabilità di essere controllo

Odds ratio o rapporto crociato(“Crude” OR) Negli studi caso-controllo si puo' ottenere una stima del rischio con il c.d. odds ratio: Odds (f.r.presente)=(19/22)/(3/22)=19/3=6.3 Odds (f.r.assente)=(17/28)/(11/28)=17/11=1.5 OR = Odds (f.r.presente)/Odds (f.r.assente)=(a/b) / (c/d) = a d/b c=6.3/1.5=4.2

Odds ratio o rapporto crociato(“Crude” OR)

Statistica di Mantel-Haenszel • Quando nello studio osservazionale interviene una variabile di confondimento occorre stratificare casi e controlli in funzione delle sue categorie.

Tabella di contingenza relativa all’i-esima categoria della v. di confounding D E

Test di omogeneità Per ogni categoria della variabile di confondimento abbiamo un OR Occorre verificare l’ipotesi nulla Si utilizza un test Chi-quadro:con pesi dati dall’inverso della varianza stimata del log dell’ORi:

Se il test risulta non significativo, possiamo calcolare un OR globale Test di associazione:

Procedura • 1. Calcolare • 2. Calcolare • 3. Calcolare

METODI STATISTICI PER LO STUDIO DELLâ€™ASSOCIAZIONE TRA DATI QUALITATIVI

METODI STATISTICI PER LO STUDIO DELLâ€™ASSOCIAZIONE TRA DATI QUALITATIVI

Presentation Transcript

Dell Boomi EDI 101 or what am I doing

LA MANOVRA ESTIVA

Visual Studio: Extending Visual Studio With Add-ins And Packages

Studi epidemiologici

Comune di Bagnone

Metodi di studio

Basi di Dati Spaziali

Impostazione di un nuovo Progetto Classificazione e rappresentazione dei dati

Le rilevazioni nazionali dell ’ INVALSI

Gli isotopi nelle problematiche ambientali con riferimento ai valori di fondo

Microsoft Access (parte 5)

Normative e linee guida per la validazione dei metodi di analisi

Associazione, ricombinazione e mappatura genetica dei geni eucariotici

Hardware ed architettura del calcolatore

Pathway Studio Workgroup/Enterprise training course

Gianluigi Pilu gianluigi.pilu@unibo.it

Basi di Dati e Sistemi Informativi

Basi di dati: evoluzioni recenti

Corso di Laurea in Biotecnologie Informatica (Basi di Dati)

Analisi di dati del Run I

Metodi matematici dell’astronomia

Capitolo 3 e par. 5.1