440 likes | 634 Views
Corso di Laurea in S tatistica M atematica e trattamento I nformatico dei D ati ati Università di Genova. Applicazione del modello di regressione di Poisson e del modello logistico in Epidemiologia Lezione 2 Introduzione al modello logistico negli studi caso-controllo.
E N D
Corso di Laurea in StatisticaMatematica etrattamentoInformaticodeiDatiati Università di Genova Applicazione del modello di regressione di Poisson e del modello logistico in Epidemiologia Lezione 2 Introduzione al modello logistico negli studi caso-controllo Esercitazione pratica nell’ambito del Corso di Modelli Statistici - Anno Accademico 2006-2007 A cura di: Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma, c/o Servizio di Epidemiologia e Biostatistica, Direzione Scientifica, Istituto G. Gaslini, Largo G. Gaslini 5, 16147 Genova - Tel: 010 5636 301 - 423, Fax: 010 377 6590, e-mail: stefanoparodi@ospedale-gaslini.ge.it
Lo studio caso-controllo • Lo studio caso-controllo rappresenta uno dei più importanti studi epidemiologici osservazionali. • La sua caratteristica fondamentale è la misura dell’esposizione pregressa effettuata separatamente in due gruppi diversi di soggetti denominati casi e controlli • Per tale motivo esso è noto anche come studio retrospettivo.
In generale l’informazione sull’avvenuta esposizione e sui possibili fattori associati alla patologia in studio viene raccolta mediante la somministrazione di un questionario. • Talvolta al questionario si aggiungono informazioni da analisi genetiche o da campioni biologici. • Ad esempio, per verificare se una determinata mutazione genetica possa essere associata ad un maggior rischio di contrarre la patologia in studio.
Tra i vantaggi principali dello studio caso-controllo, vi è la possibilità di valutare l'effetto di diverse esposizioni e quindi l’eventuale presenza di interazione tra di esse. • Permette inoltre un’agevole raccolta di informazioni su diversi possibili confondenti e risulta in genere molto potente, poiché è in grado di includere un numero di casi molto elevato. • Rispetto allo studio di coorte risulta in genere meno costoso e richiede tempi di realizzazione più brevi. • Infine risulta particolarmente adatto per indagare patologie molto rare, in cui si possono selezionare tutti i casi incidenti (nuovi casi) in un determinato territorio per l’intero periodo di osservazione.
Tra i principali limiti vi è la difficoltà di valutare l’effetto di esposizioni rare, se la prevalenza degli esposti è bassa nel sottogruppo dei casi. • Inoltre permette solo di ottenere stime relative della frequenza di patologia, anche se, quando è basato su popolazione, può consentire la stima di tassi di incidenza. • Tuttavia il limite principale dello studio caso-controllo risiede probabilmente nella sua suscettibilità a diversi fattori di distorsione (bias).
Il bias di selezione può originare dalla scelta inadeguata dei casi o, più comunemente, dei controlli. • Infatti se i controlli non sono rappresentativi della popolazione generale, l’associazione eventualmente osservata nel campione potrebbe non essere presente nella popolazione o viceversa. • Un bias di informazione può invece derivare dal fatto che i casi tendono maggiormente ad attribuire l’insorgenza della loro patologia ad avvenute esposizioni. • In particolare tendono a ricordare meglio o più intensamente l’avvenuta esposizione (recall bias).
I bias da confondimento derivano dalla presenza di fattori associati sia all’esposizione che al rischio della patologia, denominati confondenti. • I bias da confondimento, per le variabili più importanti, possono essere controllati mediante un opportuno modellamento statistico. • Negli studi in cui il campionamento dei controlli è indipendente da quello dei casi (studio caso-controllo senza appaiamento), in genere viene utilizzato il modello di regressione logistica non condizionale .
Casi Controlli a+b Esposti a b c+d Non-esposti c d a+c b+d Inferenza statistica nello studio caso-controllo Nel caso più semplice di una sola variabile di esposizione e in assenza di confondenti, il risultato di uno studio caso controllo può essere riassunto in una tabella 2x2, nel modo seguente:
Casi Controlli a+b Esposti a b c+d Non-esposti c d a+c b+d • Lo stimatore di associazione più utilizzato nello studio caso- controllo è l’Odds Ratio (OR) di esposizione che rappresenta una stima dell’OR di rischio e quindi è stimatore di rischio relativo • L’OR può essere ottenuto applicando la seguente formula:
Casi Controlli a+b Esposti a b c+d Non-esposti c d a+c b+d • Infatti l’Odd di esposizione per i casi è pari a: • Analogamente, l’Odd di esposizione per i controlli è pari a: • Da cui l’OR sarà:
La dimostrazione dell’equivalenza tra l’OR di rischio e quello di esposizione può essere effettuata utilizzando la formula di Bayes. • L’assunto alla base di tale dimostrazione è che lo studio caso- controllo possa essere considerato come del tutto equivalente a uno studio prospettico di coorte chiusa. • Ovvero che i casi originino da una popolazione che comprende sia soggetti esposti che non esposti, seguiti per lo stesso periodo di tempo.
La formula seguente descrive la relazione tra l’OR e il rapporto tra rischi in uno studio di coorte chiusa: Da cui si ricava che l’OR è stimatore non distorto di Rischio Relativo se il rischio è piccolo sia negli esposti che nei non-esposti, oppure se è simile nei due gruppi.
L’OR è uno stimatore di rischio relativo distorto (biased), che tende a enfatizzare l’effetto dell’esposizione. • Infatti tende ad assumere valori più elevati del rischio relativo se è presente un’associazione positiva tra esposizione e probabilità di insorgenza della malattia. • Tende invece ad assumere valori inferiori al vero rischio relativo se l’esposizione svolge un ruolo protettivo. • Il bias risulta invece trascurabile se l’associazione tra la malattia e l’esposizione è molto debole (o inesistente), oppure se il rischio della patologia in esame è basso, cioè per malattie rare.
Nell’analisi di dati reali è sempre necessario valutare se un OR che si discosti da 1 possa essere considerato il prodotto da un’associazione tra l’esposizione e il rischio di patologia, oppure sia imputabile alla sola variabilità campionaria. • Per tale valutazione (che costituisce l’oggetto dell’ inferenza statistica) si può procedere testando l’associazione tra esposizione e patologia mediante un test c2 di Pearson applicato alla tabella di contingenza corrispondente. • Oppure, più comunemente, si può impiegare una stima della varianza dell’OR stesso e calcolare i limiti di confidenza ad un prefissato valore di 1- a (quasi sempre 95% o 90%).
Il metodo di Woolf assume per il logaritmo dell’OR una distribuzione normale. • Applicando il metodo delta, la stima approssimata della varianza del logaritmo dell’OR sarà:
Si possono quindi ricavare i corrispondenti intervalli di confidenza per il logaritmo dell’OR che, opportunamente esponenziati, producono gli intervalli di confidenza dell’OR stesso: con za/2 il valore critico della distribuzione normale standardizzata (ad esempio, z = 1.96 per a = 0.05). • In caso di appaiamento, le quantità nelle celle a, b, c e d non sono indipendenti, per cui la stima dell’OR e dei suoi relativi intervalli di confidenza avviene con procedure differenti, che però non verranno trattate in questa sede.
Esempio 1 • Si supponga di avere appena concluso uno studio caso-controllo, senza appaiamento, per valutare l’effetto di un’esposizione sul rischio di sviluppare una determinata patologia. • I risultati di tale indagine sono riassunti nella tabella sottostante: Casi Controlli 235 Esposti 139 96 109 Non-esposti 64 45 344 203 141
Casi Controlli 235 Esposti 139 96 109 Non-esposti 64 45 344 203 141
Esempio 2 • Si supponga di avere effettuato un secondo studio caso-controllo, sempre senza appaiamento, e che i risultati siano stati riassunti nella tabella seguente: Casi Controlli 290 Esposti 182 108 165 Non-esposti 78 87 455 260 195
Casi Controlli 290 Esposti 182 108 165 Non-esposti 78 87 455 260 195
Il modello di regressione logistica nello studio caso-controllo • Indicando con: Y la variabile di stato che definisce i casi e i controlli, con valore 1 per i primi e 0 per i secondi. x la variabile indicatrice (dummy) per l’esposizione con valore 1 per gli esposti e 0 per i non-esposti. • Ipotizzando che la relazione tra il valore atteso di Y, E(Y), e il predittore X sia di tipo logistico, si ottiene:
Passando dal valore atteso di Y alla sua stima si ottiene: • È agevole verificare che la stima di b1 opportunamente esponenziata fornisce la stima dell’OR ricercata:
Il valore del logit negli esposti (x=1) sarà: • Il valore del logit nei non esposti (x=0) sarà: • Da cui, sottraendo la seconda equazione dalla prima:
Il controllo del confondimento nello studio caso-controllo • Nello studio caso-controllo, come in altri studi epidemiologici, occorre controllare l’effetto di variabili estranee che possono influenzare i risultati delle analisi. • Tali variabili, se associate sia all’esposizione che al rischio di malattia, possono generare distorsioni nelle stime di associazione. • Tale fenomeno prende il nome di confondimento e la variabile responsabile viene denominata confondente.
Contrariamente agli altri fattori di distorsione (bias di selezione e bias di informazione), il confondimento può essere controllato sia in fase di disegno dello studio che in fase di analisi. • Negli studi sperimentali tale controllo viene effettuato in genere mediante la randomizzazione, ovvero allocando in modo casuale il fattore in studio (es: un farmaco) a diversi sottogruppi di soggetti. • Nelle indagini osservazionali, come lo studio caso-controllo, l’esposizione non può essere somministrata dal ricercatore, per ovvi motivi etici. • Tuttavia il ricercatore può rilevare la presenza di possibili confondenti e quindi contrastarne gli effetti adottando opportune strategie.
Se la variabile che definisce l’esposizione e il presunto confondente sono entrambi misurati su scala categorica, la presenza di confondimento può essere evidenziata calcolando l’OR, sia per l’insieme dei dati in analisi, che dopo stratificazione per i diversi livelli del confondente. Tutti i soggetti Strato 1 Strato 2 Casi Controlli Casi Controlli Casi Controlli a2 b2 a1 b1 Esposti a b c2 d2 c1 d1 Non-esposti c d
Tutti i soggetti Strato 1 Strato 2 Casi Controlli Casi Controlli Casi Controlli a2 b2 a1 b1 Esposti a b c2 d2 c1 d1 Non-esposti c d • Se OR1 e OR2 risultano simili tra di loro, ma diversi da ORT si verifica confondimento. • Se, invece, OR1 e OR2 risultano diversi tra di loro, si verifica il fenomeno dell’interazione statistica o modificazione d’effetto. • Infine, se ORT, OR1 e OR2 sono simili, significa che non vi è evidenza della presenza né di confondimento, né di interazione.
La modificazione d’effetto si produce quando una variabile interagisce con l’esposizione (per cui tale fenomeno, viene anche denominato interazione). • Come sopra accennato, la presenza di interazione può essere evidenziata dalla presenza di un diverso andamento dello stimatore di rischio entro le categorie del confondente. • In presenza di interazione, il ricercatore non può produrre stime aggiustate per l’effetto di tale variabile, in quanto l’associazione tra esposizione e rischio è diversa nei gruppi a confronto.
La presenza di modificazione d’effetto è quasi sempre di un certo interesse per il ricercatore, mentre il confondimento riguarda, di solito, variabili che non sono di interesse nello studio. • Vi sono comunque delle eccezioni, ad esempio nel caso in cui due esposizioni di interesse operino come confondenti l’una nei confronti dell’altra. • In tal caso un appropriato modello statistico di analisi multivariata può essere applicato per separarne gli effetti.
Riprendendo i dati dell’esempio 1, illustrato precedentemente, si supponga che la variabile Sesso possa essere un confondente. • L’analisi stratificata produce le seguenti tabelle, con i rispettivi OR e i loro limiti di confidenza al 95% (in parentesi): Tutti i soggetti Maschi Femmine Casi Controlli Casi Controlli Casi Controlli 40 7 99 89 Esposti 139 96 56 25 8 20 Non-esposti 64 45 ORT=1.0 (0.64;1.6) OR1=2.8 (1.2;6.6) OR2=2.6 (1.0;6.5) • L’analisi stratificata evidenzia la presenza di confondimento.
Maschi Femmine Totale Totale Casi Controlli Casi Controlli 188 47 40 7 99 89 Esposti 56 25 8 20 Non-esposti 28 81 216 128 96 32 107 109 Totale OR1=2.8 (1.2;6.6) OR2=2.6 (1.0;6.5) • L’effetto di confondimento, che nell’analisi aggregata (pooled) maschera l’effetto dell’esposizione, è dovuto all’associazione della variabile sesso sia con l’indicatore di rischio, che con l’indicatore di esposizione. • Infatti i casi nelle femmine sono più numerosi rispetto ai controlli, mentre nei maschi tale rapporto è circa 1 a 1. • Inoltre i maschi rappresentano la maggioranza degli esposti, mentre le femmine quella dei non-esposti.
Si noti che gli OR nei maschi e nelle femmine sono simili (rispettivamente: 2.8 e 2.6), ma non identici, per cui sarebbe necessario un test statistico per valutare se la differenza osservata possa essere ritenuta imputabile alla fluttuazione casuale, oppure si vi sia interazione statistica. • In assenza di interazione, i due OR rappresenterebbero una stima dello stesso effetto dell’esposizione, per cui si dovrebbe procedere al calcolo di una stima sintetica dell’OR e dei suoi relativi limiti di confidenza. • Entrambe queste procedure possono essere effettuate, in modo quasi equivalente, applicando metodiche di analisi stratificata, (es: metodo di Mantel-Haenszel), oppure mediante un’analisi di regressione utilizzando un’opportuna modellizzazione.
Ripetendo l’analisi precedente sul data set del secondo esempio. Tutti i soggetti Maschi Femmine Casi Controlli Casi Controlli Casi Controlli 58 7 124 101 Esposti 182 108 40 29 38 58 Non-esposti 78 87 ORT=1.9 (1.3;2.8) OR1=1.8 (1.1;3.0) OR2=6.0 (2.4;15.1) • In questo caso i dati suggeriscono che vi sia interazione tra il sesso e l’esposizione, ovvero che il sesso possa comportarsi da modificatore d’effetto.
Infatti l’associazione tra esposizione e rischio di malattia nell’analisi pooled, stimata dal rispettivo OR, si osserva quasi identica nei maschi, mentre nelle femmine sembra che l’effetto dell’esposizione risulti potenziato, con un OR che è oltre il triplo di quello osservato nei maschi. • Non si può però escludere che tale differenza, per quanto molto evidente, non sia dovuta semplicemente ad una maggiore variabilità della stima nelle femmine, che rappresentano il sottogruppo meno numeroso. • Occorre quindi utilizzare un test statistico, che, come accennato, può avvalersi di metodiche di analisi stratificata (metodo di Mantel-Haenszel), oppure utilizzare un opportuno modello di regressione.
I limiti di confidenza al 95% (quindi per za/2 = 1.96) dell’ORMH si possono quindi ottenere nel modo seguente: • Occorre infine valutare che non vi sia interazione tra sesso ed esposizione, testando l’omogeneità degli OR strato specifici.
Controllo del confondimento mediante modello di regressione logistica • Per ottenere una stima di OR corretta per l’effetto di uno o più confondenti è sufficiente inserire le corrispondenti variabili all’interno del modello logistico. • Ad esempio, in presenza di un solo confondente e di una sola variabile (dummy) di esposizione il modello sarà:
Il valore atteso del logit di Y nei non esposti (E=0), sarà: • Analogamente il valore atteso negli esposti (per E = 1), sarà: • Sottraendo la prima equazione dalla seconda :
Per valori del confondente C uguali nei due gruppi (ovvero per CE=CNE), e ricordando che la differenza tra i logaritmi di due quantità è pari al logaritmo del loro rapporto: • Esponenziando la stima del coefficiente per la variabile di esposizione si ottiene quindi la stima dell’OR di esposizione corretto per l’effetto del confondente C. • Inoltre si noti che, contrariamente a quanto avviene nell’analisi stratificata, il modello statistico fornisce anche la stima dell’effetto della variabile C (coefficiente b2).
Valutazione della presenza di modificazione d’effetto mediante modello di regressione logistica • Se una variabile M si comporta da modificatore d’effetto, a diversi livelli di M corrisponderanno diversi valori di OR. • Per testare l’interazione tra M ed E è sufficiente introdurre nel modello una nuova variabile (detta appunto “variabile di interazione”). • Se M è una variabile dicotomica (oppure è misurata su scala continua), tale variabile non è altro che il prodotto tra E e M.
Il logit negli esposti sarà: • mentre il logit nei non esposti sarà:
Sottraendo la secondo equazione dalla prima si ottiene la stima della differenza del logit tra esposti e non esposti, ovvero del logaritmo dell’OR di esposizione: • Diversi valori di OR possono essere ottenuti in corrispondenza dei diversi valori di M.
Nel caso più semplice di una variabile M categorica binaria, ad esempio con valore 0 se il fattore in esame è presente e 1 se assente: e • Si noti che quando b3 vale 0 non vi è interazione tra M ed E. • Di conseguenza, la presenza di modificazione d’effetto può essere testata, dal punto di vista statistico, testando la significatività di tale coefficiente, ad esempio mediante LR test.
Si noti che, contrariamente a quanto avviene in presenza di interazione, la presenza di confondimento non può essere verificata testando la significatività del coefficiente del confondente. • Infatti, tale coefficiente indica solamente l’associazione tra la variabile C e il predittore Y. • Perché C sia un confondente non basta che esista tale associazione; infatti C deve essere associato anche all’esposizione.
Un test statistico formale per la presenza di confondimento è teoricamente realizzabile, ma in genere poco utile. • Infatti il ricercatore in genere desidera solamente eliminare l’impatto del confondente sulla stima di associazione. • La modificazione d’effetto e la sua interpretazione in chiave bio- medica, invece, è quasi sempre di grande interesse.