1 / 44

A cura di : Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Corso di Laurea in S tatistica M atematica e trattamento I nformatico dei D ati ati Università di Genova. Applicazione del modello di regressione di Poisson e del modello logistico in Epidemiologia Lezione 2 Introduzione al modello logistico negli studi caso-controllo.

sonia-roy
Download Presentation

A cura di : Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Corso di Laurea in StatisticaMatematica etrattamentoInformaticodeiDatiati Università di Genova Applicazione del modello di regressione di Poisson e del modello logistico in Epidemiologia Lezione 2 Introduzione al modello logistico negli studi caso-controllo Esercitazione pratica nell’ambito del Corso di Modelli Statistici - Anno Accademico 2006-2007 A cura di: Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma, c/o Servizio di Epidemiologia e Biostatistica, Direzione Scientifica, Istituto G. Gaslini, Largo G. Gaslini 5, 16147 Genova - Tel: 010 5636 301 - 423, Fax: 010 377 6590, e-mail: stefanoparodi@ospedale-gaslini.ge.it

  2. Lo studio caso-controllo • Lo studio caso-controllo rappresenta uno dei più importanti studi epidemiologici osservazionali. • La sua caratteristica fondamentale è la misura dell’esposizione pregressa effettuata separatamente in due gruppi diversi di soggetti denominati casi e controlli • Per tale motivo esso è noto anche come studio retrospettivo.

  3. In generale l’informazione sull’avvenuta esposizione e sui possibili fattori associati alla patologia in studio viene raccolta mediante la somministrazione di un questionario. • Talvolta al questionario si aggiungono informazioni da analisi genetiche o da campioni biologici. • Ad esempio, per verificare se una determinata mutazione genetica possa essere associata ad un maggior rischio di contrarre la patologia in studio.

  4. Tra i vantaggi principali dello studio caso-controllo, vi è la possibilità di valutare l'effetto di diverse esposizioni e quindi l’eventuale presenza di interazione tra di esse. • Permette inoltre un’agevole raccolta di informazioni su diversi possibili confondenti e risulta in genere molto potente, poiché è in grado di includere un numero di casi molto elevato. • Rispetto allo studio di coorte risulta in genere meno costoso e richiede tempi di realizzazione più brevi. • Infine risulta particolarmente adatto per indagare patologie molto rare, in cui si possono selezionare tutti i casi incidenti (nuovi casi) in un determinato territorio per l’intero periodo di osservazione.

  5. Tra i principali limiti vi è la difficoltà di valutare l’effetto di esposizioni rare, se la prevalenza degli esposti è bassa nel sottogruppo dei casi. • Inoltre permette solo di ottenere stime relative della frequenza di patologia, anche se, quando è basato su popolazione, può consentire la stima di tassi di incidenza. • Tuttavia il limite principale dello studio caso-controllo risiede probabilmente nella sua suscettibilità a diversi fattori di distorsione (bias).

  6. Il bias di selezione può originare dalla scelta inadeguata dei casi o, più comunemente, dei controlli. • Infatti se i controlli non sono rappresentativi della popolazione generale, l’associazione eventualmente osservata nel campione potrebbe non essere presente nella popolazione o viceversa. • Un bias di informazione può invece derivare dal fatto che i casi tendono maggiormente ad attribuire l’insorgenza della loro patologia ad avvenute esposizioni. • In particolare tendono a ricordare meglio o più intensamente l’avvenuta esposizione (recall bias).

  7. I bias da confondimento derivano dalla presenza di fattori associati sia all’esposizione che al rischio della patologia, denominati confondenti. • I bias da confondimento, per le variabili più importanti, possono essere controllati mediante un opportuno modellamento statistico. • Negli studi in cui il campionamento dei controlli è indipendente da quello dei casi (studio caso-controllo senza appaiamento), in genere viene utilizzato il modello di regressione logistica non condizionale .

  8. Casi Controlli a+b Esposti a b c+d Non-esposti c d a+c b+d Inferenza statistica nello studio caso-controllo Nel caso più semplice di una sola variabile di esposizione e in assenza di confondenti, il risultato di uno studio caso controllo può essere riassunto in una tabella 2x2, nel modo seguente:

  9. Casi Controlli a+b Esposti a b c+d Non-esposti c d a+c b+d • Lo stimatore di associazione più utilizzato nello studio caso- controllo è l’Odds Ratio (OR) di esposizione che rappresenta una stima dell’OR di rischio e quindi è stimatore di rischio relativo • L’OR può essere ottenuto applicando la seguente formula:

  10. Casi Controlli a+b Esposti a b c+d Non-esposti c d a+c b+d • Infatti l’Odd di esposizione per i casi è pari a: • Analogamente, l’Odd di esposizione per i controlli è pari a: • Da cui l’OR sarà:

  11. La dimostrazione dell’equivalenza tra l’OR di rischio e quello di esposizione può essere effettuata utilizzando la formula di Bayes. • L’assunto alla base di tale dimostrazione è che lo studio caso- controllo possa essere considerato come del tutto equivalente a uno studio prospettico di coorte chiusa. • Ovvero che i casi originino da una popolazione che comprende sia soggetti esposti che non esposti, seguiti per lo stesso periodo di tempo.

  12. La formula seguente descrive la relazione tra l’OR e il rapporto tra rischi in uno studio di coorte chiusa: Da cui si ricava che l’OR è stimatore non distorto di Rischio Relativo se il rischio è piccolo sia negli esposti che nei non-esposti, oppure se è simile nei due gruppi.

  13. L’OR è uno stimatore di rischio relativo distorto (biased), che tende a enfatizzare l’effetto dell’esposizione. • Infatti tende ad assumere valori più elevati del rischio relativo se è presente un’associazione positiva tra esposizione e probabilità di insorgenza della malattia. • Tende invece ad assumere valori inferiori al vero rischio relativo se l’esposizione svolge un ruolo protettivo. • Il bias risulta invece trascurabile se l’associazione tra la malattia e l’esposizione è molto debole (o inesistente), oppure se il rischio della patologia in esame è basso, cioè per malattie rare.

  14. Nell’analisi di dati reali è sempre necessario valutare se un OR che si discosti da 1 possa essere considerato il prodotto da un’associazione tra l’esposizione e il rischio di patologia, oppure sia imputabile alla sola variabilità campionaria. • Per tale valutazione (che costituisce l’oggetto dell’ inferenza statistica) si può procedere testando l’associazione tra esposizione e patologia mediante un test c2 di Pearson applicato alla tabella di contingenza corrispondente. • Oppure, più comunemente, si può impiegare una stima della varianza dell’OR stesso e calcolare i limiti di confidenza ad un prefissato valore di 1- a (quasi sempre 95% o 90%).

  15. Il metodo di Woolf assume per il logaritmo dell’OR una distribuzione normale. • Applicando il metodo delta, la stima approssimata della varianza del logaritmo dell’OR sarà:

  16. Si possono quindi ricavare i corrispondenti intervalli di confidenza per il logaritmo dell’OR che, opportunamente esponenziati, producono gli intervalli di confidenza dell’OR stesso: con za/2 il valore critico della distribuzione normale standardizzata (ad esempio, z = 1.96 per a = 0.05). • In caso di appaiamento, le quantità nelle celle a, b, c e d non sono indipendenti, per cui la stima dell’OR e dei suoi relativi intervalli di confidenza avviene con procedure differenti, che però non verranno trattate in questa sede.

  17. Esempio 1 • Si supponga di avere appena concluso uno studio caso-controllo, senza appaiamento, per valutare l’effetto di un’esposizione sul rischio di sviluppare una determinata patologia. • I risultati di tale indagine sono riassunti nella tabella sottostante: Casi Controlli 235 Esposti 139 96 109 Non-esposti 64 45 344 203 141

  18. Casi Controlli 235 Esposti 139 96 109 Non-esposti 64 45 344 203 141

  19. Esempio 2 • Si supponga di avere effettuato un secondo studio caso-controllo, sempre senza appaiamento, e che i risultati siano stati riassunti nella tabella seguente: Casi Controlli 290 Esposti 182 108 165 Non-esposti 78 87 455 260 195

  20. Casi Controlli 290 Esposti 182 108 165 Non-esposti 78 87 455 260 195

  21. Il modello di regressione logistica nello studio caso-controllo • Indicando con: Y la variabile di stato che definisce i casi e i controlli, con valore 1 per i primi e 0 per i secondi. x la variabile indicatrice (dummy) per l’esposizione con valore 1 per gli esposti e 0 per i non-esposti. • Ipotizzando che la relazione tra il valore atteso di Y, E(Y), e il predittore X sia di tipo logistico, si ottiene:

  22. Passando dal valore atteso di Y alla sua stima si ottiene: • È agevole verificare che la stima di b1 opportunamente esponenziata fornisce la stima dell’OR ricercata:

  23. Il valore del logit negli esposti (x=1) sarà: • Il valore del logit nei non esposti (x=0) sarà: • Da cui, sottraendo la seconda equazione dalla prima:

  24. Il controllo del confondimento nello studio caso-controllo • Nello studio caso-controllo, come in altri studi epidemiologici, occorre controllare l’effetto di variabili estranee che possono influenzare i risultati delle analisi. • Tali variabili, se associate sia all’esposizione che al rischio di malattia, possono generare distorsioni nelle stime di associazione. • Tale fenomeno prende il nome di confondimento e la variabile responsabile viene denominata confondente.

  25. Contrariamente agli altri fattori di distorsione (bias di selezione e bias di informazione), il confondimento può essere controllato sia in fase di disegno dello studio che in fase di analisi. • Negli studi sperimentali tale controllo viene effettuato in genere mediante la randomizzazione, ovvero allocando in modo casuale il fattore in studio (es: un farmaco) a diversi sottogruppi di soggetti. • Nelle indagini osservazionali, come lo studio caso-controllo, l’esposizione non può essere somministrata dal ricercatore, per ovvi motivi etici. • Tuttavia il ricercatore può rilevare la presenza di possibili confondenti e quindi contrastarne gli effetti adottando opportune strategie.

  26. Se la variabile che definisce l’esposizione e il presunto confondente sono entrambi misurati su scala categorica, la presenza di confondimento può essere evidenziata calcolando l’OR, sia per l’insieme dei dati in analisi, che dopo stratificazione per i diversi livelli del confondente. Tutti i soggetti Strato 1 Strato 2 Casi Controlli Casi Controlli Casi Controlli a2 b2 a1 b1 Esposti a b c2 d2 c1 d1 Non-esposti c d

  27. Tutti i soggetti Strato 1 Strato 2 Casi Controlli Casi Controlli Casi Controlli a2 b2 a1 b1 Esposti a b c2 d2 c1 d1 Non-esposti c d • Se OR1 e OR2 risultano simili tra di loro, ma diversi da ORT si verifica confondimento. • Se, invece, OR1 e OR2 risultano diversi tra di loro, si verifica il fenomeno dell’interazione statistica o modificazione d’effetto. • Infine, se ORT, OR1 e OR2 sono simili, significa che non vi è evidenza della presenza né di confondimento, né di interazione.

  28. La modificazione d’effetto si produce quando una variabile interagisce con l’esposizione (per cui tale fenomeno, viene anche denominato interazione). • Come sopra accennato, la presenza di interazione può essere evidenziata dalla presenza di un diverso andamento dello stimatore di rischio entro le categorie del confondente. • In presenza di interazione, il ricercatore non può produrre stime aggiustate per l’effetto di tale variabile, in quanto l’associazione tra esposizione e rischio è diversa nei gruppi a confronto.

  29. La presenza di modificazione d’effetto è quasi sempre di un certo interesse per il ricercatore, mentre il confondimento riguarda, di solito, variabili che non sono di interesse nello studio. • Vi sono comunque delle eccezioni, ad esempio nel caso in cui due esposizioni di interesse operino come confondenti l’una nei confronti dell’altra. • In tal caso un appropriato modello statistico di analisi multivariata può essere applicato per separarne gli effetti.

  30. Riprendendo i dati dell’esempio 1, illustrato precedentemente, si supponga che la variabile Sesso possa essere un confondente. • L’analisi stratificata produce le seguenti tabelle, con i rispettivi OR e i loro limiti di confidenza al 95% (in parentesi): Tutti i soggetti Maschi Femmine Casi Controlli Casi Controlli Casi Controlli 40 7 99 89 Esposti 139 96 56 25 8 20 Non-esposti 64 45 ORT=1.0 (0.64;1.6) OR1=2.8 (1.2;6.6) OR2=2.6 (1.0;6.5) • L’analisi stratificata evidenzia la presenza di confondimento.

  31. Maschi Femmine Totale Totale Casi Controlli Casi Controlli 188 47 40 7 99 89 Esposti 56 25 8 20 Non-esposti 28 81 216 128 96 32 107 109 Totale OR1=2.8 (1.2;6.6) OR2=2.6 (1.0;6.5) • L’effetto di confondimento, che nell’analisi aggregata (pooled) maschera l’effetto dell’esposizione, è dovuto all’associazione della variabile sesso sia con l’indicatore di rischio, che con l’indicatore di esposizione. • Infatti i casi nelle femmine sono più numerosi rispetto ai controlli, mentre nei maschi tale rapporto è circa 1 a 1. • Inoltre i maschi rappresentano la maggioranza degli esposti, mentre le femmine quella dei non-esposti.

  32. Si noti che gli OR nei maschi e nelle femmine sono simili (rispettivamente: 2.8 e 2.6), ma non identici, per cui sarebbe necessario un test statistico per valutare se la differenza osservata possa essere ritenuta imputabile alla fluttuazione casuale, oppure si vi sia interazione statistica. • In assenza di interazione, i due OR rappresenterebbero una stima dello stesso effetto dell’esposizione, per cui si dovrebbe procedere al calcolo di una stima sintetica dell’OR e dei suoi relativi limiti di confidenza. • Entrambe queste procedure possono essere effettuate, in modo quasi equivalente, applicando metodiche di analisi stratificata, (es: metodo di Mantel-Haenszel), oppure mediante un’analisi di regressione utilizzando un’opportuna modellizzazione.

  33. Ripetendo l’analisi precedente sul data set del secondo esempio. Tutti i soggetti Maschi Femmine Casi Controlli Casi Controlli Casi Controlli 58 7 124 101 Esposti 182 108 40 29 38 58 Non-esposti 78 87 ORT=1.9 (1.3;2.8) OR1=1.8 (1.1;3.0) OR2=6.0 (2.4;15.1) • In questo caso i dati suggeriscono che vi sia interazione tra il sesso e l’esposizione, ovvero che il sesso possa comportarsi da modificatore d’effetto.

  34. Infatti l’associazione tra esposizione e rischio di malattia nell’analisi pooled, stimata dal rispettivo OR, si osserva quasi identica nei maschi, mentre nelle femmine sembra che l’effetto dell’esposizione risulti potenziato, con un OR che è oltre il triplo di quello osservato nei maschi. • Non si può però escludere che tale differenza, per quanto molto evidente, non sia dovuta semplicemente ad una maggiore variabilità della stima nelle femmine, che rappresentano il sottogruppo meno numeroso. • Occorre quindi utilizzare un test statistico, che, come accennato, può avvalersi di metodiche di analisi stratificata (metodo di Mantel-Haenszel), oppure utilizzare un opportuno modello di regressione.

  35. I limiti di confidenza al 95% (quindi per za/2 = 1.96) dell’ORMH si possono quindi ottenere nel modo seguente: • Occorre infine valutare che non vi sia interazione tra sesso ed esposizione, testando l’omogeneità degli OR strato specifici.

  36. Controllo del confondimento mediante modello di regressione logistica • Per ottenere una stima di OR corretta per l’effetto di uno o più confondenti è sufficiente inserire le corrispondenti variabili all’interno del modello logistico. • Ad esempio, in presenza di un solo confondente e di una sola variabile (dummy) di esposizione il modello sarà:

  37. Il valore atteso del logit di Y nei non esposti (E=0), sarà: • Analogamente il valore atteso negli esposti (per E = 1), sarà: • Sottraendo la prima equazione dalla seconda :

  38. Per valori del confondente C uguali nei due gruppi (ovvero per CE=CNE), e ricordando che la differenza tra i logaritmi di due quantità è pari al logaritmo del loro rapporto: • Esponenziando la stima del coefficiente per la variabile di esposizione si ottiene quindi la stima dell’OR di esposizione corretto per l’effetto del confondente C. • Inoltre si noti che, contrariamente a quanto avviene nell’analisi stratificata, il modello statistico fornisce anche la stima dell’effetto della variabile C (coefficiente b2).

  39. Valutazione della presenza di modificazione d’effetto mediante modello di regressione logistica • Se una variabile M si comporta da modificatore d’effetto, a diversi livelli di M corrisponderanno diversi valori di OR. • Per testare l’interazione tra M ed E è sufficiente introdurre nel modello una nuova variabile (detta appunto “variabile di interazione”). • Se M è una variabile dicotomica (oppure è misurata su scala continua), tale variabile non è altro che il prodotto tra E e M.

  40. Il logit negli esposti sarà: • mentre il logit nei non esposti sarà:

  41. Sottraendo la secondo equazione dalla prima si ottiene la stima della differenza del logit tra esposti e non esposti, ovvero del logaritmo dell’OR di esposizione: • Diversi valori di OR possono essere ottenuti in corrispondenza dei diversi valori di M.

  42. Nel caso più semplice di una variabile M categorica binaria, ad esempio con valore 0 se il fattore in esame è presente e 1 se assente: e • Si noti che quando b3 vale 0 non vi è interazione tra M ed E. • Di conseguenza, la presenza di modificazione d’effetto può essere testata, dal punto di vista statistico, testando la significatività di tale coefficiente, ad esempio mediante LR test.

  43. Si noti che, contrariamente a quanto avviene in presenza di interazione, la presenza di confondimento non può essere verificata testando la significatività del coefficiente del confondente. • Infatti, tale coefficiente indica solamente l’associazione tra la variabile C e il predittore Y. • Perché C sia un confondente non basta che esista tale associazione; infatti C deve essere associato anche all’esposizione.

  44. Un test statistico formale per la presenza di confondimento è teoricamente realizzabile, ma in genere poco utile. • Infatti il ricercatore in genere desidera solamente eliminare l’impatto del confondente sulla stima di associazione. • La modificazione d’effetto e la sua interpretazione in chiave bio- medica, invece, è quasi sempre di grande interesse.

More Related