Il record linkage probabilistico e l ’ uso dei dati abbinati

Il record linkage probabilistico e l’uso dei dati abbinati Brunero Liseo Bologna, 17 aprile 2012

Sommario • Due esempi introduttivi • Cosa è il record linkage (RL) probabilistico • Metodi di stima per RL • Inferenza per dati “abbinati” mediante linkage Il record linkage probabilistico

1. Stima della numerosità N di una popolazione Metodo cattura-ricattura • Quanti pesci vivono in un lago? Si effettua una pesca in un dato giorno, e se ne osservano n1 che vengono “marcati" in qualche modo. • Il giorno dopo si effettua un'altra pesca; se ne osservano n2 di cui M gia osservati il giorno precedente. • Qual è una buona stima per N? Il record linkage probabilistico

Sotto alcune ipotesi (i pesci non apprendono...), la frazione osservata il primo giorno n1/N dovrebbe essere più o meno simile a quella dei “ripescati” nel secondo giorno, ovvero M/n2: Da questo deriva che Il record linkage probabilistico

Se invece dei pesci dobbiamo contare quanti sono i clandestini in Italia? • Cosa si intende ora per "catture"? • Quali nuovi problemi sorgono? Probabilmente l’operazione di “marcatura” comporta alcuni problemi. La stessa persona potrebbe essere stata registrata sotto diversi nomi in diverse situazioni Il record linkage probabilistico

2. Regressione lineare per dati abbinati Si vuole effettuare una semplice regressione lineare tra la Y e la X, ma le variabili sono state rilevate sulle stesse unità statistiche in due occasioni differenti. Potrebbe accadere che alcuni valori della Y siano abbinati alla X sbagliata, ovvero è possibile creare dei falsi link … Il record linkage probabilistico

2. Regressione lineare per dati abbinati Esempio simulato: generiamo 15 coppie di valori da • > x= 1:15 • > y = 2*x + rnorm(15, sd=6) • > y1= c(y[10,11], y[1:9], y[12:15]) • plot(x,y) • > abline(lm(y~x)$coeff, col="red") • > abline(lm(y1~x)$coeff, col=“blue") … e poi invertiamo due soli dati … Il record linkage probabilistico

Regressione corretta, ottenuta con i dati correttamente abbinati Il record linkage probabilistico

Regressione ottenuta con due dati abbinati in modo scorretto Il record linkage probabilistico

Il problema generale La crescente richiesta di informazione statistica a livello disaggregato impone la ricerca di nuove fonti Il vincolo sui tempi e sui costi sconsiglia in generale il ricorso a nuove indagini, campionarie e/o complete. E’ allora pratica sempre più consolidata quella di “incrociare” informazioni preesistenti per creare nuova informazione statistica. Il record linkage probabilistico

Il problema generale Il più delle volte i records nei due files non hanno una chiave di identificazione sicura L’operazione di linkage è quindi incerta Tale incertezza deve essere “modellata” in termini statistici Il record linkage probabilistico

Alcuni esempi • Dati amministrativi e dati campionari (es. anagrafe delle aziende) • Scopi giudiziari: coerenza tra dichiarazioni dei redditi e transazioni bancarie • Ambito economico/sanitario: incrocio delle spese regionali, stime di prevalenza di alcune malattie in base a varie fonti informative (SDO, SERT, farmaci etc..) • Indagine sulla “copertura” dei censimenti . Problemi di riservatezza … Il record linkage probabilistico

Record Linkage • Identificare record riferiti allo stesso individuo, ma collocati in file diversi, attraverso chiavi comuni non perfettamente corrispondenti Newcombe (1959) A B Il record linkage probabilistico

Il problema del RL Il record linkage probabilistico

Record linkage Input: due data set che presentano alcune unità in comune • Soluzione: uso di un set di variabili in grado (congiuntamente) di individuare i record • Attenzione: le variabili possono avere “problemi”! • Obiettivo: maggior numero di agganci giusti, minor numero di agganci sbagliati Problema: Manca un codice identificativo univoco e privo di errori Il record linkage probabilistico

Esempio 1 - analisi mortalità • Problema: analizzare congiuntamente i “fattori di rischio” con l’evento “morte”. • I fattori di rischio sono contenuti in indagini ad hoc (quelle sulla nutrizione, sulle condizioni di lavoro, etc.) • L’evento “morte” (ad alcuni mesi dalla rilevazione precedente) si desume da un registro amministrativo • Le due fonti vanno “integrate” in modo che a ogni unità dell’indagine sui fattori di rischio si possa associare una nuova variabile dicotomica che vale 1 se l’individuo è deceduto e 0 se è ancora in vita. Il record linkage probabilistico

Esempio 2 - contare una popolazione Problema: qual è il numero di residenti in Italia?  metodo cattura - ricattura Le occasioni: • Censimento della Popolazione • Indagine di copertura (eseguita alcuni mesi dopo il censimento) per valutare la qualità del Censimento e fornire una stima accurata della numerosità della popolazione USA: Post Enumeration Survey - 1990 Accuracy and Coverage Evaluation - 2000 Italia - 2001 - Indagine di Copertura del Censimento Il record linkage probabilistico

Esempio 2 - contare una popolazione Il risultato del confronto del Censimento con l’indagine post-censuaria è una tabella 2x2 Il record linkage probabilistico

Esempio 2 - contare una popolazione In pratica, per ogni unità osservata si deve ricavare se 1) è stata rilevata sia nel Censimento che nell’indagine post censuaria 2) è stata rilevata solo nel Censimento 3) è stata rilevata solo nell’indagine post-censuaria I tre valori precedenti consentono di stimare - con un opportuno modello statistico - il quarto. Il record linkage probabilistico

Esempio 3 - Creazione lista • Problema: qual è l’insieme delle imprese attive? • In Istat, ASIA (Archivio Statistico delle Imprese Attive) è una lista di unità (le imprese attive in un particolare istante di tempo) ottenuta “fondendo” diversi archivi. Le difficoltà • imprese presenti contemporaneamente in più archivi (eliminazione dei duplicati) • imprese morte e nuove nate • trasformazioni (possono produrre una nuova impresa o continuare a essere la stessa) Il record linkage probabilistico

Record Linkage - caso semplice Il record linkage probabilistico

Record Linkage - caso meno semplice • Il codice identificativo non c’è, o è inutilizzabile. • Le restanti variabili - congiuntamente - sono in grado di identificare l’unità: svolgono la funzione di codice identificativo. • Inoltre sono prive di errori o mancate risposte. Il record linkage probabilistico

Record Linkage - caso meno semplice Il record linkage probabilistico

Record Linkage - caso più complicato • Non esiste un codice identificativo univoco. • Le restanti variabili congiuntamente sono in grado di identificare l’unità. Tuttavia si possono osservare differenze nelle risposte per: • errori di trascrizione / comprensione • mancate risposte • risposte esatte ma formulate in modo diverso • cambiamenti nel tempo, o comunque le risposte non sono identiche. Il record linkage probabilistico

Record Linkage - caso più complicato Il record linkage probabilistico

L’abbinamento deterministico Si basa sulla concordanza di un numero sufficiente di variabili comuni: • Es. Si abbinano due record se almeno due delle tre variabili NOME, COGNOME e ANNO DI NASCITA sono concordanti Il record linkage probabilistico

Abbinamento deterministico: la tabella dei confronti Il record linkage probabilistico

Abbinamento deterministico: osservazioni Può tenere conto di valori mancanti e errori nelle variabili di abbinamento Permette di graduare il potere informativo delle variabili mediante punteggi: • Stesso nome = 2 punti • Stesso cognome = 7 punti • Stesso anno di nascita = 3 punti • [0 < Diff(anno) <3] = 1 punto I punteggi possono essere stabiliti mediante analisi statistica su dati esterni Il record linkage probabilistico

L’abbinamento probabilistico Come nell’abbinamento deterministico: • Si lavora sul confronto di tutte le coppie possibili; • Si usano punteggi basati su criteri flessibili per stabilire gli abbinamenti Ma: • I punteggi e le soglie usati per scegliere gli abbinamenti dipendono dal problema in esame • Si tiene conto anche dei livelli di disaccordo nei dati Il record linkage probabilistico

Le fasi del record linkage - Preparazione dei files di input (pre-processing); - Selezione delle variabili identificativi comuni (variabili di bloccaggio e abbinamento); - Scelta della/e funzione/i di confronto; - Riduzione dello spazio di ricerca delle coppie candidate; - Scelta del modello di decisione; Stima delle probabilità di abbinamento Valutazione dell’adattamento del modello ai dati Assegnazione delle coppie (a,b) allo stato di “abbinato” o “non abbinato” - Valutazione dei risultati del Record linkage; - Selezione degli abbinamenti univoci. Il record linkage probabilistico

Gill et al. (2001) Il record linkage probabilistico

Fase preliminare: armonizzazione La fase di armonizzazione deve considerare diversi passi 1) armonizzazione della definizione di unità; 2) armonizzazione dei periodi di riferimento; 3) completamento delle popolazioni; 4) armonizzazione delle definizioni di variabile; 5) armonizzazione delle classificazioni; 6) aggiustamento degli errori di misura (accuratezza); 7) aggiustamento per le mancate risposte; 8) costruzione di variabili derivate. Il record linkage probabilistico

Esempi di problemi di armonizzazione • la definizione di famiglia • i diversi tempi di riferimento delle fonti • le diverse popolazioni di riferimento delle fonti (infortuni sul lavoro e archivio Inail) • variabili relative al “capofamiglia” • classificazioni delle ripartizioni geografiche Il record linkage probabilistico

Selezione delle variabili di matching • Le variabili che congiuntamente svolgono la funzione di un codice identificativo vengono chiamate “variabili chiave”. • Es. individuo: nome, cognome, data di nascita, sesso, titolo di studio, indirizzo, stato civile … • Bisogna scegliere fra tutte le variabili in comune fra i due data set. Il record linkage probabilistico

Selezione delle variabili di matching • Caratteristiche desiderabili • universali • permanenti • accurate • non sensibili Il record linkage probabilistico

Selezione delle variabili di matching Gill et al (2001) si occupa del caso in cui la popolazione di interesse è costituita da individui. Suggerisce di dividere le variabili in comune in 6 gruppi: • Nomi propri che cambiano raramente: nome di battesimo, cognome attuale, prima iniziale del secondo nome, • Caratteristiche non relative al nome che rimangono fisse alla nascita: sesso, data di nascita, luogo di nascita,… • Caratteristiche socio-demografiche che cambiano durante l’arco di vita: indirizzo, codice postale, stato civile • Variabili usate in registri speciali: data di morte, occupazione • Variabili per l’aggancio delle famiglie: cognome della madre alla nascita, cognome del padre, numero di nati • Codici che aiutano a identificare il record: edizione o versione dei codici usati nel record … e le imprese?? Il record linkage probabilistico

Editing e parsing Per indirizzi e nomi esistono diversi metodi di parsing, metodi che trasformano le risposte per tenere conto di errori di digitazione o di problemi nella pronuncia di nomi stranieri ( Es: Smith vs. Smithe). Ricodifiche utili anche quando le variabili non contengono errori ma sono descritte in modo diverso Es: via Luigi Zamboni, 16 - 40121 Bologna • v. Zamboni L., n.16 – Bo (40121) Il record linkage probabilistico

Sorting and blocking Sono operazioni eseguite per - Facilitare al computer il compito del riconoscimento dei record - Consentire l’utilizzo di operazioni statistiche sui dati - Il bloccaggio ha un impatto sulla bontà dei metodi di RL in quanto limita il numero dei confronti fra records Il record linkage probabilistico

RL deterministico o probabilistico? Deterministico: si stabiliscono a priori delle regole che, se rispettate, definiscono i match. Il controllo dei possibili errori può essere svolto solo manualmente (clerical review). Probabilistico: si definisce un modello probabilistico che ha generato i dati osservati (e i potenziali errori …) Si stabilisce una regola di decisione “ottimale”, in un senso da specificare. Si stimano gli elementi utili all’applicazione della regola di decisione. Vengono determinate delle probabilità di errore. Il record linkage probabilistico

Record linkage probabilistico Il record linkage probabilistico

Quale output? Le regole di decisione si scelgono in base al tipo di output di interesse. Si può ammette che un record di A si agganci a più di un record di B? e viceversa? Se la risposta è NO, è necessario inserire il vincolo di matching 1:1 (ogni record di A può essere agganciato al più a un record di B e viceversa). Il record linkage probabilistico

Decisioni sui match incerti • Le procedure di decisione lasciano dei margini di incertezza: per alcune coppie di record di A e B, le informazioni disponibili non sono in grado di discriminare fra il fatto che la coppia è un match oppure no. In questi casi è necessario ricorrere a • applicazione di tecniche di linkage che usano variabili di matching diverse • analisi manuale dei record (clerical review) Il record linkage probabilistico

Formalizzazione Per ogni coppia di records (a,b) si crea un vettore di confronti (Fellegi e Sunter, 1969) sulle k variabili chiave Nella formulazione più semplice i confronti sono dicotomici Il record linkage probabilistico

Altrimenti, se ne possono pensare di più sofisticate 1. 2. Altre metriche similari Basare i confronti sulle X e non sui confronti (Tancredi et al. 2011). 3. Punto essenziale: l’occorrenza di Mario Rossi in entrambi i database non ha lo stesso potere discriminante dell’occorrenza di Brunero Liseo Il record linkage probabilistico

Formalizzazione M={vere coppie} U ={vere NON coppie} La cardinalità di M è molto molto più piccola di quella di U. (es.: card(A)=card(B)= 100 con 10 unità in comune  card(M)=10 card(U)=9990 Il record linkage probabilistico

La distribuzione di Y Se p(Y) è la probabilità di un dato esito del vettore dei confronti Il record linkage probabilistico

P(Y) si manifesta come mistura di due distribuzioni  struttura latente Il record linkage probabilistico

Fellegi e Sunter (1969) Cosa bisogna stimare? P(M), P(U)informazioni a priori p(γ|M) p(γ|U)le verosimiglianze Λ = p(γ|M)/p(γ|U)il rapporto di verosimiglianza Il record linkage probabilistico

Fellegi e Sunter (1969) Procedura: • Si sceglie una forma parametrica per p(y|M) e p(y|U); in genere con mk e uk vettori di parametri da stimare (modelli mistura, algoritmo EM, metodi bayesiani) Il record linkage probabilistico

Fellegi e Sunter (1969) Procedura: 1) Determina due punti di cut-off (low e upp) nella distribuzione campionaria di Λ 2) Dichiara (a,b) una coppia se Λ> upp 3) Dichiara (a,b) una NON coppia se Λ< inf 4) Analisi manuale in caso contrario Il record linkage probabilistico

Il record linkage probabilistico e l ’ uso dei dati abbinati