1 / 25

Metodi statistici per l’integrazione di dati provenienti da fonti diverse

Metodi statistici per l’integrazione di dati provenienti da fonti diverse. Nicoletta Cibella, Mauro Scanu, Tiziana Tuoto. Sommario. Cosa vuol dire integrazione Record linkage: perché Il metodo di Fellegi e Sunter Come risolvere il problema con RELAIS. Cosa vuol dire integrazione.

oceana
Download Presentation

Metodi statistici per l’integrazione di dati provenienti da fonti diverse

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Metodi statistici per l’integrazione di dati provenienti da fonti diverse Nicoletta Cibella, Mauro Scanu, Tiziana Tuoto

  2. Sommario • Cosa vuol dire integrazione • Record linkage: perché • Il metodo di Fellegi e Sunter • Come risolvere il problema con RELAIS

  3. Cosa vuol dire integrazione Integrare i dati: non è solo un problema informatico: ma sono necessarie analisi e procedure statistiche! • La procedura di integrazione può essere soggetta a errore: bisogna misurarlo • Diversi tipi di integrazione a seconda delle caratteristiche dei data set

  4. Primo problema di integrazione Questo problema prende il nome di record linkage (abbinamento esatto) Bisogna cercare i record che appartengono allo stesso individuo

  5. Secondo problema di integrazione Le tecniche da usare vanno sotto il nome di statistical matching, o abbinamento statistico Questi data set non hanno unità in comune, ma hanno variabili che è interessante studiare insieme

  6. Abbinamento statistico Disponibile dalle liste elettorali Possibile ottenere informazioni sul legame fra gruppo etnico e voto? Disponibile al termine delle elezioni L’abbinamento statistico può essere svolto anche su dati aggregati. Esempio: elezioni 1990, Ohio

  7. Abbinamento statistico: esempi Abbinamento fra indagine sui consumi e quella sui redditi Abbinamento fra indagine sui redditi e campione anonimo di record fiscali Data set per microsimulazione

  8. Abbinamento statistico Abbinamento statistico = “spremere” i dati! Riprendiamo l’esempio delle elezioni in Ohio Questa è una informazione in più rispetto alle marginali!

  9. Bibliografia Kadane, J.B. (1978), Some statistical problems in merging data files. In Compendium of tax research, Department of Treasury, U.S. Gov- ernement Printing Office, Washington D.C., 159-179 (Reprinted in 2001, Journal of Official Statistics,17,423-433). King, G. (1997), A Solution to the Ecological Inference Problem, Princeton University Press, Princeton. D’Orazio, M., Di Zio, M., Scanu, M. (2006b), Statistical Matching: Theory and Practice, Wiley Conti, P.L., Marella, D., Scanu M. (2012) Uncertainty Analysis in Statistical Matching, Journal of Official Statistics, pp. 69–88

  10. Abbinamento esatto“Il libro della vita” Dunn (1946)* descrive il record linkage in questi termini …each person in the world creates a book of life. The book starts with the birth and ends with the death. Its pages are made up of all the principal events of life. Record linkage is the name given to the process of assembling the pages of this book into one volume. The person retains the same identity throughout the book. Except for advancing age, he is the same person… *Dunn (1946) "Record Linkage". American Journal of Public Health 36 (12): 1412–1416.

  11. Le motivazioni • informazione congiunta su due o più variabili osservate su fonti diverse • “contare” una popolazione • sostituire parti di indagini con archivi • creazione di una “lista” di una popolazione • altri obiettivi di statistica ufficiale (imputazione ed editing/migliorare la qualità del micro dato; studio del rischio di identificazione dei microdati rilasciati)

  12. Record Linkage - caso semplice I due record si agganciano tramite il codice fiscale!

  13. Record Linkage - caso meno semplice I due record si agganciano tramite un insieme di variabili comuni che identificano i record

  14. Record Linkage - caso più complicato I due record si agganciano tramite un insieme di variabili comuni che identificano i record e sono affetti da errori o “problemi”

  15. Record Linkage - caratteristiche • Se esiste un codice identificativo o un insieme di variabili che può svolgere il compito di un codice identificativo, il problema del ricongiungimento dei record di due data set è banale. • I metodi per il record linkage si occupano del caso in cui un unico codice identificativo non c’è, e le restanti variabili sono in grado di identificare le unità ma sono riportate con errore.

  16. Schema delle operazioni Preelaborazioni Selezione delle variabili di matching e blocking Editing delle variabili blocking Metodo probabilistico Metodo deterministico Record linkage Modello/stima valutazione Definizione regole Soglie per le decisioni Analisi Output: 1:1 o molti a molti Revisione manuale Valutazione errori negli abbinamenti

  17. Dati due file A e B di numerosità NA e NB , si consideri l’insieme di cardinalità N=NANB Ω = {(a,b), a∈A e b∈B}. Si vogliono classificare le coppie in Ω nei due insiemi M e U tali che: M = insieme delle coppie U = insieme delle non coppie con M  U = Ω , M  U =  . Formalizzazione del problema

  18. Le variabili di confronto Si selezionano le k variabili di matching (tra quelle comuni ai due data sets e identificative dell’unità) Per ogni coppia (a,b) Ω , si definisce un vettore i cui K elementi sono il risultato del confronto tra le variabili di matching. Ad esempio

  19. La Tabella di Contingenza Frequenze

  20. Il modello mistura (a,b)U (a,b)M

  21. Il “peso” di abbinamento Fellegi e Sunter (1969) introducono una funzione costituita dal rapporto di verosimiglianza sulla base del quale le coppie (a,b) possono essere ordinate e sottoposte ad un processo di classificazione negli insiemi M e U

  22. La regola di decisione Il criterio di classificazione è basato su due livelli di soglia scelti in modo opportuno che assegnano le coppie a tre possibili sottoinsiemi M*, Q , U*

  23. La regola di decisione f Tu Tm (a,b)U (a,b)M r Q U* M*

  24. Le Fasi di un progetto di Record Linkage come proposte in RELAIS Preparazione dei files di input (pre-processing); Riduzione dello spazio di ricerca delle coppie candidate; Selezione degli attributi identificativi comuni (variabili di matching); Scelta della funzione di confronto; Scelta del modello di decisione; Stima delle probabilità di abbinamento (1) Valutazione dell’adattamento del modello ai dati (1) Assegnazione delle coppie (a,b) allo stato di “abbinato” o “non abbinato” Selezione degli abbinamenti univoci Valutazione dei risultati del Record linkage. (1) fase caratteristica dei metodi probabilistici

  25. Bibliografia Scanu M. (2003) Metodi Statistici per il record linkage, Metodi e Norme - n.16, Istat Batini C., Scannapieco M. (2006) Data Quality: Concepts, Methods, and Techniques, Springer. Herzog T.N., Scheuren F.J., Winler E.W. (2007) Data quality and record linkage techniques, Springer. RELAIS: http://www.istat.it/it/strumenti/metodi-e-software/software/relais https://joinup.ec.europa.eu/software/relais/description

More Related