1 / 14

Désidentification des données, risques et résolution

Désidentification des données, risques et résolution. Bradley Malin, Ph.D. Professeur adjoint Vanderbilt University. Désidentifié ne veut pas dire anonyme ( Sweeney 1998, 2000 ). Origine ethnique Date de la visite Diagnostique Procédure Médication Paiement total. Nom Adresse

Download Presentation

Désidentification des données, risques et résolution

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 29e Confrence internationale des commissaires à la protection de la vie prive

  2. Désidentification des données, risques et résolution Bradley Malin, Ph.D. Professeur adjoint Vanderbilt University 29e Confrence internationale des commissaires à la protection de la vie prive

  3. Désidentifié ne veut pas dire anonyme(Sweeney 1998, 2000) Origine ethnique Date de la visite Diagnostique Procédure Médication Paiement total Nom Adresse Date d’inscription Appartenance politique Dernière date que la personne a voté Code postal DDN Sexe 87% aux États-Unis sont RÉIDENTIFIABLES Données sur les congés des patients Liste d’électeurs 29e Confrence internationale des commissaires à la protection de la vie prive

  4. ( CAG) n 3334 Base de Mutation CIM9 code données médicales génétique 3334 ( CAG) n Base de Mutation CIM9 code données ADN génétique Réidentification par empreintes génétiques • Plusieurs des technologies de protection de la vie privée visant le génome permettent la réidentification par l’ADN (Malin 2005) • L’ADN est réidentifié par des méthodes automatiques, par exemple : • Génotype – Inférence phénotype (Malin & Sweeney, 2000, 2002) 29e Confrence internationale des commissaires à la protection de la vie prive

  5. Réidentification généalogique(Malin 2006) • IdentiFamily: • logiciel qui apparie des généalogies désidentifiées à des personnes désignées • Se sert d’informations accessibles au public, p.ex., nécrologies, enregistrements de décès, la base de données de la Social Security Death Index pour établir des généalogies Ressources Ressources Ressources publiques publiques publiques Étape 1: Extraction BD de Enregistr. Étape 2: Validation population de décès Étape 3: Structuration Étape 4: Appariement Bob Chaz Ada Dan Ed Fay Généalogies désidentifiées Structures familiales (partagées pour la recherche) identifiées 29e Confrence internationale des commissaires à la protection de la vie prive

  6. Réidentification généalogique(Malin 2006) 29e Confrence internationale des commissaires à la protection de la vie prive

  7. Vulnérabilité du système(Malin, JAMIA 2005) Vulnérable Pas vulnérable 29e Confrence internationale des commissaires à la protection de la vie prive

  8. La modification des données n’assure pas la protection • Science Magazine (Lin et al, 2004) • < 100 SNPs rendent l’ADN unique • Protection proposée : perturber l’ADN • c.-à-d., changer A avec T, etc. • aaaact atacct • Accroître la perturbation, diminuer les corrélations internes (voir graphique) • Conclusions • De nombreuses perturbations sont requises pour empêcher l’appariement • Garder les enregistrements sous scellés AVERTISSEMENT : L’unicité ne garantit pas que la vie privée sera compromisée Utilité (Corrélations) Protection de la vie privée (Perturbation) 29e Confrence internationale des commissaires à la protection de la vie prive

  9. Modèle formel de réidentification Déjà dans le domaine public Banque de données biologiques déidentifiées Condition nécessaire MODÈLE D’APPARIEMENT Données nominatives 2. Certifier l’absence de chemin d’appariement Necessary Condition UNIQUENESS Condition nécessaire UNICITÉ Condition nécessaire UNICITÉ 1. Rendre les données non uniques 29e Confrence internationale des commissaires à la protection de la vie prive

  10. Protection formelle • k-mappage (Sweeney, 2002) • Chaque enregistrement partagé désigne au moins k unités dans la population • k-anonymat (Sweeney, 2002) • Chaque enregistrement partagé est semblable à au moins k-1 autres enregistrements • k-non appariement (Malin 2006) • Chaque enregistrement partagé s’apparie à au moins k identités à travers de son sillage • Satisfait le modèle de protection par k-mappage 29e Confrence internationale des commissaires à la protection de la vie prive

  11. Perturbation C A T ATA A CG T ATCGATCGAT Généralisation ATC [G or C] A [T or A] CG [T or A] T Au delà des protections ad hoc • La perturbation ne garantit pas la protection de la vie privée • Alternative : Généralisation des données (Lin et al 2004) (Malin 2005) 29e Confrence internationale des commissaires à la protection de la vie prive

  12. ACTG 1 ACTG 2 ACTG 3 Savoir qui vous êtes à partir d’où vous avez été (« sillage »)(Malin & Sweeney, 2001; 2004, Malin & Airoldi 2006) Individus dans les BD sur les congés des patients ADN dans les BD génomiques H H H H H H 1 2 3 1 2 3 ACTG ACTG 1 1 ACTG 2 ACTG 3 29e Confrence internationale des commissaires à la protection de la vie prive

  13. Empêcher le sillage : population avec la fibrose kystique(1149 échantillons) 100 100 80 80 60 60 % d’enregistrements d’ADN divulgués % d’échantillons réidentifiés 40 40 20 20 Naïf Suppression partielle du sillage 0 0 0 10 20 30 40 50 0 10 20 30 40 50 k k AVANT STRANON 100% échantillons en entrepôt APRÈS STRANON 0% échantillons k-réidentifiés 29e Confrence internationale des commissaires à la protection de la vie prive

  14. Utilité : Risque quantifié Réglage forcé Réglage initial • Modification au risque de réidentification • Déplace le fardeau de l’accroissement du risque vers l’analyste requérant • Lie les modèles légal et informatique Quantité demandée 100 80 60 % d’échantillons en entrepôt 40 20 0 0 10 20 30 40 50 k 29e Confrence internationale des commissaires à la protection de la vie prive

More Related