290 likes | 489 Views
Anonymisation semi-automatique de corpus d’interactions É léments pour une méthode interactive. C. Reffay 1 , F.-M. Blondel 1 , S. Allaire 2 , E. Giguet 3 1 STEF – ENS-Cachan / IFÉ – ENS-Lyon 2 Université du Québec à Chicoutimi (UQAC), Canada 3 GREYC, Université Caen Basse-Normandie, CNRS.
E N D
Anonymisation semi-automatique de corpus d’interactionsÉléments pour une méthode interactive C. Reffay1, F.-M. Blondel1, S. Allaire2, E. Giguet3 1 STEF – ENS-Cachan / IFÉ – ENS-Lyon 2 Université du Québec à Chicoutimi (UQAC), Canada3 GREYC, Université Caen Basse-Normandie, CNRS Journées Communication et Apprentissage Instrumentés en Réseau du 6 au 8 septembre 2012 à Amiens, France.
Le fil conducteur • Introduction • Contexte, problématique • Les 2 Corpus traités • Anonymiser : définitions, exemples • Le processus d’anonymisation • Marquage • Fouille • Substitution • Bilan de l’application aux 2 corpus • Perspective JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Introduction • Partage de données en recherche • Mulce : "Repository" de Corpus multimodaux d’enseignement et d’apprentissage • Calico : "Repository" + Outils d’analyse de Forums, Blogs, etc. • Données personnelles non partageables • Anonymisation nécessaire • Corpus d’interaction = Gros volumes • Besoin de méthode et d’outils JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Anonymiser : pourquoi ? • Obligation légale (selon les pays) : • En France : CNIL, • Directives de la Commission Européenne • Canada : comités éthiques • Déontologie de la recherche • Protéger les données perso. des participants • Gagner leur confiance • Mieux garantir l’indépendance JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Anonymiser : le « quoi » • Cacher les données personnelles • Noms (prénoms, patronymes, noms utilisateurs, …) • Identifiants (N°Passeport, N°Etudiant, N°INSEE, …) • Lieux (villes, rues, adresse, coordonnées) • Institution (école, club, entreprise, …) • Références de contacts (e-mail, mobile, MSN, skype, twitter, téléphone/fax, …) • Références explicites (URL page perso, blogs) • Noms d’utilisateurs de média sociaux (facebook, MySpace, Hi5, Soundcloud, Badoo, Friendster, …) • Et maintenircohérence et consistance du texte JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
2 corpus JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Ex: Données personnelles • {2011-11-30T19:24 Gabibr Re: Quelques informations ...}“Eu amo a língua Francesa! Quem sabe falar francês me adiconem no meu FACEBOOK;) J'aime parler français! Qui peut parler français? M'ajouter dans FACEBOOK;) Nom: GABRIELA MEDEIROS.” • {2011-12-27T09:25 Miche Re: Les stéréotypes culinaires answers} “inviate i vostri documenti alla mia mail mikinessi@yahoo.it grazie!!!;)” • {2011-10-22T19:52 PBS Re: Por que me chamo assim?! } “Yo me llamo Peimikà Bibiana. Como mi madre es tailandesa y mi padre es italiano, mi primer nombre, Peimikà, es tailandés y significa " dueña del amor ", mientras mi según nombre, Bibiana, es italiano y procede del etrusco " vibius " que significa " vida ". Me gusta mucho tener dos nombres (en Italia es más usual tener un nombre) y sobre todo estoy orgullosa de los orígenes diferentes que tienen y que hacen mi nombre aún más particular (además Peimikà no es muy difundido en tampoco en Tailandia y tampoco Bibiana en Italia” JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
En cherchant sur la toile… JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Peimikà Bibiana… suite JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Anonymisation Dans un corpus anonymisé, aucun participant ne doit être identifiable par une personne externe Contraintes: • Toute référence (ex: nom, lieu, etc.) doit être suffisamment imprécise pour englober plusieurs centaines de personnes. • Toute graphie identifiée doit être marquée (numériquement) même si elle est inchangée. • Conserver le maximum de dépendances sémantiques et culturelle. JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Comment rendre anonyme ? « Bonjour, je m'appelle Kelly. J'ai 16 ans, je suis une élève en 1ère S dans le lycée Rosa Luxemburg à Canet, pas très loin de Perpignan. » • Une info (isolée) => 100+ personnes • Faisceau d’infos combinées => 7+ pers. • Penser aux sources externes… JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Avant Après Anonymisation • Avant :{2011-10-17T08:22 KellyM Re: Qui sommes- nous? } Bonjour, je m'appelleKellly. J'ai 16 ans, je suis une élève en 1ère S dans le lycéeRosa Luxemburg à Canet,non loin dePerpignan… • Après:{2011-10-17T08:22 FLG01 Re: Qui sommes- nous? } Bonjour, je m'appelleKittty*. J'ai 16 ans, je suis une élève en 1ère S dans le lycéeMargherita Duras* à Aigues-Vives*,non loin dePerpignan… JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Quelques difficultés • Synonymie ou altérations lexicalesExemple : Venise • Erreurs de typo: Verise, Venize… • Multilinguisme : Venizia, Venice, … • Homonymie : « Sylvie Paris semble avoir développé une véritable addiction au PMU (Paris Mutuels Urbains). Elle fréquente assidument l’hippodrome de Longchamp à côté de Paris. » JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Processus d’Anonymisation Table de transformation des entités nommées Liste initiale participants,login,institution… 0 2 Détection de nouvellesgraphies Marquage 1 Corpus avec entités marquées Corpus àanonymiser Corpus Anonymisé Substitution 3 JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
≠ = Synonymes : 2 graphies différentes représentent la même entité nommée Homonymes: La même graphie représente différentes entités Table de transformation : exemple JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Marquage : Exemple (Kelly) A - Le concordanceur donne le contexte de chaque occurrence JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Marquage: Exemple (Kelly) B – Ajouter “Gene Kelly” comme personne publique dans la table + JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Marquage : Exemple (Kelly) C- Associer chaque graphie à l’entité correspondante Patronyme, forme normale, inchangéereprésente la célébrité Gene Kelly Prénom, forme normale, à changer :représente le participant KellyM JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Processus d’Anonymisation Table de transformation des entités nommées Liste initiale participants,login,institution… 0 2 Détection de nouvellesgraphies Marquage 1 Corpus avec entités marquées Corpus àanonymiser Corpus Anonymisé Substitution 3 JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Détection de nouvelle graphies : 2 stratégies • Règles lexicales : syntaxe proche • Eli -> Elô Ely ELY Seli • Gabriela -> GABRIELA • José -> Jose • Règles contextuelles : même contexte • First names: “mi chiamo …”, “accord avec …” • Cities: “Soy de …”, “vivo en …”, “j’habite à …” JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Adriana Alèxia Anthony Baptiste Cleissa Eli… Elouise Emmanuel Federica Ferran Gabriela Guillem Iñigo Jaqueline Jean José Kelly Léo Mariana Mary Michela Monica Olalla Oleguer 1ère Stratégie : Règles Lexicales 103graphiesconnues adriana Alexia Antonhy baptiste Cleisa Elô Ely ELY Seli Louise MAnuel Federiac fran Fran GABRIELA guillem iñigo Jacqueline jean Jose Kellly Leo léo MariAna mary May Miche michelina moni olalla oleguer 31 nouvellesgraphies JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
2ème Stratégie : Règles contextuelles 103 prénoms connus (Adrià, …, Veronica) 145 contextes : Gauches/Droits Total: + 250 règles testées 47 règles retenues 15 nouvelles graphies retenues Antonhy BelleBetChristineFedeFederiac Kellly Leo LineMaria May PeimikàRegina fran jean léo JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Processus d’Anonymisation Table de transformation des entités nommées Liste initiale participants,login,institution… 0 2 Détection de nouvellesgraphies Marquage 1 Corpus avec entités marquées Corpus àanonymiser Corpus Anonymisé Substitution 3 JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Substitution : principes & précautions • Vérifications avant exécution: • Homonymie (entre participants) maintenue • Pas d’introduction de nouveaux homonymes • Cohérence des graphies de substitution • Codage des acteurs (intra/inter corpus) • Exécution en une seule passe pour éviter les remplacements en cascade • Vérification par le chercheur par lecture (au moins sur un échantillon) JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Evaluation de l’anonymisationSur le corpus 1 (Nomades) • Annuaire des données personnelles : prénoms, patronymes, institutions, villes, courriels : 269 données / 117 trouvées / 279 occurrences Méthode : Relecture exhaustive par l’animatrice • 7 graphies oubliées // 117 trouvées • 6 sur 7 dues à une application manuelle =>1 seule vraie oubliée par la méthode : Excellent résultat pour l’anonymisation JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Evaluation de l’anonymisationSur le corpus 2 (Prog. court) • Annuaire des données personnelles : prénoms, patronymes : • 9 données / 11 trouvées / 115 occ. marquées Méthode : Expression régulière (Majuscule) : =>792 occ. représentant 328 graphies distinctes • 8 graphies : 2 institutions, 1 village, 5 pers. • Soit 31 occurrences oubliées Peu d’information au départ => moins efficace. JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Discussion • Expressions régulières (majuscules) : • Corpus 1 (Nomades) : 6 287 occ. (1509 g) • Corpus 2 (Pgrm court) : 792 occ. (328 g) • Règles inutilisable en Allemand, autres ? • Dictionnaires externes • Corpus 1 (Nomades) : 5 langues (avec recouvrements) • Corpus 2 (Pgrm court) : Français du Québec • Réutilisation des règles : (1) -> 2 ? JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Conclusion • Une méthode (sans dictionnaire) pour anonymiser • Retour aux hypothèses • Automatisation 100% impossible • 2 techniques de fouille complémentaires prometteuses • Selon contexte : ajouter expressions régulières • Le paradoxe de l’anonymisation • Ex: Google facilite la ré-identification => utilisons-le pour déterminer ce qu’il faut anonymiser ! • Perspectives • Développement (au dessus de Calico) JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet
Merci C. Reffay1, F.-M. Blondel1, S. Allaire2, E. Giguet3 1 STEF – ENS-Cachan / IFÉ – ENS-Lyon 2 Université du Québec à Chicoutimi (UQAC), Canada3 GREYC, Université Caen Basse-Normandie, CNRS Journées Communication et Apprentissage Instrumentés en Réseau du 6 au 8 septembre 2012 à Amiens, France.