440 likes | 601 Views
Chaînes de références. Amalia Todirascu todiras@unistra.fr. Plan. Les chaînes de référence systèmes à base de contraintes vs systèmes d'apprentissage automatique RefGen : un outil de détection automatique de chaînes de références propriétés utilisées pour la resolution de la coréférence.
E N D
Chaînes de références Amalia Todirascu todiras@unistra.fr Amalia Todirascu
Plan • Les chaînes de référence • systèmes à base de contraintes vs systèmes d'apprentissage automatique • RefGen : un outil de détection automatique de chaînes de références • propriétés utilisées pour la resolution de la coréférence Amalia Todirascu
Chaînes de réference • une séquence de plusieurs expressions réferentielles et anaphores qui denomment la même entité • expression réferentielle: nom propre, groupe nominal avec article défini, groupe nominal avec article demonstratif • anaphore: pronom personnel, pronom possessif Amalia Todirascu
Exemple • M.Barack Obama a tenu un discours devant le Congrès sur la reforme de l'assurance maladie. Le président des Etats Unis a souligné l'importance qu'il accorde à cette reforme. • M.Barack Obama = antécédent de Le président ... • La reforme = antécédent de cette reforme Amalia Todirascu
Expressions référentielles • introduisent des entités du discours • exprimées par: • des entités nommées • Le président de la République française, l'ONU, M.Pons • par des groupes nominaux définis ou indéfinis complets • un chat noir, les experts de la Commission pour l'environnement Amalia Todirascu
Anaphores • l'entité dont il réfère à été déjà introduite dans le discours (le président... il ...son) • exprimée par le biais d'un élément antérieur • plusieurs catégories (Kleiber, 1994) • anaphore pronominale • pronoms personnels (il, elle, lui, leur) • pronoms reflexifs (s) • possessifs (son) Amalia Todirascu
Anaphores (II) • Anaphores nominales • fidèle : coréférence directe groupe nominal avec article demonstratif (Le président ...ce président) • infidèle - différence lexicale • hyperonymes/hyponymes (le chien...cet animal) • synonymes (le changement...la modification) • associative (L'eglise du village...ce clocher) • plurielle (Jean et Marie ...Marie.... Jean ...ils) Amalia Todirascu
Anaphores (III) • anaphore conceptuelle • antécédent = phrase • anaphore = resumé de l'antécédent • Les footballeurs français ont battu les brésiliens. Cette victoire les a faits champions du monde • anaphore zéro : élement anaphorique elliptique Amalia Todirascu
Contexte et motivation • regrouper les expressions référentielles qui indiquent le même référent = identifier les chaînes de référence • souvent deux élements : chaînes anaphoriques • applications TAL • extraction d'informations • détection de thèmes • resumé automatique • systèmes de questions-réponses Amalia Todirascu
Contexte et motivation (II) • modèles linguistiques du discours • théorie de l'accessibilité (Ariel, 1990, 1996) • expressions réferentielles peu accessibles : entités nouvelles introduites dans le discours • expressions accessibles : pronoms reflexifs, personnels • théorie du centrage (Grosz et Sidner) • notion du centre et des transitions • contraintes syntaxiques • pour les pronoms Amalia Todirascu
Contexte et motivation (III) • rôles des anaphores et de chaînes de référence dans le discours • marqueurs de cohesion textuelle (Charolles, 1997) • fonctionnement des chaînes (Schnedecker, 1997) • thème et chaînes de référence (Cornish, 2005) Amalia Todirascu
Plan • Les chaînes de référence • systèmes à base de contraintes vs systèmes d'apprentissage automatique • RefGen : un outil de détection automatique de chaînes de références • propriétés utilisées pour la resolution de la coréférence Amalia Todirascu
Systèmes automatiques (I) • systèmes à base de règles • français(Hernandez, 2004), (Dupont, 2003) (Victorri 2005), (Popescu Belis, 1996), (Longo, Todirascu, 2010) • anglais (Mitkov, 2003), (Bontcheva et al, 2004) • vérification de plusieurs contraintes lexicales, syntaxiques, sémantiques pour trouver les affinités entre les possibles antécédents (entités nommées, groupes nominaux définis) • dépendentes de langue Amalia Todirascu
Systèmes automatiques (II) • systèmes de classification • systèmes supervisées (Ng et Cardie, 2002) (Yang et al, 2004) (Weisenbacher & Nazarenko, 2008) • nécessitent des données d'apprentissage de grande taille (500,000 – 1,000,000 tokens) annotées au niveau de relations de coréférence et anaphorique • données disponibles pour EN, DE, NL, ES, IT • mais pas pour le français !!! • propriétés: • contraintes lexicales, syntaxiques, sémantiques • la position dans la phrase, la distance entre les candidats • type d'expressions réferentielles (déterminant, nom commun/nom propre etc.) Amalia Todirascu
Systèmes automatiques (III) • systèmes non-supervisés (Lang et al, 2009) (Ailloud, Klenner, 2009) (Bean et Riloff, 2004), BART (Versley et al, 2008) • exploitation des informations morpho-syntaxiques • la position ou la distance • le type d'antécédent • données : corpus étiquétés lemmatisés, eventuellement annotés syntaxiquement mais pas besoin d'avoir d'annotation des relations de coréférence Amalia Todirascu
Problèmes • systèmes à base de règles • nécessite beaucoup d'effort pour construire les ressources • connaissances complexes : étiquetage, lemmatisation, analyse syntaxique, identification des entitées nommées • systèmes de classification • volume important de données • données insuffisantes Amalia Todirascu
Plan • Les chaînes de référence • systèmes à base de contraintes vs systèmes d'apprentissage automatique • RefGen : un outil de détection automatique de chaînes de références • propriétés utilisées pour la resolution de la coréférence Amalia Todirascu
RefGen • Identification automatique de chaînes de référence pour le français RefGen (Longo et Todirascu, 2010) • dépendent du genre textuel • ordonner les candidats au premier maillon (théorie de l'accessibilité (Ariel, 1990)) • trouver des pairs antécédent-anaphore • utilisation des filtres (lexicales, syntaxiques, sémantiques) • thèse de L.Longo (RBS) • utilisée pour un système de détection automatique de thèmes Amalia Todirascu
Architecture RefGen Amalia Todirascu
Outils d'annotation • TTL (Ion, 2007) • Étiquetage selon le jeu d'étiquettes MULTEXT (Ide & Veronis 2004) • CNP (Longo, Todirascu, 2010) • Groupes nominaux complexes • EN • Entités nommées (Personne, Organisation, Lieu) • Fonction syntaxique Amalia Todirascu
TTL (Ion, 2007) • étiquetage et lemmatization • jeu d'étiquettes MULTEXT • disponible pour le français, le roumain, l'anglais • service Web (integré dans la plateforme Weblicht (développé dans le cadre du projet CLARIN)) • format de sortie: Text Corpus Format (TCF) ou XCES • limité dans la taille du fichier Amalia Todirascu
Groupes nominaux complexes • groupes nominaux complexes (plus informatifs) • groupes nominaux simples avec plusieurs modifieurs: groupes prépositionnels, relative • utilise les annotations de TTL • patrons disponibles pour le français Amalia Todirascu
Entités nommées • catégories : personnes, organisations, lieux • patrons qui utilisent des preuves externes ou internes Amalia Todirascu
"Il" impersonnel • plusieurs patrons proposés pour identifier les tournures impersonnelles (stage de Y.Lutz) • verbes et adjectifs météorologiques (il pleut, il fait beau) • adjectifs (il est nécessaire de...) • verbes (il faut+Vinf, il s'agit de...) • 77% de il impersonnels reconnus correctement Amalia Todirascu
Calcul de la référence algorithme d’identification des chaînes de référence Amalia Todirascu
Sélection des 1ers maillons • A partir de l’échelle d’Accessibilité d’(Ariel, 1990) • Attribution d’un poids à chaque ER (de 10 à 110) pour chaque critère (inf, rig, att) Amalia Todirascu
Sélection des autres maillons • On détermine les liens de coréférence entre les candidats d’accessibilité haute et ceux d’accessibilité basse • Identification des paires antécédent-anaphore • dans la distance moyenne spécifique au genre • liste de contraintes à satisfaire = des filtres pour limiter les candidats • Lexicaux • Morphosyntaxiques • Sémantiques • De proximité • Regroupement des anaphores ayant un référent commun pour former les chaînes de référence Amalia Todirascu
Contraintes • (Gegg-Harrison & Byron, 2004) – Optimisation theory (Beaver, 2004) • Paires antécédent-anaphore impossibles • Pas d'imbrication possible [la soeur [de Marie]] • Si les éléments sont les arguments du même verbe (La voiture qu'il a achété...) • maximum de contraintes • Lexicales • Syntaxiques • sémantiques Amalia Todirascu
Contraintes (II) • Lexicale • Reprise du même tête • Syntaxiques • Parallèlisme syntaxique • Sémantique • Synonymes • hyponymes Amalia Todirascu
Exemple Amalia Todirascu
Exemple (II) Amalia Todirascu
Evaluation Amalia Todirascu
RefGen • évaluation sur d'autres genres • corpus de référence annoté manuellement (E.Vallette d'Osia) • format SEMEVAL • système modulaire, extensible • ajout de contraintes sémantiques (ontologies) • peu de connaissances extérieures • utilisation pour une annotation automatique de corpus – apprentissage automatique Amalia Todirascu
Plan • Les chaînes de référence • systèmes à base de contraintes vs systèmes d'apprentissage automatique • RefGen : un outil de détection automatique de chaînes de références • propriétés utilisées pour la resolution de la coréférence Amalia Todirascu
Quel outil pour la classification? • supervisée vs. semi-supervisée • quelle taille de corpus? • classification spécialisée • en fonction de types d'antécédents Amalia Todirascu
Coréférence comme une tâche de classification • hypothèse: sur l'ensemble des paires antécédent-anaphore, appliquer un algorithme de classification • même chaîne de référence = même classe • chaque paire = caractérisée par plusieurs propriétés lexicales, syntaxiques, sémantiques Amalia Todirascu
Corpus disponibles - LiLPa • corpus étiquétés et lemmatisés • catégorie lexicale • informations morpho-syntaxiques • lemme • possibilité d'obtenir d'autres annotations • corpus corrigés manuellement • Journalistiques (500 000 tokens) • Textes de loi (500 000 tokens) • informatique (500 000 tokens) Amalia Todirascu
Corpus disponibles (LiLPa) <segments> <seg lang="fr"> <s id="ttlfr.1"> <w lemma="le" chunk="Np#1" ana="Da-fs"coref="1">La</w> <w lemma="décision" chunk="Np#1" ana="Ncfs"coref="1">décision</w> <w lemma="aller" chunk="Vp#1" ana="Vmip3s">va</w> <w lemma="t" ana="U">-t</w> <w lemma="il" ana="Pp3fs" coref="1">-elle</w> <w lemma="forcer" ana="Vmn">forcer</w> <w lemma="Google" chunk="Np#2" ana="Np" ner="NER#1, Org" coref="2">Google</w> <w lemma="à" chunk="Vp#2" ana="Spa">à</w> <w lemma="infléchir" chunk="Vp#2" ana="Vmn">infléchir</w> <w lemma="son" chunk="Np#3" ana="Ds3fp"coref="2">ses</w> <w lemma="pratique" chunk="Np#3" ana="Ncfp">pratiques</w> <c>?</c> </s> Amalia Todirascu
Annotations • Catégorie lexicale + propriétés morpho-syntaxiques (attribut “ana”) • Lemme (la forme infinitif du verbe, la forme masculin singulier)(attribut “lemma”) • Chunks (groupes non-recursifs) (attribut “chunk”) • Det Nom Adj • Prep Det Nom Amalia Todirascu
Autres annotations • Entités nommées, CNP • Fonctions syntaxiques • Relations sémantiques • Synonymie (French Wordnet) • Hyponymie/Hyperonymie (French WordNet) Amalia Todirascu
Propriétés pour la classification • Type d'antécédent • Informations morpho-syntaxiques • Position dans la phrase • Fonction syntaxique • autres? Amalia Todirascu
Références • Ailloud, E, Klenner, M (2009) Vers des contraintes plus linguistiques en résolution d de coréférences, TALN 2009 • Cornish, (1998). Les “chaînes topicales” : leur rôle dans la gestion et la structuration du discours, Cahiers de Grammaire, 23 : 19-40. • Dupont M. (2003) Une approche cognitive du calcul de la référence, thèse de l’université de Caen, 308 p. • Lang, J. Qin, B., Liu, T., Li, s. (2009) Unsupervised Coreference Resolution with HyperGraph Partitionning, Computer and Information Science, Vol 2, no 4. • Longo, L, Todirascu, A (2010) RefGen – un module d'identification de chaînes de référence, TALN 2010 Amalia Todirascu
Références (II) • Grosz B.J., Weinstein S., Joshi A.K. (1995), “Centering: a framework for modeling the local coherence of discourse”. Computational Linguistics 21(2), 203-225. • Ng V., Cardie C. (2002). Improving machine learning approaches to coreference resolution. Actes de ACL (Association For Computational Linguistics), Morristown, 104-111. • YANG X., SU J., ZHOU G. & TAN C. (2004). An NP-cluster based approach to coreferenceresolution. Proceedings of COLING'04 Amalia Todirascu