1 / 44

Chaînes de références

Chaînes de références. Amalia Todirascu todiras@unistra.fr. Plan. Les chaînes de référence systèmes à base de contraintes vs systèmes d'apprentissage automatique RefGen : un outil de détection automatique de chaînes de références propriétés utilisées pour la resolution de la coréférence.

ivan
Download Presentation

Chaînes de références

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Chaînes de références Amalia Todirascu todiras@unistra.fr Amalia Todirascu

  2. Plan • Les chaînes de référence • systèmes à base de contraintes vs systèmes d'apprentissage automatique • RefGen : un outil de détection automatique de chaînes de références • propriétés utilisées pour la resolution de la coréférence Amalia Todirascu

  3. Chaînes de réference • une séquence de plusieurs expressions réferentielles et anaphores qui denomment la même entité • expression réferentielle: nom propre, groupe nominal avec article défini, groupe nominal avec article demonstratif • anaphore: pronom personnel, pronom possessif Amalia Todirascu

  4. Exemple • M.Barack Obama a tenu un discours devant le Congrès sur la reforme de l'assurance maladie. Le président des Etats Unis a souligné l'importance qu'il accorde à cette reforme. • M.Barack Obama = antécédent de Le président ... • La reforme = antécédent de cette reforme Amalia Todirascu

  5. Expressions référentielles • introduisent des entités du discours • exprimées par: • des entités nommées • Le président de la République française, l'ONU, M.Pons • par des groupes nominaux définis ou indéfinis complets • un chat noir, les experts de la Commission pour l'environnement Amalia Todirascu

  6. Anaphores • l'entité dont il réfère à été déjà introduite dans le discours (le président... il ...son) • exprimée par le biais d'un élément antérieur‏ • plusieurs catégories (Kleiber, 1994) • anaphore pronominale • pronoms personnels (il, elle, lui, leur) • pronoms reflexifs (s)‏ • possessifs (son)‏ Amalia Todirascu

  7. Anaphores (II)‏ • Anaphores nominales • fidèle : coréférence directe groupe nominal avec article demonstratif (Le président ...ce président) • infidèle - différence lexicale • hyperonymes/hyponymes (le chien...cet animal) • synonymes (le changement...la modification)‏ • associative (L'eglise du village...ce clocher)‏ • plurielle (Jean et Marie ...Marie.... Jean ...ils) Amalia Todirascu

  8. Anaphores (III) • anaphore conceptuelle • antécédent = phrase • anaphore = resumé de l'antécédent • Les footballeurs français ont battu les brésiliens. Cette victoire les a faits champions du monde • anaphore zéro : élement anaphorique elliptique Amalia Todirascu

  9. Contexte et motivation • regrouper les expressions référentielles qui indiquent le même référent = identifier les chaînes de référence • souvent deux élements : chaînes anaphoriques • applications TAL • extraction d'informations • détection de thèmes • resumé automatique • systèmes de questions-réponses Amalia Todirascu

  10. Contexte et motivation (II) • modèles linguistiques du discours • théorie de l'accessibilité (Ariel, 1990, 1996) • expressions réferentielles peu accessibles : entités nouvelles introduites dans le discours • expressions accessibles : pronoms reflexifs, personnels • théorie du centrage (Grosz et Sidner) • notion du centre et des transitions • contraintes syntaxiques • pour les pronoms Amalia Todirascu

  11. Contexte et motivation (III) • rôles des anaphores et de chaînes de référence dans le discours • marqueurs de cohesion textuelle (Charolles, 1997) • fonctionnement des chaînes (Schnedecker, 1997) • thème et chaînes de référence (Cornish, 2005) Amalia Todirascu

  12. Plan • Les chaînes de référence • systèmes à base de contraintes vs systèmes d'apprentissage automatique • RefGen : un outil de détection automatique de chaînes de références • propriétés utilisées pour la resolution de la coréférence Amalia Todirascu

  13. Systèmes automatiques (I)‏ • systèmes à base de règles • français(Hernandez, 2004), (Dupont, 2003) (Victorri 2005), (Popescu Belis, 1996), (Longo, Todirascu, 2010) • anglais (Mitkov, 2003), (Bontcheva et al, 2004)‏ • vérification de plusieurs contraintes lexicales, syntaxiques, sémantiques pour trouver les affinités entre les possibles antécédents (entités nommées, groupes nominaux définis)‏ • dépendentes de langue Amalia Todirascu

  14. Systèmes automatiques (II)‏ • systèmes de classification • systèmes supervisées (Ng et Cardie, 2002) (Yang et al, 2004)‏ (Weisenbacher & Nazarenko, 2008) • nécessitent des données d'apprentissage de grande taille (500,000 – 1,000,000 tokens) annotées au niveau de relations de coréférence et anaphorique • données disponibles pour EN, DE, NL, ES, IT • mais pas pour le français !!! • propriétés: • contraintes lexicales, syntaxiques, sémantiques • la position dans la phrase, la distance entre les candidats • type d'expressions réferentielles (déterminant, nom commun/nom propre etc.) Amalia Todirascu

  15. Systèmes automatiques (III)‏ • systèmes non-supervisés (Lang et al, 2009) (Ailloud, Klenner, 2009) (Bean et Riloff, 2004)‏, BART (Versley et al, 2008) • exploitation des informations morpho-syntaxiques • la position ou la distance • le type d'antécédent • données : corpus étiquétés lemmatisés, eventuellement annotés syntaxiquement mais pas besoin d'avoir d'annotation des relations de coréférence Amalia Todirascu

  16. Problèmes • systèmes à base de règles • nécessite beaucoup d'effort pour construire les ressources • connaissances complexes : étiquetage, lemmatisation, analyse syntaxique, identification des entitées nommées • systèmes de classification • volume important de données • données insuffisantes Amalia Todirascu

  17. Plan • Les chaînes de référence • systèmes à base de contraintes vs systèmes d'apprentissage automatique • RefGen : un outil de détection automatique de chaînes de références • propriétés utilisées pour la resolution de la coréférence Amalia Todirascu

  18. RefGen • Identification automatique de chaînes de référence pour le français RefGen (Longo et Todirascu, 2010) • dépendent du genre textuel • ordonner les candidats au premier maillon (théorie de l'accessibilité (Ariel, 1990)) • trouver des pairs antécédent-anaphore • utilisation des filtres (lexicales, syntaxiques, sémantiques) • thèse de L.Longo (RBS) • utilisée pour un système de détection automatique de thèmes Amalia Todirascu

  19. Architecture RefGen Amalia Todirascu

  20. Outils d'annotation • TTL (Ion, 2007)‏ • Étiquetage selon le jeu d'étiquettes MULTEXT (Ide & Veronis 2004)‏ • CNP (Longo, Todirascu, 2010)‏ • Groupes nominaux complexes • EN • Entités nommées (Personne, Organisation, Lieu)‏ • Fonction syntaxique Amalia Todirascu

  21. TTL (Ion, 2007) • étiquetage et lemmatization • jeu d'étiquettes MULTEXT • disponible pour le français, le roumain, l'anglais • service Web (integré dans la plateforme Weblicht (développé dans le cadre du projet CLARIN)) • format de sortie: Text Corpus Format (TCF) ou XCES • limité dans la taille du fichier Amalia Todirascu

  22. Groupes nominaux complexes • groupes nominaux complexes (plus informatifs) • groupes nominaux simples avec plusieurs modifieurs: groupes prépositionnels, relative • utilise les annotations de TTL • patrons disponibles pour le français Amalia Todirascu

  23. Entités nommées • catégories : personnes, organisations, lieux • patrons qui utilisent des preuves externes ou internes Amalia Todirascu

  24. "Il" impersonnel • plusieurs patrons proposés pour identifier les tournures impersonnelles (stage de Y.Lutz) • verbes et adjectifs météorologiques (il pleut, il fait beau) • adjectifs (il est nécessaire de...) • verbes (il faut+Vinf, il s'agit de...) • 77% de il impersonnels reconnus correctement Amalia Todirascu

  25. Amalia Todirascu

  26. Calcul de la référence algorithme d’identification des chaînes de référence Amalia Todirascu

  27. Sélection des 1ers maillons • A partir de l’échelle d’Accessibilité d’(Ariel, 1990) • Attribution d’un poids à chaque ER (de 10 à 110) pour chaque critère (inf, rig, att) Amalia Todirascu

  28. Sélection des autres maillons • On détermine les liens de coréférence entre les candidats d’accessibilité haute et ceux d’accessibilité basse • Identification des paires antécédent-anaphore • dans la distance moyenne spécifique au genre • liste de contraintes à satisfaire = des filtres pour limiter les candidats • Lexicaux • Morphosyntaxiques • Sémantiques • De proximité • Regroupement des anaphores ayant un référent commun pour former les chaînes de référence Amalia Todirascu

  29. Contraintes • (Gegg-Harrison & Byron, 2004) – Optimisation theory (Beaver, 2004) • Paires antécédent-anaphore impossibles • Pas d'imbrication possible [la soeur [de Marie]] • Si les éléments sont les arguments du même verbe (La voiture qu'il a achété...)‏ • maximum de contraintes • Lexicales • Syntaxiques • sémantiques Amalia Todirascu

  30. Contraintes (II)‏ • Lexicale • Reprise du même tête • Syntaxiques • Parallèlisme syntaxique • Sémantique • Synonymes • hyponymes Amalia Todirascu

  31. Exemple Amalia Todirascu

  32. Exemple (II) Amalia Todirascu

  33. Evaluation Amalia Todirascu

  34. RefGen • évaluation sur d'autres genres • corpus de référence annoté manuellement (E.Vallette d'Osia) • format SEMEVAL • système modulaire, extensible • ajout de contraintes sémantiques (ontologies) • peu de connaissances extérieures • utilisation pour une annotation automatique de corpus – apprentissage automatique Amalia Todirascu

  35. Plan • Les chaînes de référence • systèmes à base de contraintes vs systèmes d'apprentissage automatique • RefGen : un outil de détection automatique de chaînes de références • propriétés utilisées pour la resolution de la coréférence Amalia Todirascu

  36. Quel outil pour la classification? • supervisée vs. semi-supervisée • quelle taille de corpus? • classification spécialisée • en fonction de types d'antécédents Amalia Todirascu

  37. Coréférence comme une tâche de classification • hypothèse: sur l'ensemble des paires antécédent-anaphore, appliquer un algorithme de classification • même chaîne de référence = même classe • chaque paire = caractérisée par plusieurs propriétés lexicales, syntaxiques, sémantiques Amalia Todirascu

  38. Corpus disponibles - LiLPa • corpus étiquétés et lemmatisés • catégorie lexicale • informations morpho-syntaxiques • lemme • possibilité d'obtenir d'autres annotations • corpus corrigés manuellement • Journalistiques (500 000 tokens)‏ • Textes de loi (500 000 tokens)‏ • informatique (500 000 tokens)‏ Amalia Todirascu

  39. Corpus disponibles (LiLPa)‏ <segments> <seg lang="fr"> <s id="ttlfr.1"> <w lemma="le" chunk="Np#1" ana="Da-fs"coref="1">La</w> <w lemma="décision" chunk="Np#1" ana="Ncfs"coref="1">décision</w> <w lemma="aller" chunk="Vp#1" ana="Vmip3s">va</w> <w lemma="t" ana="U">-t</w> <w lemma="il" ana="Pp3fs" coref="1">-elle</w> <w lemma="forcer" ana="Vmn">forcer</w> <w lemma="Google" chunk="Np#2" ana="Np" ner="NER#1, Org" coref="2">Google</w> <w lemma="à" chunk="Vp#2" ana="Spa">à</w> <w lemma="infléchir" chunk="Vp#2" ana="Vmn">infléchir</w> <w lemma="son" chunk="Np#3" ana="Ds3fp"coref="2">ses</w> <w lemma="pratique" chunk="Np#3" ana="Ncfp">pratiques</w> <c>?</c> </s> Amalia Todirascu

  40. Annotations • Catégorie lexicale + propriétés morpho-syntaxiques (attribut “ana”)‏ • Lemme (la forme infinitif du verbe, la forme masculin singulier)(attribut “lemma”)‏ • Chunks (groupes non-recursifs) (attribut “chunk”)‏ • Det Nom Adj • Prep Det Nom Amalia Todirascu

  41. Autres annotations • Entités nommées, CNP • Fonctions syntaxiques • Relations sémantiques • Synonymie (French Wordnet)‏ • Hyponymie/Hyperonymie (French WordNet)‏ Amalia Todirascu

  42. Propriétés pour la classification • Type d'antécédent • Informations morpho-syntaxiques • Position dans la phrase • Fonction syntaxique • autres? Amalia Todirascu

  43. Références • Ailloud, E, Klenner, M (2009) Vers des contraintes plus linguistiques en résolution d de coréférences, TALN 2009 • Cornish, (1998). Les “chaînes topicales” : leur rôle dans la gestion et la structuration du discours, Cahiers de Grammaire, 23 : 19-40. • Dupont M. (2003) Une approche cognitive du calcul de la référence, thèse de l’université de Caen, 308 p. • Lang, J. Qin, B., Liu, T., Li, s. (2009) Unsupervised Coreference Resolution with HyperGraph Partitionning, Computer and Information Science, Vol 2, no 4. • Longo, L, Todirascu, A (2010) RefGen – un module d'identification de chaînes de référence, TALN 2010 Amalia Todirascu

  44. Références (II) • Grosz B.J., Weinstein S., Joshi A.K. (1995), “Centering: a framework for modeling the local coherence of discourse”. Computational Linguistics 21(2), 203-225. • Ng V., Cardie C. (2002). Improving machine learning approaches to coreference resolution. Actes de ACL (Association For Computational Linguistics), Morristown, 104-111. • YANG X., SU J., ZHOU G. & TAN C. (2004). An NP-cluster based approach to coreferenceresolution. Proceedings of COLING'04 Amalia Todirascu

More Related