190 likes | 328 Views
IFT6010 TALN. La narration en génération automatique de texte. Pierre -Luc Vaudry 18 décembre 2012. Plan. Génération automatique de texte (NLG) Applications Phases de traitement Narration en NLG Le problème Améliorations R essources à exploiter. Génération de texte (NLG).
E N D
IFT6010 TALN La narrationen génération automatique de texte Pierre-Luc Vaudry 18 décembre 2012
Plan • Génération automatique de texte (NLG) • Applications • Phases de traitement • Narration en NLG • Le problème • Améliorations • Ressources à exploiter
Génération de texte (NLG) • Intelligence artificielle et linguistique informatique • Entrée : données sous forme non linguistique • Connaissance de la langue • Connaissance du domaine • Sortie : texte en langue naturelle • Produit : rapports, messages d'aide, pages web, etc.
Applications de NLG • Rapports et bulletins météorologiques • Description de modèles orientés objet • Lettres personnalisées pour l'arrêt du tabagisme • Résumés par abstraction d'articles de presse • Rapports médicaux à partir de données temporelles discrètes et continues • Dialogue libre dans un jeu vidéo
Phases de traitement en NLG • IA • Dépendant du domaine • Linguistique • Indépendant du domaine
Planification du document • Sélection du contenu • But communicatif, public cible, données disponibles, contraintes de longueur, etc. • Trier les données par importance • Structuration du document • Regroupements • Relations ➝ sélection de contenus reliés • Ordre
Microplanification • Lexicalisation • Unités lexicales • Structures syntaxiques • Génération d’expressions référentielles • Coréférence : anaphores, désignations variées • Deixis : contexte d’énonciation • Aggrégation • Décider quoi factoriser • Comment le factoriser
Réalisation de surface • Réalisation linguistique • Syntaxe • Morphologie • Morphophonologie • Espacement, ponctuation, casse • Text-to-speech • Réalisation de la structure du document • Paragraphes, sections, titres, sous-titres
Narration en NLG • Données temporelles ➝ événements • Présentation des données • Graphique : courbes à interpréter • Textuelle : récit fournit une interprétation • Prise de décision • Texte rédigé par spécialiste > graphique • Particulièrement pour les novices • Texte généré ≈ graphique • Diagnostic : structure narrative déficiente
Améliorer la narration • Situation initiale et situation finale • Acteurs principaux au premier plan • Marqueurs temporels • Détails de mise en contexte • Enchaînement des thèmes (topical flow)
Réalisation de la narration • Sélection du contenu • Structure du document • Marqueurs de relation • Selon les relations découlant de la structure • Structure syntaxique • Actants exprimés et mis au premier plan • Coréférence
Un problème apparenté Génération de scénarios de fiction (Story plot generation) • BD de trames narratives provenant d’histoires existantes • Requête pour créer une nouvelle histoire • Chercher des trames narratives semblables • Modifier et combiner avec BD et ontologie • Générer le texte
Ressources pour l’anglais • RST DiscourseTreebank • Structure hiérarchique (arbre) • Pas de distinction entre les niveaux • Noyau ➝ Satellite • Feuilles : propositions (21,789 EDU) • Penn DiscourseTreebank • Marqueurs de relation explicites (16K) et implicites (20K) • Prédicats discursifs entre deux événements, états ou propositions
Ressource pour le français • Corpus ANODIS • 2 annotations • relations rhétoriques • structures multi-échelles • 4 sources, dont : Est Républicain • Genre brèves, type narratif • 39 articles, 10 000 mots, 250 mots/texte
Utilisation des corpus • Apprentissage automatique • Taille suffisante, généralisation • Marqueurs de relation • Microplanification (sentence planning) • Occurence, sélection, positionnement • Structure narrative • Proposition : modèle de structure discursive • Planification descendante-ascendante
Conclusion • Relations entre événements • Peu d’exemples • Règles du domaine • Ontologie • Marqueurs de relation et structure discursive • Corpus disponibles • Moins dépendants du domaine • Apprentissage automatique possible
Références • A Gatt, E Reiter. (2009). SimpleNLG: A realisation engine for practical applications. Proceedings of the 12th European Workshop on Natural Language Generation. ENLG2009. • A McKinlay, C McVittie, E Reiter, Y Freer, C Sykes, R Logie (2010). Design Issues for Socially Intelligent User-Interfaces: A Qualitative Analysis of a Data-to-Text System for Summarizing Clinical Data. Methods of Information in Medicine, 49:379-387. • F Portet, E Reiter, A Gatt, J Hunter, S Sripada, Y Freer, C Sykes (2009). Automatic Generation of Textual Summaries from Neonatal Intensive Care Data. Artificial Intelligence,173:789-816. • JR Cristy (2011). SimpleNLG Google Code Wiki Tutorial, Appendix A, [https://code.google.com/p/simplenlg/wiki/AppendixA] (consulté le 17 décembre 2012).
Références • P Gervás, B Díaz-Agudo, F Peinado, R Hervás (2005). Story plot generation based on CBR. Knowledge-Based Systems, 18:235-242 • R Prasad, A Joshi, N Dinesh, A Lee, E Miltsakaki, B Webber (2005). The Penn Discourse TreeBank as a Resource for Natural Language Generation. Proceedings of the Corpus Linguistics Workshop on Using Corpora for Natural Language Generation.Birmingham, U.K., July 2005. • L Carlson, D Marcu, ME Okurowski (2001). Building a Discourse-Tagged Corpus in the Framework of Rhetorical Structure Theory. Proceedings of the 2nd SIGDIAL Workshop on Discourse and Dialogue. Eurospeech 2001, Denmark, September 2001. • CLLE-ERSS (2012). Corpus ANODIS. [http://redac.univ-tlse2.fr/corpus/annodis/] (consulté le 18 décembre 2012)