1 / 19

La narration en génération automatique de texte

IFT6010 TALN. La narration en génération automatique de texte. Pierre -Luc Vaudry 18 décembre 2012. Plan. Génération automatique de texte (NLG) Applications Phases de traitement Narration en NLG Le problème Améliorations R essources à exploiter. Génération de texte (NLG).

marli
Download Presentation

La narration en génération automatique de texte

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. IFT6010 TALN La narrationen génération automatique de texte Pierre-Luc Vaudry 18 décembre 2012

  2. Plan • Génération automatique de texte (NLG) • Applications • Phases de traitement • Narration en NLG • Le problème • Améliorations • Ressources à exploiter

  3. Génération de texte (NLG) • Intelligence artificielle et linguistique informatique • Entrée : données sous forme non linguistique • Connaissance de la langue • Connaissance du domaine • Sortie : texte en langue naturelle • Produit : rapports, messages d'aide, pages web, etc.

  4. Applications de NLG • Rapports et bulletins météorologiques • Description de modèles orientés objet • Lettres personnalisées pour l'arrêt du tabagisme • Résumés par abstraction d'articles de presse • Rapports médicaux à partir de données temporelles discrètes et continues • Dialogue libre dans un jeu vidéo

  5. Phases de traitement en NLG • IA • Dépendant du domaine • Linguistique • Indépendant du domaine

  6. Planification du document • Sélection du contenu • But communicatif, public cible, données disponibles, contraintes de longueur, etc. • Trier les données par importance • Structuration du document • Regroupements • Relations ➝ sélection de contenus reliés • Ordre

  7. Microplanification • Lexicalisation • Unités lexicales • Structures syntaxiques • Génération d’expressions référentielles • Coréférence : anaphores, désignations variées • Deixis : contexte d’énonciation • Aggrégation • Décider quoi factoriser • Comment le factoriser

  8. Réalisation de surface • Réalisation linguistique • Syntaxe • Morphologie • Morphophonologie • Espacement, ponctuation, casse • Text-to-speech • Réalisation de la structure du document • Paragraphes, sections, titres, sous-titres

  9. Narration en NLG • Données temporelles ➝ événements • Présentation des données • Graphique : courbes à interpréter • Textuelle : récit fournit une interprétation • Prise de décision • Texte rédigé par spécialiste > graphique • Particulièrement pour les novices • Texte généré ≈ graphique • Diagnostic : structure narrative déficiente

  10. Améliorer la narration • Situation initiale et situation finale • Acteurs principaux au premier plan • Marqueurs temporels • Détails de mise en contexte • Enchaînement des thèmes (topical flow)

  11. Réalisation de la narration • Sélection du contenu • Structure du document • Marqueurs de relation • Selon les relations découlant de la structure • Structure syntaxique • Actants exprimés et mis au premier plan • Coréférence

  12. Approche ascendante insuffisante

  13. Un problème apparenté Génération de scénarios de fiction (Story plot generation) • BD de trames narratives provenant d’histoires existantes • Requête pour créer une nouvelle histoire • Chercher des trames narratives semblables • Modifier et combiner avec BD et ontologie • Générer le texte

  14. Ressources pour l’anglais • RST DiscourseTreebank • Structure hiérarchique (arbre) • Pas de distinction entre les niveaux • Noyau ➝ Satellite • Feuilles : propositions (21,789 EDU) • Penn DiscourseTreebank • Marqueurs de relation explicites (16K) et implicites (20K) • Prédicats discursifs entre deux événements, états ou propositions

  15. Ressource pour le français • Corpus ANODIS • 2 annotations • relations rhétoriques • structures multi-échelles • 4 sources, dont : Est Républicain • Genre brèves, type narratif • 39 articles, 10 000 mots, 250 mots/texte

  16. Utilisation des corpus • Apprentissage automatique • Taille suffisante, généralisation • Marqueurs de relation • Microplanification (sentence planning) • Occurence, sélection, positionnement • Structure narrative • Proposition : modèle de structure discursive • Planification descendante-ascendante

  17. Conclusion • Relations entre événements • Peu d’exemples • Règles du domaine • Ontologie • Marqueurs de relation et structure discursive • Corpus disponibles • Moins dépendants du domaine • Apprentissage automatique possible

  18. Références • A Gatt, E Reiter. (2009). SimpleNLG: A realisation engine for practical applications. Proceedings of the 12th European Workshop on Natural Language Generation. ENLG2009. • A McKinlay, C McVittie, E Reiter, Y Freer, C Sykes, R Logie (2010). Design Issues for Socially Intelligent User-Interfaces: A Qualitative Analysis of a Data-to-Text System for Summarizing Clinical Data. Methods of Information in Medicine, 49:379-387. • F Portet, E Reiter, A Gatt, J Hunter, S Sripada, Y Freer, C Sykes (2009). Automatic Generation of Textual Summaries from Neonatal Intensive Care Data. Artificial Intelligence,173:789-816. • JR Cristy (2011). SimpleNLG Google Code Wiki Tutorial, Appendix A, [https://code.google.com/p/simplenlg/wiki/AppendixA] (consulté le 17 décembre 2012).

  19. Références • P Gervás, B Díaz-Agudo, F Peinado, R Hervás (2005). Story plot generation based on CBR. Knowledge-Based Systems, 18:235-242 • R Prasad, A Joshi, N Dinesh, A Lee, E Miltsakaki, B Webber (2005). The Penn Discourse TreeBank as a Resource for Natural Language Generation. Proceedings of the Corpus Linguistics Workshop on Using Corpora for Natural Language Generation.Birmingham, U.K., July 2005. • L Carlson, D Marcu, ME Okurowski (2001). Building a Discourse-Tagged Corpus in the Framework of Rhetorical Structure Theory. Proceedings of the 2nd SIGDIAL Workshop on Discourse and Dialogue. Eurospeech 2001, Denmark, September 2001. • CLLE-ERSS (2012). Corpus ANODIS. [http://redac.univ-tlse2.fr/corpus/annodis/] (consulté le 18 décembre 2012)

More Related