500 likes | 747 Views
Comprendre pour apprendre … et apprendre pour comprendre. Habilitation à Diriger des Recherches de l’Université Paris 11. Brigitte Grau Institut d’Informatique d’Entreprise (IIE) Groupe LIR - LIMSI. Cadre Analyse de texte et apprentissage Question réponse. Compréhension
E N D
Comprendre pour apprendre … et apprendre pour comprendre Habilitation à Diriger des Recherches de l’Université Paris 11 Brigitte Grau Institut d’Informatique d’Entreprise (IIE) Groupe LIR - LIMSI
Cadre Analyse de texte et apprentissage Question réponse Compréhension Apprendre des textes COMPRENDRE • Objectif initial : modéliser la compréhension en profondeur • Compréhension humaine • Modélisation des connaissances et des processus • Connaissances pragmatiques : • Formalismes proposés : schéma, scénarios, etc. • Exemple • Objectif actuel : procéder à une analyse automatique de textes selon les applications • Décomposer le processus de compréhension en différents points de vue sur le texte • Restituer l’information contenue dans les textes
Cadre Analyse de texte et apprentissage Question réponse Compréhension Apprendre des textes Restituer l’information • Quel accès au contenu ? • Savoir de quoi parle un texte : ses thématiques • Résumé automatique, visualisation de texte : résumé dynamique • Exemple de présentation • Trouver une information précise • Question-réponse • Exemple • Adaptation du processus de compréhension à la tâche
Cadre Analyse de texte et apprentissage Question réponse Compréhension Apprendre des textes Comprendre mais aussi apprendre • De l’analyse thématique des textes • Objectif : construire des représentations structurées de connaissances pragmatiques • Réutiliser le résultat des processus de compréhension pour structurer des connaissances sur les situations • De Question-Réponse • Q-R comme un processus itératif de recherche de la connaissance manquante au processus de résolution • Acquisition de relations entre entités • Validation par le résultat du processus : • Réponse correcte ou non
Cadre Analyse de texte et apprentissage Question réponse Compréhension Apprendre des textes Pour apprendre • Les textes comme source de connaissances • Analyse thématique et Question-Réponse pour structurer l’information contenue dans les textes
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Analyse thématique • Savoir • De quoi parle un texte : ses thèmes • Ce qu’il en dit, • Comment il le dit. • Analyse thématique • Segmentation • Identification • Structuration • Adaptation au type de texte • Texte narratif (Attentat) • Texte expositif (Vin jaune)
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Analyse thématique • Fondée sur les propriétés du texte • Cohésion lexicale • Présence de marqueurs linguistiques • Répétition de mots et chaînes anaphoriques • Dépendante des connaissances • Connaissances disponibles ou acquises automatiquement • Réseau de cooccurrences • Marques linguistiques : • Meta-descripteurs • introducteur de cadre (Charolles)
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Segmentation thématique • Méthodes développées • Mesure de la cohésion avec un réseau de cooccurrences • Textes narratifs (SEGCOHLEX, Olivier Ferret) • Méthode mixte (projet REGAL(1)) • Textes expositifs • De type TextTiling (Hearst) : • Pas de ressources utilisées : répétition et répartition des mots • Marques linguistiques • Indiquent des débuts de segment ou des regroupements (1) Projet Cognitique (2000-2003) : CEA (O. Ferret), Lalicc (J.L. Minel), Lattice (M. Charolles)
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique SEGCOHLEX : segmentation par cohésion lexicale • Construction du réseau de cooccurrences • Corpus : 24 mois du journal « Le Monde » (entre 1990 et 1994) • 31 000 lemmes et 7 millions de relations pondérées par la mesure de leur information mutuelle
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique 1,0 1,0 1,0 1,14 1,0 1,0 1,0 1,0 1,0 1,0 1,2 Rupture Calcul de la cohésion Réseau de cooccurrences 0,23 0,43 0,48 0,23 0,32 0,13 0,13 0,21 0,17 0,28 0,22 0,12 0,10 0,11 0,18 Texte 0,2 0,3 0,18 0,14 Fenêtre Valeurs de cohésion Positions
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Exemple : Attentat de MLK Segment 1 Séance de dédicace Segment 2 Attentat Segment 3 Hôpital
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Courbe et segments calculés Pointu Entretenir
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Résultat : Attentat de MLK Segment 1 Séance de dédicace Segment 2 Attentat Segment 3 Hôpital
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique 2 méthodes de structuration • Structure par emboîtement de segments • Projet REGAL • Structure « gros grain » • Exemple • Structure phrase par phrase • DST (Nicolas Hernandez) • Structure « grain fin » • Apprentissage des relations entre 2 phrases • Subordination, coordination, absence de relation • Critères : marques linguistiques, cohésion lexicale, suivi thème-rhème, parallélisme syntaxique • Exemple
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Analyse thématique : Conclusion et perspectives • Typage du rôle rhétorique de segments ou d’énoncés importants • Identification des thèmes • Structure • Faire coopérer analyse globale et locale • Transposer sur les textes narratifs • Visualisation et navigation
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Analyse pour l’apprentissage • Apprentissage : caractéristiques • Automatique • Incrémental et non supervisé • A partir des textes • Garde la relation au texte • Principe d’accumulation • Similarité entre entités • Agrégation de ces entités
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Domaine sémantique Segments/UTLs Agrégation UTL UTL UTL UTL Agrégation Domaine structuré UTS Corpus UTS Verbe->S->Nom Verbe->COD->Nom Verbe->Prep->Nom UTS UTS UTS Mémoire thématique Rosa (Olivier Ferret) Réseau de Cooccurrences Svetlan’ (Gael de Chalendar) Agrégation des UTS d’un même domaine Construction de classes de noms pour un même verbe et une même relation Construction des Domaines Structurés Agrégation des UTLs similaires Lemmes récurrents Domaines sémantiques : ensemble de lemmes pondérés Analyse syntaxique des phrases des segments Unités Thématiques Structurées (UTS) Ensemble de triplets <verbe, relation, nom> Segmentation : lemmes du texte + lemmes inférés Unités Thématiques Lexicales (UTL) Ensemble de lemmes Filtrage des classes selon l’importance des mots dans le domaine
Lemmes du texte Lemmes du texte et lemmes inférés Lemmes inférés Lemmes du texte non segmenté Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Exemple de domaine 1 3 2 4
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Verbe NbOcc Relation Classe Be 24 Sujet Surgery, illness, treatment Provide 35 COD Care, treatment Say 6 COD Nurse, surgery Give 4 COD Care, medication Receive 8 COD Care, treatment, medication Get 11 Sujet Treatment, care Meet 4 COD Physician, care Carry 3 COD Virus, antibody Call 3 Sujet Researcher, patient Exemple de domaine structuré Expérimentations en français et en anglais
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Texte analysé manuellement Calcul de similarité et Aggrégation de graphes MLK Mémoire épisodique Relations causales : D.a -> I.a D.b-> I.b
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique MLK • Base de connaissances sémantiques • Graphes conceptuels • Unités thématiques • Ensemble de graphes conceptuels • Structure en : Circonstances, Description, États incidents • Similarité UT – épisode en mémoire • Tient compte de la structure • Similarité de graphes • Fondée sur l’opération de projection • Agrégation • Fondée sur l’opération de jointure
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Apprentissage et Analyse : Conclusion et perspectives • Analyse conceptuelle automatique des situations • Affiner la délimitation automatique des situations • Représentation des situations fondée sur une base de connaissances sémantique • Résultats de SVETLAN : emplois des verbes contextualisés • WordNet : relations hiérarchiques • VerbNet : structures de cas des verbes • FrameNet : situations et événements • Intégrer ces différentes bases de connaissances • Itérer sur l’apprentissage • Généralisation des événements
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives Analyse robuste de texte pour trouver des réponses à des questions • Processus différents selon : • Domaine ouvert ou domaine de spécialité • Domaine ouvert : démarche analogue à l’analyse thématique • Définition de processus robustes • Utilisation de ressources existantes ou acquises automatiquement • Stratégies différentes selon : • Le type d’information cherché • La ressource interrogée • Les résultats obtenus par chaque processus (à développer) • Évaluation des résultats
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthodes de résolution Résultats et perspectives Patron d’extraction : Personne <poignarder> Henri IV Personne VerbePrincipal Focus NOM de PERSONNE Entité nommée Q Critères syntaxiques : COD sujet COD GN GV GN SUJET Personne <poignarder> Henri IV Prn Aux V NPr Répondre à des questions Question Méthodes Qui a poignardé Henri IV ? … C’est à Paris, rue de la Ferronnerie, qu’Henri IV a rendu son dernier soupir… D’autre part, on peut rappeler que les rues encombrées et étroites du Paris d’avant Haussmann étaient très favorables aux guets-apens. La facilité avec laquelle Ravaillac a pu poignarder Henri IV peut paraître incroyable ! …
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthodes de résolution Résultats et perspectives Critères sémantiques Tuer synonyme Poignarder plus LIEU (VILLE, PAYS, etc) Critères sémantiques Tuer => Mort Rendre son dernier soupir <=> Mourir Répondre à des questions Questions Méthodes Qui a tué Henri IV ? Où a été tué Henri IV ? LIEU dans le contexte … C’est à Paris, rue de la Ferronnerie, qu’Henri IV a rendu son dernier soupir… D’autre part, on peut rappeler que les rues encombrées et étroites du Paris d’avant Haussmann étaient très favorables aux guets-apens. La facilité avec laquelle Ravaillac a pu poignarder Henri IV peut paraître incroyable ! …
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthodes de résolution Résultats et perspectives Variations question vs passage-réponse • Analyse des questions • Extraction de caractéristiques de la réponse • Analyse des passages • Entités nommées • Variation au niveau des termes • Règles de réécritures de Fastr (C. Jacquemin) • Variation au niveau des phrases • Patrons d’extraction ayant le focus de la question en élément pivot • Grammaires locales utilisant Scol (Abney) • Evaluation de paraphrases (A.L. Ligozat et V. Barbier) • Validation par le Web
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives Systèmes monolingues • QALC : anglais • Evalué à Trec de 1998 à 2001 • 30-35% de réponses correctes • 2 fois dans les 10 premiers • 5 réponses longues : 6ème • 1 réponse courte : 9ème • FRASQUES : français • Projet Technolangue EVALDA (2004): • EQueR : 1ère évaluation sur le français • 5 réponses • Résultats à EQueR • 2 et 3ème selon la tâche • 45% réponses longues • 30% réponses courtes
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives Question-Réponse multilingue • Question en français – réponse en anglais • Indispensable sur le Web • Variation supplémentaire • Traduction des termes : choix de la traduction correcte • Validation par les bi-termes • MUSQAT : évaluation à CLEF • 20% des réponses • Parmi les premiers • 1er système : 25% des réponses
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives Question-Réponse : Projet CONIQUE(1) • 3 axes : • Justification des réponses trouvées • Vérification de la présence de toutes les informations données dans la question • Acquisition de relations pour l’inférence • Dépendante du contexte • Catégorisation des réponses données à l’utilisateur • Présentation interactive des résultats - Navigation • Résolution itérative • Les textes comme source de connaissances : • Recherche de relations dans les textes à partir de leur expression en langue (1) Projet ANR non thématique (2006-2009) : CEA (O. Ferret) et Lallic (J.L. Minel)
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives Justification de la réponse coureur espagnol Quel coureur espagnol a gagné une étape du tour de France en 2003 ? Pablo Lastras Justification : 25 juillet 2003 – Pablo Lastrasa remporté la 18e étape du Tour de Francecycliste, vendredi, entre Bordeaux et Saint-Maixent-L'École. Vendredi 15 août 2003 Les cinq étapes du Tour de Burgos 2003 ont été remportées par cinq coureurs différents : Carlos Garcia Quesada, José Vicente Garcia Acosta, Dave Bruylandts, David Millar (CLM) et enfin Gorka Gonzalez Larranaga, qui remporte dans la dernière étape sa première victoire chez les professionnels. La victoire finale revient au coureur le plus régulier, l'EspagnolPablo Lastras, qui s'était distingué durant le Tour de France en remportant la 18e étape.
Perspectives Bilan Bilan
Perspectives Bilan Conclusion • Modéliser un continuum entre processus et structuration des connaissances • Stratégie d’application de processus • Évaluation automatique de leurs performances • Construire une plate-forme d’expérimentation et d’évaluation
Ses propriétés Une situation Réparer un véhicule Rôles : personne, outil, véhicule Rôles Conditions: Véhicule en panne Véhicule = rôle (véhicule) Evénements Connaître la mécanique Agent = rôle (personne) Relations causales Description Trouver panne 1 Relations temporelles Agent = rôle (personne) 1.Résultat = pièce Démonter pièce Inférence 2 Réparer pièce 3 Structuration Remonter pièce 4 Agent = rôle (personne) Pièce = 1.résultat Résultat Véhicule fonctionne Véhicule = rôle (véhicule)
Un graphe de schémas Remettre en état entité Avoir profession Réparer objet Soigner être-animé Etre garagiste Réparer véhicule Réparer objet-mécanique Connaître mécanique Sorte-de Trouver panne Réparer pièce Fait appel-à • Pas de méthode pour élaborer et organiser les connaissances • Quel niveau de granularité, quels regroupements ? • Quelle structure hiérarchique ?
Exemple d’exploration d’un texte Thème général : vin jaune
Thème global: vin Thème local: goût, noisette Meta-descripteurs : caractéristique Exemple d’exploration d’un texte Thème global : Thème général : vin jaune vin Thème local : mélange, composé Meta-descripteurs : analyse, technique
Exemple d’exploration d’un texte Thème global: Thème général : vin jaune vin Thème local: mélange, composé Meta-descripteurs : analyse, technique Thème global : vin Thèmes local : goût, noisette Méta-descripteureurs : caractéristique
Réponse Justification de la réponse Question-réponse Quel coureur espagnol a gagné une étape du tour de France en 2003 ? Pablo Lastras Justification : 25 juillet 2003 – Pablo Lastrasa remporté la 18e étape du Tour de Francecycliste, vendredi, entre Bordeaux et Saint-Maixent-L'École.
Structuration fine de texte DST – type de relations (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës.
(3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. Structuration fine de texte DST – Types de relations (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Subordination (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Coordination Structure construite (1) (2) (3) (4)
Structuration descendante de texte REGAL - Principe de structuration • Repérage de structures emboîtées[Masson, 1998] Algorithme • Recherche des 2 segments non-consécutifs les plus liés • Application récursive pour les segments englobés ou non englobés restant • Digressions, développements d’aspects particuliers • Fréquent dans textes expositifs
Compréhension de ce dont parle un texte Analyse thématique Texte expositif Les sujets (ex. Analyse thématique) Leur description - hypothèses - méthodes - résultats Leur structure Texte narratif Les situations (ex. Dédicace, Attentat) Leur description - conditions - description - conséquences Leur structure Connaissances Forme (du texte, marques de surface) Syntaxe (phrase) Lexico-sémantico-pragmatiques - lexique - ontologie - réseau de cooccurrences - domaines - schémas Méthodes : Selon connaissances disponibles : - Cohésion lexicale - Analyses de surface - Inférences Représentation du texte (des thèmes) + ou - structurée selon structuration des connaissances
Compréhension de ce dont parle un texte Analyse thématique Acquisition (partielle) - à partir de textes - en contexte - reste en relation avec la source Méthodes : - similarité et agrégation Connaissances Forme (du texte, marques de surface) Syntaxe (phrase) Lexico-sémantico-pragmatiques - lexique - ontologie - réseau de cooccurrences Méthodes : - Cohésion lexicale - Analyse de surface - Inférences - domaines - classes de noms/verbe - schémas Représentation du texte (des thèmes) + ou - structurée selon structuration des connaissannces - analyse distributionnelle - abstraction
Thèmes Structure rhétorico-thématique Introduction Résumé Résumé Méthodes existantes Résumé par extraction Résumé par extraction Définition Exemple Définition Exemple Résumé par abstraction Résumé par abstraction Méthode proposée Résumé parsélection et génération Résumé par sélection et génération
Ses propriétés Une situation Réparer un véhicule Rôles : personne, outil, véhicule Rôles Conditions: Véhicule en panne Véhicule = rôle (véhicule) Evénements Connaître la mécanique Agent = rôle (personne) Relations causales Description Trouver panne 1 Relations temporelles Agent = rôle (personne) 1.Résultat = pièce Démonter pièce Inférence 2 Réparer pièce 3 Structuration Remonter pièce 4 Agent = rôle (personne) Pièce = 1.résultat Résultat Véhicule fonctionne Véhicule = rôle (véhicule)