1 / 39

Une version (très) affaiblie de la compréhension automatique de texte

Extraction d’Informations (EI). Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une t âche précise Des résultats exploitables (80 % des performances humaines). I. Tâche et architecture. BUT : Extraire des informations, factuelles, à partir de textes

demont
Download Presentation

Une version (très) affaiblie de la compréhension automatique de texte

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Extraction d’Informations (EI) • Une version (très) affaiblie de la compréhension automatique de texte • Ciblée sur une tâche précise • Des résultats exploitables (80 % des performances humaines)

  2. I. Tâche et architecture BUT : Extraire des informations, factuelles, à partir de textes • Untype d'informations bien spécifique, • A partir d’untype de textes (corpus « homogène » - textes courts type « dépêches d’agences ») • Une tâche spécifique : constituer des « fiches » (« templates ») rassemblant sous un format relationnel simple les « faits » extraits des textes. Les « MUC » (Message Understanding Conferences): dans les années 90, série de campagnes d’évaluation (US) ayant joué un rôle déterminant dans le progrès des méthodes et des traitements. « On sait ce qu’on cherche, où le chercher, et (à peu près) sous quelle forme »

  3. Exemples de textes et d’informations à extraire Exemple 1 : ( veille technologique) Corpus : Articles de revues sur l'industrie des semi-conducteurs Information extraite : Nature chimique des dépôts, épaisseur des couches, température de dépôts, dépositaires du procédé Exemple 2 : (veille économique) Corpus : articles de journaux [± spécialisés], dépêches d'agences… Information extraite : Joint ventures (MUC 5, 1993) ou autres opérations financières  Mouvements dans la direction des sociétés (MUC 6, 1995)

  4. Exemple 3 : (informations politiques) Corpus : Articles de presse Information extraite : Descriptifs d'attentats terroristes (MUC 3, 1991) Exemple 4 : (informations médicales, épidémiologie) Corpus : C.R. d’hospitalisation Information extraite : pathologie, examens, interventions, résultats (Projet Européen Ménélas)

  5. Exemples de « templates » Exemple 3 : Attentats terroristes (MUC 3, 1991)

  6. Extraction d’information Passer du texte à la base de données (veille technologique, économique…) Opération : nouveau produit Société: Trusted Logic Matériel : Trusted NFC platform Usage : Google Android Opération : nouveau produit Société: ASK Matériel : contactless USB reader Usage : home or desk

  7. Opération : prise de participation Auteur : CDC Entreprise Cible : Nom :OpenPortal Software Activité : Editeur de logiciel Montant : 1,5 MEuros Opération : acquisition Auteur : Nom : Grand Chaix de France Activité : producteur de vins Cible : Nom : Sauvion Activité : Négociant en vins Montant : —

  8. Exemple 2 : Mouvements dans la direction des sociétés (MUC 6, 1995) CHARLOTTE, N.C., Sept. 13 ICNWI ‑ United Dominion Industries Ltd. (NYSE, TSE: UDI), a manufacturer of diversified engineered pro­ducts, today announced the appointment of John G. MacKay, 56, to the newly created position of executive vice president‑Europe. Mr. MacKay, who has been president of United Dominion's Industrial Products Segment, will be responsible for working with various operating units and the corporate staff to enlarge the company's presence in Europe through acquisitions, joint ventures and other strategic alliances. He will be based in Europe at a site to be determined.

  9. MUC‑style templates can be produced in french or english language, from either input text : <SUCCESSION‑EVENT‑c2O97. english.txt‑16> := ORGANIZATION: <ORGANIZATION‑c2O97.english.txt‑43> POST: "executive vice president" PERSON: <PERSON‑c2O97. english.txt‑48> VACANCY‑REASON: OTH‑UNK <ORGANIZATION‑c2O97. english.txt‑43> := NAME: "United Dominion Industries Ltd." ALIAS: "United Dominion" "UDI" TYPE: COMPANY  <PERSON‑c2O97. english.txt‑48> := NAME: "John G. MacKay" ALIAS: "MacKay" TITLE: "Mr."

  10. The system produces identical summaries from both these texts, in English: United Dominion Industries Ltd. appoints John G. MacKay as executive vice president. and in French: United Dominion Industries Ltd. nomme John G. MacKay vice‑président di­recteur.

  11. Chaîne de traitement documentaire • En amont : sélection des textes (dépêches, articles…) pertinents dans un « flux » ou une base documentaire : méthodes de RD. • Traitements linguistiques, remplissage des « templates », stocké dans un format de type BD (en gardant les liens vers les textes d’origine) • Interrogation possible en LN (en utilisant +/- le même analyseur)

  12. Exemple de chaîne de traitements : Scisors

  13. TOP-DOWN Connaissances du domaine, Recherche d’ «éléments pertinents» dans le texte (« attentes ») BOTTOM-UP Analyses linguistiques (syntaxe, sémantique…) FRUMP (1982) Lexique, apprentissage… Patrons d’extraction TACIT LASIE - Généricité + Analyse linguistique : • Adapter le schéma général de la C.A. pour traiter de vrais textes • Combiner approches top-down et bottom-up But: fiches à remplir Texte

  14. Prétraitements - Tokenisation - Correction orthographique - Extraction des entités nommées I Analyse linguistique - Analyse morphologique - Analyse syntaxique - Analyse sémantique - Analyse du discours II Instantiation des formulaires - Identification des entités et événements - Remplissage des champs - Inférences III Schéma général d’un système d’EI « actuel »

  15. II. Méthode « des patrons d’extraction »

  16. Exemple 19 Mars – Une bombe a explosé ce matin près d’une centrale électrique à San Salvador. La charge de forte puissance a gravement endommagé la centrale, plongeant la ville dans le noir pendant plusieurs heures. L’attentat est attribué au FMLN par M. Ramirez, chef de la police de la ville.

  17. Préliminaires :Observation un corpus significatif pour définir le micro-domaine et le format des fiches Type d ’attentat : attentat à l ’explosif Date : 19 Mars 1982 Lieu : pays = El Salvador, Ville = San Salvador Auteur : FMLN Cible humaine : Non Cible physique : centrale électrique Effet : grave Engin explosif : bombe

  18. Types d ’entités : Personnes (fonctions…) Organisations politiques. Bâtiments (installations industrielles…) Engins explosifs et armes (bombes, véhicules piégés…) Lieux géographiques, dates. Evénements : Nature : Attentats Attributs : cible (humaine/physique), instrument, auteur, gravité…

  19. Analyse linguistique • Analyse morphologique (lemme + flexion + catégorie) + Entités nommées (« noms propres » étendus) • Analyse syntaxique et sémantique locale (groupes nominaux) --> Entités • « patrons d ’extraction » --> Evenements • Discours : Coréférence, temps …

  20. Traitement linguistique (1) : Analyse Morphologique ... 19Mars – Unebombe a explosé ce matin, à6:50près d’unecentraleélectriqueà SanSalvador. Lachargedefortepuissance a gravement endommagé lacentrale, plongeant laville dans le noirpendant plusieurs heures. L’attentat est attribué au FMLNpar M. Ramirez, chefdelapolicedelaville.

  21. … et Entités nommées [e.n. Date-jour19Mars ] – Unebombe a explosé ce matin, à[e.n. Date-heure6:50 ]près d’unecentraleélectriqueà [e.n. géo-ville/paysSanSalvador ]. Lachargedefortepuissancea gravement endommagé lacentrale, plongeant laville dans le noirpendant plusieurs heures. L’attentat est attribué au [e.n. acro Orga.pol.FMLN ]par [e.n. pers.M. Ramirez ], chefdelapolicedelaville.

  22. (2) Analyse syntaxique locale : groupes nominaux (entités) [19Mars ] – [gn e1Unebombe] a exploséce matin, à[6:50 ]près d’[gn e2unecentraleélectrique ]à [en e3SanSalvador ]. [gn e4Lachargedefortepuissance] a gravement endommagé [gn e5lacentrale ], …. e1 : bombe e3 : ville e2 : centrale_elect e4 : charge_explosive (qualif : puissance = forte) e5 : centrale_elect

  23. (3) Evénements : Recherche de « Patterns »Un mixte d ’analyse syntaxique et sémantique sélective orientée par le domaine et le but [Unebombe] a explosé ce matin,à[6:50 ]près_d’[unecentraleélectrique ]à [SanSalvador ]. [La charge defortepuissance ] a gravement endommagé [lacentrale ], plongeant laville dans le noirpendant plusieurs heures. Pattern 1 : <engin> <vb : exploser> <prep : près_de> <cible> {<lieu>} <engin> := <gn : bombe, charge, voiture piégée…> <cible> := <cible humaine> | <cible matérielle> <lieu> := prep_loc <e.n. géo>

  24. (3) Evénements : Recherche de « Patterns »Un mixte d ’analyse syntaxique et sémantique sélective orientée par le domaine et le but [Unebombe] a explosé ce matin,à[6:50 ]près_d’[unecentraleélectrique ]à [SanSalvador ]. [La charge defortepuissance ] a gravement endommagé [lacentrale ], plongeant laville dans le noirpendant plusieurs heures. Pattern 2 : <engin> <atteindre> <cible> < atteindre > := <vb : toucher, endommager, atteindre…>

  25. (4) Coréférence [e1Une bombe] a explosé ce matin,à[6:50 ]près_d’[e2unecentraleélectrique]à [e3SanSalvador]. [e4La charge defortepuissance] a gravement endommagé [e5lacentrale], plongeant [e6laville]dans le noirpendant plusieurs heures. e1 = e4 e2 = e5 e3=e6

  26. Etape 3 : Remplissage des Fiches [e1Une bombe] [EV1 a explosé ce matin], à [6:50 ] près_d’ [e2une centrale électrique ] à [e3San Salvador ]. [e1La charge de forte puissance ] [EV2a gravement endommagé] [e2la centrale ], plongeant [e3la ville] dans le noir pendant plusieurs heures. Evénements : Ev1 : exploser, engin = e1, cible : e2, lieu = e3 Ev2 : atteindre, effet : grave, engin = e1, cible : e2 Ev1 = Ev2

  27. Type d ’attentat : attentat à l ’explosif (Ev1) • Date : 19 Mars 1982 • Lieu : pays = El Salvador, Ville = San Salvador (e3) • Auteur : FMLN • Cible humaine : Non • Cible physique : centrale électrique (e3-e5) • Effet : grave (Ev2) • Engin explosif : bombe (e1) • Evénements et entités extraites : • Ev1 : exploser, engin = e1-e4, cible :e2-e5, lieu = e3 • Ev2 : atteindre, effet : grave, engin = e1-e4, cible : e2-e5 • Ev1 = Ev2 • e1 : bombe e2 : centrale_elect e3 : ville • e4 : charge_explosive (qualif : puissance = forte) • e5 : centrale_elect • e1 = e4 e3 = e5

  28. Problème : Acquisition de ressources • Un « goulot d ’étranglement » pour le portage sur de nouveaux corpus/tâches • Outils d’exploration de corpus • Apprentissage de classes sémantiques et de patterns

  29. Idée : élargir les patterns par « similitude » • On part d’un ensemble de motifs pertinents Une bombe a explosé près d’une centrale… Une centrale a été la cible d’un attentat à la voiture piégée… • On utilise des dictionnaires « sémantiques » (word net, Dicologique…) pour repérer des « équivalents » substituables Bombe = charge (explosive) = engin explosif… Installation industrielle hypéronyme de centrale électrique… ==> des patrons de même forme, avec un lexique + riche • On cherche des motifs « similaires » par des « patrons à trous » X a explosé près de Y ==> nouvelles entités engin (X) et cible(Y) Une bombe E ==> nouvel événement E de type « exploser » • Le système fournit un ensemble de « candidats » validés par le développeur

  30. III. Autres architectures • LASIE (Scheffield) : schéma « standard » de la compréhension automatique de texte • Analyse morpho-syntaxique et sémantique => Forme Quasi Logique (QLF) • Constitution des fiches Avantages/désavantages + Généricité - limites des analyses « tout venant » : syntaxe, référence…

  31. TACIT (Caen) : Constats d’accidents automobiles Texte A-11 Le conducteur du véhicule B me doublant par la droite a accroché mon pare-choc avant droit et m’a entraîné vers le mur amovible du pont de Gennevilliers que j’ai percuté violemment. D’après les dires du témoin le conducteur du véhicule B slalomait entre les voitures qui me suivaient. Après m’avoir heurtée, il a pris la fuite et n’a pu être rejoint par le témoin cité.

  32. Texte A-11 Le conducteur du véhicule B me doublant par la droite a accroché mon pare-choc avant droit et m’a entraîné vers le mur amovible du pont de Gennevilliers que j’ai percuté violemment. D’après les dires du témoin le conducteur du véhicule B slalomait entre les voitures qui me suivaient. Après m’avoir heurtée, il a pris la fuite et n’a pu être rejoint par le témoin cité. • Accident A-11 • Impacts: I1,I2 Véhicule V1 Type:— Conducteur: P1 Parties_touchées : <pare_choc, avant, droite> PersonneP1 Identité : Rédacteur A/B: A Véhicule: V1 • Impact I1 • Véhicules: V1,V2 • Autres_entités : — Personne P2 Identité : — A/B: B Véhicule: V2 Véhicule V2 Type: — Conduct: P2 Parties_touchées : — Impact I2 Véhicules: V1 Autres_entités : “ Le mur amovible du pont de Gennevillier ” • Constat et formulaires associés

  33. Méthode : « partial (shallow) parsing » Combinaison : • d’analyses linguistiques génériques « légères » et « sûres »: • Analyse morpho-syntaxique partielle « sûre » (J Vergne) : chunks nominaux, rel. Sujet-Verb (± Verbe-Objet) • Calcul de référence « sûr » : certains pronoms… • et de « ressources » spécifiques du corpus: • schémas actanciels des « verbes de choc » => analyse syntaxico-sémantique restreinte à certaines propositions • Informations sémantiques sur les EN et GN, Métonymie conducteur/véhicule • …. Avantages/désavantages + exploite des analyseurs génériques fiables, et seulement ceux-ci + moins figé que les patrons (+ générique) - certaines étapes « ad hoc »

  34. IV. Bilan, discussion(1) Evaluation • Une nécessité (et un acquis des MUC) • Mesure quantitative des performances Rappel (R) = nombre de réponses (champs slots) correctes / nombre de réponses attendues Précision (P) = nombre de réponses correctes / nombre total de réponses • Meilleurs résultats : R = 50-75% P = 70-85% 70 à 80% des performances humaines Varie selon la complexité des textes et des fiches TACIT : P = 84 % R= 73% F-mesure = 78 %. • A la limite des applications “industrielles”

  35. (2) Améliorations linguistiques • Analyse morphologique et syntaxique (?) • Calcul de la coréférence • Temps (scénarios complexes : trouver la succession des événements, leurs dates…), localisation…

  36. (3) Portage sur de nouvelles applications • Etude du corpus : estimation de faisabilité, caractéristiques exploitables (« homogénéité ») • Constitution de ressources (lexicales, patrons, grammaires spécifiques, customisation d’analyseurs…) • Intérêt d’une analyse linguistique « générique » accompagnée d’une adaptation au corpus.

  37. Site des conférences TAC (Text Analysis Conferences) = ± suite de MUC http://www.nist.gov/tac/publications/2008/index.html • Et site général sur la recherche d’informations (Conférences TREC) http://trec.nist.gov/

More Related