120 likes | 354 Views
Un dérivé de l ’ Extraction d ’ Information Les systèmes de Question/Réponse (Question Answering / Answer Extraction). Tâche : Interroger une base documentaire (web, base « métier »…) pour obtenir des information « on line » Exemples de Requêtes
E N D
Un dérivé de l’Extraction d’InformationLes systèmes de Question/Réponse(Question Answering / Answer Extraction)
Tâche : Interroger une base documentaire (web, base « métier »…) pour obtenir des information « on line » Exemples de Requêtes (1) « Qui est l’auteur de ‘ Annie Hall ’, Quels autres films a-t-il réalisé récemment ? » (2) « Comment fait-on pour changer les droits d’accès (man. Unix) ? que fait la commande ‘tar’ » Corpus Documents sur le Web / Manuels techniques (ou autre docs spécialisés)… Résultat de l ’analyse - La « réponse » (question answering): Woody Allen —Break Point, Vicky Cristina Barcelona - ou : Des phrases ou passages (fenêtres de n mots) contenant la (une) réponse (answer extraction)
Simples : QUI/OU/QUAND • Où est le Taj Mahal ? • Quelle est la population actuelle de Tucson ? • Qui était le premier secrétaire d'Etat de Nixon ? • Listes • Nommer 30 personnes ayant participé au cabinet de G.W. Bush. • Quels sont les acteurs du film Z ? • Nommer 4 pays producteurs de diamants. Différents types de requêtes
Ouvertes • Biographie résumée de Colin Powell (personnage public) ? • nom, surnoms, adresse, date de naissance, formation… • Que savons nous de la société Y ? • structures organisationnelle, lignes de produits, dirigeants… • Comment fait-on pour changer les droits d’accès (man. Unix) ? • que fait la commande ‘tar’ • « Contexte » • Quelle cépage est utilisé dans le Château Petrus ? • combien coûte le cru 1999 ? où le propriétaire a-t-il fait ses études ? • quel domaine possède-t-il en Califormie ? • Combien existe-t-il d'espèces d'araignées ? combien • sont venimeuses ? quel pourcentage de piqûres sont fatales ?
Test1) sur Googlewho directed Annie Hall / les petits mouchoirs, Little BudhaLast palme d’or à CannesPalme d’or in1988Who was the president of usa in 1940?2) Sites spécifiqueshttp://bossy.appspot.com/http://www.wolframalpha.com/http://www.trueknowledge.com/
MéthodesDeux types (± combinées éventuellement) :- type EI : compréhension assez complète de la question et analyse linguistique du textetype RD : appariement basé sur de cooccurrence de mots
Exemple 1 : Méthodes de RD + analyse simple de la question « A question answering System Supported by Information Extraction », R. Srihari, W. Li « Who won the 1998 Peace Nobel Prize » • Pattern : Asking point : PERSON Key words : {won, 1998, Peace,Nobel Prize} • Repérage dans le texte d’un entité PERSON dans un contexte contenant les mots-clés.
Exemple 2 : Analyse plus structurelle de la question et du texte - Reconnaissance de motifs QUALC (B. Grau, LIMSI) Qui a réalisé le Annie Hall ? Entité : Personne « Annie Hall » Connecteur ≈‘ réaliser’ Motif (patron) à reconnaître dans le texte
Exemple 3 : Méthodes proches de la compréhension automatique « Extrans, an answer extraction system », TAL, 41-2, 2000. - Auteurs : D. Molla, R. Schwittler, M. Hess, R. Fournier (Université de Zurich) - Manuels techniques. P. ex. Man Unix : « Comment fait-on pour changer les droits d’accès? que fait la commande ‘cp’ » - Analyse sémantique du texte cp copies files holds(e1) & object(cp, x1) & evt(copy,e1,[x1,x2]) & object(file, x2) - Appariement « logique » avec la question Does cp coies files ? ?- evt(copy,E,[X,Y]) & object(cp,X) & object(file,Y)
Conclusion • Un tâche ambitieuse • Lang Nat • Connaissances • Raisonnement (cf. True Knowledge) • Accéder à l’information faiblement structurée • EI : pour fabriquer de l’information structurée BD, Web Sémantique (RDF, OWL…) – • QA : traiter les Bases Documentaire « comme » une BD • Degré de faisabilité ? Avenir ? Domaines d’application « réalistes » ?
Interrogation « on line » ou remplissage de BdeK ? Question Answering and Information Extraction have been studied over the past decade; however evaluation has generally been limited to isolated targets or small scopes (i.e., single documents). The Knowledge Base Population (KBP) Track at TAC 2010 will explore extraction of information about entities with reference to an external knowledge source. Using basic schema for persons, organizations, and locations, nodes in an ontology must be created and populated using unstructured information found in text. A collection of Wikipedia Infoboxes will serve as a rudimentary initial knowledge representation. (TAC 2010)
Site des conférences TAC (Text Analysis Conferences) = ± suite de MUC http://www.nist.gov/tac/publications/2008/index.html • Document Understanding Conferences (DUC) : entre MUC et TAC : http://duc.nist.gov/ • Et site général sur la recherche d’informations (Conférences TREC) http://trec.nist.gov/