280 likes | 461 Views
Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR. Brigitte Grau (LIR – LIMSI). Base de connaissances factuelles et encyclopédi-ques. Collection de documents répertoriés. Web. Recherche d’information précise. Besoin particulier :
E N D
Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR Brigitte Grau (LIR – LIMSI)
Base de connaissances factuelles et encyclopédi-ques Collection de documents répertoriés Web Recherche d’information précise • Besoin particulier : • requête précise : une question en langage naturel • Granularité de la réponse : "passage retrieval" Qui a tué Henri IV ?
SUJET SUJET COD COD Pers <poignarder> Henri IV Tuer synonyme de poignarder Tuer => mort = rendre son dernier soupir ou Ville dans le contexte Extraction à partir de textes … C’est à Paris, rue de la Ferronnerie, qu’Henri IV a rendu son dernier soupir… D’autre part, on peut rappeler que les rues encombrées et étroites du Paris d’avant Haussmann étaient très favorables aux guets-apens. La facilité avec laquelle Ravaillac a pu poignarder Henri IV peut paraître incroyable ! … Qui a poignardé Henri IV ? Qui a tué Henri IV ? Où a été tué Henri IV ?
Différents composants Traitement des documents Extraction de la réponse Analyse des questions Sélection de passages ou de phrases Analyse des phrases Extraction des réponses Evaluation des réponses Etiquetage morpho-syntaxique Analyse syntaxique Désambiguation Typage des réponses Choix de mots pivots Reconnaissance des entités nommées Sélection de documents ou de passages Moteur de recherche Constitution de la requête
Approche linguistique • Composants concernés • Détermination du type de réponse : • Des entités nommées classiques à des catégories spécialisées • Reformulation Web • Ecriture de patrons d’extraction liés au type d’information cherché • De patrons très figés à des règles de reformulation • Appariement de représentations de phrase (question/phrases candidates) • Fondée sur : • Etiquetage morpho-syntaxique • Segmentation en groupe • Analyse syntaxique • Analyse sémantique
Approches statistiques et apprentissage • Composants concernés • Sélection des documents • Sélection de passages • Apprentissage de patrons d’extraction • Evaluation de la réponse • Un degré de confiance
Connaissances • Lexiques spécialisés pour entités nommées • Bases de connaissances spécialisées • Connaissances sémantiques générales • Sources • WordNet pour l’anglais • Pour le français ? • Connaissances • Relations de dépendances hiérarchiques • Relations de synonymie • Règles de déduction : modélisation des définitions WordNet
Evaluations existantes • Etats-Unis : TREC • Tâche Q/A depuis TREC8 (1999) • Europe : CLEF • Tâche Q/A depuis 2003, analogue à Trec • Multilingue • Japon : NTCIR • Tâche Q/A depuis 2003, analogue à Trec • France : EQuER • Campagne en 2004
Que doit-on évaluer ? La justesse de la réponse La concision et la complétude • Ne pas trop en dire, mais dire tout ce qui est nécessaire La pertinence de la réponse • La réponse peut être différente selon le contexte L’interaction avec l'utilisateur Le temps de réponse La facilité d'utilisation du système =
EQueR • Organisateur : ELDA (Paris) • Responsable scientifique : Brigitte Grau (LIMSI) • Fournisseurs de corpus et d’outils : • ELDA : corpus général • CISMEF : corpus médical • Systal / Pertimm : moteur de recherche • Participants : • 3 institutions privées : France Télécom, Sinequa, Synapse • 5 laboratoires publics : • Limsi-CNRS, LIA & iSmart, STIM / AP-HP, CEA, Université de Neuchâtel
Présentation générale • Objectifs • Faire une photographie de l’état de l’art en France • Permettre le développement de l’activité en fournissant des corpus aux chercheurs • Trois tâches étaient prévues • Tâche « généraliste » • Tâche « spécialisée », domaine spécifique (médical) • Tâche « généraliste » Web abandonnée • 2 types de réponses • passages de 250 caractères • réponses courtes
Les corpus de documents • Corpus « général » • 1,5 Go environ (constitution ELDA) • Articles, dépêches de presse et rapports institutionnels • Le Monde (1992-2000) • Le Monde Diplomatique (1992-2000) • SDA (Schweitzeriche Depeschenagentur (1994-1995) • Le Sénat (1996-2001) • Corpus « médical » • 50 Mo environ (constitution CISMEF/STIM) tirés des sites Web • Articles scientifiques du domaine médical, recommandations • Santé Canada • Orphanet • CHU Rouen • FNLCC (Fédération Nationale de Lutte Contre le Cancer)
500 questions générales 407 questions factuelles Qui a écrit Germinal ? Emile Zola 31 questions de type liste Quels sont les 7 pays du G7 ? Allemagne, Canada, Etats-Unis, France,Grande-Bretagne, Italie et Japon 32 questions de type définition Qui est Alexander Popov ? Nageur russe 30 questions de type oui/non Existe-t-il une ligne de TGV Valenciennes-Paris ? OUI 200 questions médicales 81 questions factuelles Citer un traitement de la schyzophrénie. La neurochirurgie 25 questions de type liste Quels sont les 4 stades du cancer de l’ovaire ? 70 questions de type définition 24 questions de type oui/non Le mercure est-il un métal toxique ? OUI Corpus de questions Taux fixé pour chaque type de question Selon les sources : extraction de balises de mots-clés ou de titres
Déroulement de l’évaluation • Distribution des corpus de documents • Tests des systèmes sur 1 semaine • Distribution des questions et des documents fournis par Pertimm pour chacune • Envoi des résultats (2 runs par tâche) • Nombre de réponses permises • Maximum 5 pour questions factuelles et de type définition • 1 pour questions de type oui/non • Maximum 20 pour les questions de type liste • Evaluation des résultats par des juges humains • 2 juges par run • Un spécialiste pour tâche médicale • 4 valeurs : correct, incorrect, inexact, non justifié
Mesures • 2 métriques utilisées : • MRR : Moyenne de l’inverse du Rang (Mean Reciprocal Rank) • Questions « factuelles » simples. • Questions dont la réponse est une « définition ». • Questions dont la réponse est « oui/non ». • NIAP : Précision moyenne (Non Interpolated Average Precision) • Questions dont la réponse est une « liste ».
Résultats (1) • Tâche générale • 7 participants • Tâche spécialisée • 5 participants
Comparaison avec l’existant • Comparaison : • 5 Réponses courtes • TREC10 (2001) • NTCIR (2003) • Meilleur système actuel sur l’anglais : • 83% de réponses correctes avec 1 seule réponse fournie (TREC11)
Bilan • Constitution d’un ensemble de données • Ensemble des spécifications de la campagne, corpus, outils et résultats. • But : • Permettre à n’importe quel industriel ou académique de faire tourner son système dans des conditions identiques afin de pouvoir évaluer lui-même son système.
Pour aller plus loin • Pour améliorer les systèmes de question-réponse • Selon les questions, différentes stratégies possibles • Maîtriser la difficulté des questions • Savoir quelle approche est meilleure qu’une autre pour chaque composant • Connaître l’impact d’un composant sur le résultat final • Question-réponse comme évaluation de processus par la tâche • Exemples : Entité Nommée, résolution d’anaphore, analyse syntaxique
Différents types de questions (1) Moldovan, D., Pasca M., Harabagiu S., Surdeanu M., “Performance Issues and Error Analysis in an Open-Domain Question Answering system”, ACM transactions on Information Systems (TOIS), 2003 • Réponse factuelle • La réponse est extraite telle quelle ou moyennant quelques variations morphologiques simples. • Une approche mot-clés peut alors tout à fait convenir. • Réponse issue d’un raisonnement simple • La réponse est extraite d’un court passage toujours mais amène à recourir à des connaissances sémantiques pour gérer des variations ou élaborer un raisonnement simple. • Exemple : • Comment est mort Socrate ? • En buvant du vin empoisonné -> faire le lien entre mort et empoisonner.
Différents types de questions (2) • Fusion de réponses • Les éléments de réponses sont répartis sur plusieurs documents • Il s’agit de les assembler en un tout cohérent. • Cela peut aller de simples listes à la constitution de modes d’emploi. • Interaction à gérer • Questions s’enchaînant dans un même contexte, relatif à la première question -> TREC9 • Raisonnement par analogie • Les réponses ne sont pas explicites dans les documents • Entraînent la décomposition en plusieurs questions et leur interprétation par analogie aux faits existant.
Evaluation des composants d’un système • Etablir des cadres d’évaluation systématiques, voire des plates-formes • Permettrait le développement et l’évaluation de processus sans avoir à développer un système complet • Approfondissement du principe consistant à fournir les documents aux participants
Conclusion • EQueR : évaluation sur le français • 7 participants • CLEF : depuis 2004, évaluation monolingue sur le français • 4 participants en 2005, plus que les autres langues • Originalité d’EQueR • A gardé la tâche évaluation de passage • Réintroduit à TREC 2005 • Introduction de questions booléennes • Similitudes avec l’évaluation « Recognizing Textual entailment » du réseau Pascal • Introduction d’une tâche spécialisée • Poursuivre EQueR à CLEF ?