Technolangue Campagnes d’Evaluation (EVALDA)

Technolangue Campagnes d’Evaluation(EVALDA) Khalid CHOUKRI ELRA/ELDA (choukri@elda.org) http://www.technolangue.net http://www.elda.org/rubrique69.html

Objectif du projet Evalda Descriptif des campagnes Synergie entre campagnes et apports Conclusion (Panel) Présentation disponible sur www.technolangue.net EVALDA / Plan

EVALDA / Définition Le consortium propose la constitution d’une infrastructure d'évaluation des systèmes d'ingénierie linguistique du français, pérenne et permanente, et son exploitation par la mise en œuvre de plusieurs expérimentations

EVALDA / Infrastructure

EVALDA / Objectifs (1/3) • Mise en place de “briques” réutilisables • organisation, logistique, ressources linguistiques, métriques et outils, … des acteurs (comités scientifiques, experts, partenaires…). • Garantir une indépendance et une neutralité • Optimiser la synergie et la rationalisation .. Planning ressources réflexions (économie d’échelle) • garantir la possibilité de capitaliser les résultats des différentes expérimentations

EVALDA / Objectifs (2/3) • L’infrastructure devra comprendre plusieurs pôles : • un pôle recherche et méthodes • un pôle d’élaboration des protocoles, des métriques et des outils d’évaluation • un pôle de production et de validation des ressources linguistiques • un pôle coordination pour la gestion et le suivi des campagnes • un pôle logistique • un pôle de pérennisation pour assurer la capitalisation des connaissances, des outils et des ressources accumulés.

EVALDA / Partenaires AFCP ENST LIDILEM Tagmatica APIL EPFL Lille3-CERSATES TELIP ATALA ERSS LIMSI U-Maine ATILF-ILF FT R&D Lingway U-Mons Bell Labs GREYC LLF U-Neuchâtel CISMEF-Rouen ICP LORIA VALORIA CRIM IMS LPL VECSYS CRIS INRIA Multitel XEROX CRISCO IRISA RALI DELIC IRIT Sinequa DFKI iSmart Softissimo DGA LATL STIM-AP/HP ELAN LIA Synapse ELDA LIC2M Systran

I. Objectifs en plus de l’état de l’Art 1. Pérenniser les produits Créer une/des plate-forme(s) d’évaluation des technologies linguistiques qui soit réutilisable au-delà d’EVALDA. Constituer une base de ressources utiles en-dehors d’EVALDA. 2. Créer des synergies entre les différentes campagnes EVALDA Partager et réutiliser les ressources et les outils développés originellement pour une campagne dans d’autres campagnes. Partager les efforts et l’expertise mise en œuvre et générée. 3. Créer des synergies à l’extérieur d’EVALDA e.g. Technovision? FP6 Partager des ressources créées dans EVALDA avec d’autres projets. Réutiliser dans EVALDA des ressources crées dans d’autres projets. Intégrer les outils créés dans EVALDA dans un cadre de développement plus large. EVALDA / Objectifs (3/3)

EVALDA / Les thèmes • l'oral : • la synthèse vocale, • les transcriptions d'émissions d'actualité, • le dialogue (pour des serveurs d'information orales type renseignements touristiques). • l'écrit : • les analyseurs syntaxiques, • la tâche question-réponse en recherche d’information, • l’alignement de corpus multilingues • la traduction automatique. • Nécessité de trouver des sous-thèmes transversaux

I. Campagnes d’évaluation EVALDA 1. ARCADE II :Evaluation de systèmes d’alignement de corpus bilingues 2. CESART :Evaluation de systèmes d’extraction de terminologie 3. CESTA :Evaluation de systèmes de traduction automatique 4. EASy : Evaluation de systèmes d’annotation syntaxique 5. EQueR :Evaluation de systèmes de question-réponse 6. ESTER :Evaluation de systèmes de transcription automatique d’émissions radiodiffusées 7. EVASy :Evaluation de systèmes de synthèse de la parole 8. MEDIA :Evaluation de systèmes de dialogue en contexte et hors-contexte EVALDA / Les campagnes

I.1. Campagne d’évaluation ARCADE II (1/2) EVALDA / ARCADE II • Objectifs : • identifier les évolutions récentes de l’état de l’art de l’alignement multilingue. • approfondir l’évaluation sur un large éventail de langues, incluant les langues à écriture non-latine. Participants : 5 laboratoires publics et 2 industriels • Tâche T1 : Alignement phrastique • 5 participants • 2 groupes des langues dont 5 langues à écriture latine (allemand, anglais, espagnol, français, italien) et 6 langues à écriture non-latine (arabe, chinois, grec, japonais, persan, russe) • 2 types des corpus parallèles alignés au français (avec ou sans segmentation en phrases) • 5 millions de mots (1 million pour chaque des langues à écriture latine) ; 550 articles (150x2 arabe-fr ; 50x2 pour les 5 autres langues à écriture non-latine) • Tâche T2 : Traduction d’entités nommées • 3 participants • 30x2 articles français annotés en EN (Monde Diplomatique) et les textes parallèles en arabe • 4000 entités nommées en français à traduire en arabe

I.1. Campagne d’évaluation ARCADE II (2/2) Innovation – Intérêt : - Recherche : - ouverture à de nouvelles langues, notamment à écriture non-latine ; - nouvelle tâche spécifique qui est traduction d’entités nommées français et arabe - Industrie : - absence de projet concurrent à l’heure actuelle ; - avancée technologique et méthodologique dans l’évaluation de l’alignement multilingue Ressources et Outils issus de la campagne : - La mise au point de corpus de textes parallèles alignés d’une taille importante et portant sur un éventail de langues très important, dont diverses langues à de différentes écritures - La mise à disposition des participants du logiciel d’alignement Unicode AligneEd EVALDA / ARCADE II

I.2. Campagne d’évaluation CESART (1/2) EVALDA / CESART • Objectifs : • élaborer un nouveau protocole pour l'évaluation de systèmes d'acquisition de ressources terminologiques • produire des ressources réutilisables sous la forme d’un « package » d’évaluation Participants : 3 laboratoires publics et 2 industriels • Tâche T1 : Extraction de candidats termes • 4 participants • 3 domaines spécialisés (médecine, éducation, politique) • 1 corpus médical (CISMeF) de 9 millions de mots français ; 1 corpus de l’éducation (SPIRAL) de 535.000 mots français ; 1 corpus politique (JOC) 240.000 mots français • Tâche T3 : Extraction de relations • 1 participant • 3 corpus de domaines spécialisés • 3 thésaurus des domaines définis • 3 listes de termes amorces

I.2. Campagne d’évaluation CESART (2/2) Innovation – Apport : - Prise en compte des critères d’évaluation basés sur l’application (utilisateur) - Évaluation automatique (quantitative) + évaluation humaine (qualitative) Ressources et Outils issus de la campagne : - Collection de textes médicaux extraits du site de Santé-Canada - Collection de textes de l’éducation provenant de la revue scientifique Spirale - Listes des termes amorces de domaines spécialisés EVALDA / CESART

I.3. Campagne d’évaluation CESTA (1/2) Objectifs : - Alimenter l’activité de recherche dans le domaine en fournissant une photographie de l’état de l’art en France. - Permettre le développement de cette activité en fournissant des corpus aux chercheurs Participants : 5 systèmes industriels et 2 académiques Deux campagnes : une campagne sur un vocabulaire non restreint, une campagne sur un domaine spécialisé (évaluation après enrichissement terminologique) Première campagne :- 2 corpus anglais et arabe de 20.000 mots + 200.000 mots de masquage - 2 traductions de référence en français Seconde campagne :- même quantité de données que la première campagne - enrichissement terminologique à partir d’un corpus de développement EVALDA / CESTA

I.3. Campagne d’évaluation CESTA (2/2) Innovation – Apports : - Nouvelles paires de langues anglaisfrançais et arabefrançais - Expérimentation de nouvelles métriques d’évaluation - Méta-évaluation de métriques automatiques - Plates-formes d’évaluation humaine et automatique Ressources et Outils issus de la campagne : - Corpus français de 13.000 mots étiqueté fluidité et adéquation - Corpus anglais-français et arabe-français alignés de 20.000 mots chacun - Corpus anglais-français et arabe-français alignés de 20.000 mots chacun sur un domaine spécialisé - Plate-forme d’évaluation pour des jugements humains - Plate-forme d’évaluation automatique - Développement de deux nouvelles métriques automatiques EVALDA / CESTA

I.4. Campagne d’évaluation EASy (1/2) Objectifs :- Création d'une méthodologie d'évaluation des analyseurs syntaxiques - Développement des outils d’évaluation des résultats - Création à faible coût d'une ressource linguistique validée Participants :2 coordinateurs, 5 fournisseurs de corpus, 13 participants Corpus :- 1 million de mots - 6 types de corpus issus de sources hétérogènes : - médical (105 kmots) - littéraire (275 kmots) - méls (120 kmots) - général (260 kmots) - transcriptions de l’oral (100 kmots) - questions (140 kmots) 2 types d’évaluation : - constituants - relations de dépendances EVALDA / EASy

I.4. Campagne d’évaluation EASY (2/2) Innovation – Apports : - De nombreux participants - Constitution d’un corpus de 1 million de mots annoté en constituants et en relations syntaxiques. Ressources et Outils issus de la campagne : - Collection de textes français étiquetés syntaxiquement couvrant 6 domaines : médical, littéraire, emails, général, oral et questions 1 million de mots - Outils et Guide détaillé pour les annotations - Outils d’évaluation (en constituants et en relations) - Outil de visualisation des constituants et des relations EVALDA / EASy

I.5. Campagne d’évaluation EQueR (1/2) Objectifs : - Alimenter l’activité de recherche dans le domaine en fournissant une photographie de l’état de l’art en France. - Permettre le développement de cette activité en fournissant des corpus aux chercheurs Participants : 5 laboratoires publics et 3 institutions privées Deux tâches : une tâche générique (7 participants) et une tâche spécialisée (5 participants) Tâche générique :- 1,5 Go collection hétérogènes de textes (articles de presses LM, LMD, SDA, Sénat) - 500 questions (factuelle, définition, liste, oui/non) Tâche spécialisée :- 140 Mo collection de textes liés au domaine médical (articles scientifiques, recommandations de bonnes pratiques médicales - 200 questions (factuelle, définition, liste, oui/non) EVALDA / EQueR

I.5. Campagne d’évaluation EQueR (2/2) Innovation – Apports : - Participants : - De nouveaux participants qui n’avaient jamais fait d’évaluation Q-R auparavant. - Beaucoup d’équipes françaises en comparaison avec le nombre de participants européens à CLEF. - Evaluation : - Tâche « Question-réponse » sur un corpus spécialisé. - Un nouveau type de questions : oui/non. Ressources (R) et Outils (O) issus de la campagne : - Collection de textes français, 1,5 Go (articles de presse). R - Collection de textes français issus du domaine médical, 140 Mo (articles scientifiques, recommandations). R - Corpus « général » de 500 questions en français. R - Corpus « médical » de 200 questions en français. R - Logiciel d’aide à l’évaluation des résultats dans le cadre d’une évaluation de systèmes de question-réponse O - Logiciel d’évaluation automatique (en cours de développement) O EVALDA / EQueR

I.6. Campagne d’évaluation ESTER (1/2) Objectifs : -promouvoir une dynamique de l'évaluation en France - mettre en place une structure pérenne d'évaluation - production et diffusion des ressources linguistiques importantes - mesurer et faire progresser les performances des systèmes Participants : - 11 laboratoires publics - 2 institutions privées Trois tâches : - Transcription orthographique (+ catégorie temps réél) - Segmentation (en événements sonores, en locuteurs, suivi de locuteurs) - Extraction d’informations (détection d’entités nommées) EVALDA / ESTER

I.6. Campagne d’évaluation ESTER (2/2) Innovation – Apports : La majorité des participants développaient pour la première fois un système de transcription automatique Participation nombreuse Tâche de détection d’entités nommées sur de l’oral Ressources et Outils issus de la campagne : 100 h d’émissions radiophoniques transcrites et annotés en EN (40 h pré existantes) 1700 h d’émissions radiophoniques non transcrites Guides d’annotations Package de scoring Ressources dérivées : lexiques, alignement phonétiques, transcription automatique EVALDA / ESTER

I.5. Campagne d’évaluation EVASy (1/2) Objectifs : - Développer et mettre à disposition des outils et méthodes d’évaluation validés par le consortium - Mettre à jour les faiblesses et atouts des systèmes de synthèse Participants : - ELDA, coordinateur - LIMSI-CNRS, responsable scientifique - DELIC (Université de Provence), fournisseur de corpus - CRISCO (Université de Caen) - LIA (Université d’Avignon) - Acapela Group - ELAN - ICP Grenoble - LATL: participant externe - MULTITEL ASLB: participant externe Trois axes d’évaluation : Evaluation de la conversion graphème-phonème Evaluation de la prosodie de synthèse Evaluation globale de la synthèse EVALDA / EVASy

I.7. Campagne d’évaluation EVASy (2/2) Innovation – Apports : - Evaluations: Poursuite de la campagne AUPELF (maintenant AUF) 1996-1998: - « Evaluation conversion grapheme-phoneme »: sur un corpus de noms propres - « Evaluation de la Prosodie » : nouvelle tâche, innovation méthodologique - « Evaluation Globale» : nouvelle tâche, innovation méthodologique Ressources et Outils issus de la campagne : Création d’un corpus phonétisé d’emails (2.146 emails, soit 114.685 mots) Création d’un corpus phonétisé de noms propres (4.000 couples prénoms + noms) Base de données associée aux noms propres : contexte, nationalité, origine linguistique Création de listes de phrases SUS (Semantically Unpredictable Sentences) - ~15 listes de 10 phrases Nouvelle verbalisation pour les tests MOS (Mean Opinion Score) Plate-forme d’évaluation pour réaliser les tests subjectifs (jugements humains) EVALDA / EVASy

I.8. Campagne d’évaluation MEDIA (1/2) Objectifs : définition d’une méthodologie d’évaluation de la compréhension des systèmes de dialogues évaluation des systèmes de compréhension de dialogues production et diffusion des ressources linguistiques mesurer et faire progresser les performances des systèmes Participants : FT R&D : France Telecom Recherche et Développement IMAG : Institut d'Informatique et de Mathématiques Appliquées de Grenoble IRIT : Institut de Recherche en Informatique de Toulouse LIMSI : Laboratoire des Systèmes et Instruments Ile de France LIUM : Laboratoire d'Informatique de l'Université du Maine LORIA : Laboratoire Lorrain d'Intelligence Artificielle LIA : Laboratoire d'Informatique d'Avignon VALORIA : Laboratoire de Recherche en Informatique et ses Applications de Vannes et Lorient EVALDA / MEDIA

I.8. Campagne d’évaluation MEDIA (2/2) Deux axes d’évaluations evaluation hors-contexte du dialogue evaluation en-contexte du dialogue Innovation – Apports: Définition d’un paradigme d’évaluation hors et en contexte de dialogue Ressources et Outils issus de la campagne : Corpus de 1250 dialogues enregistrés (WoZ) pour la tâche d’informations touristiques Transcriptions orthographiques, annotations en segments sémantiques et méta-annotations (actes de dialogues, répetitions, incises, etc) Outil d’annotation (semantizer) Outil d’évaluation (mediaval) EVALDA / MEDIA

SynergiesEVALDA Réutilisation des ressources et outils dans EVALDA et à l’extérieur

I. Objectifs 1. Créer des synergies entre les différentes campagnes EVALDA 2. Créer des synergies à l’extérieur d’EVALDA EVALDA / Synergies

II. Synergies à l’intérieur d’EVALDA (1/3) II.1. EQUER  CESART Réutilisation du corpus médical de la tâche médical comme corpus de spécialité (+ parallélisation avec l’anglais). II.2. CESART  CESTA Réutilisation du corpus médical bilingue parallèle anglais//français de CESART pour la 2nde campagne de CESTA. II.3. ARCADE-II  CESTA Réutilisation du corpus aligné arabe//français pour la 1ère campagne de CESTA. EVALDA / Synergies

II. Synergies à l’intérieur d’EVALDA (2/3) II.4. EVASY  EASY Réutilisation du corpus de 2200 emails anonymisés (DELIC) II.5. ESTER  EASY Réutilisation d’une partie des transcriptions d’émissions de radio II.6. EQUER  EASY Réutilisation d’un corpus de rapports du Sénat EVALDA / Synergies

EVALDA / Synergies II. Synergies à l’intérieur d’EVALDA (3/3)

TC-STAR CHIL Amaryllis ARCADE-II CESART CESTA EASY EQUER ESTER EVASY MEDIA Réutilisation de ressources produites Emprunt de ressources Réutilisation d'outils EVALDA / Synergies II. Synergies à l’extérieur d’EVALDA (1/2)

II. Synergies à l’extérieur d’EVALDA (2/2) II.1. Projet européen TC-STAR Développement de systèmes distribués de traduction oral-oral en temps réel. Réutilisation des plate-formes d’évaluation développées dans : CESTA (traduction automatique) EVASY (synthèse vocale) Réutilisation de corpus alignés produits dans ARCADE-II (espagnol-anglais, chinois-français-anglais). II.2. Projet Amaryllis (terminé) Réutilisation de 3000 questions du corpus sur les notices bibliographiques dans EASY EVALDA / Synergies

III. Pérennisation (1/5) III.1. Produits d’ARCADE-II Création de corpus alignés : Textes allemand, italien, espagnol, anglais alignés au français (5 x 1M mots) Arabe/français/anglais (3 x 150 articles) Grec/français, japonais/français, chinois/français, russe/français, persan/français (5 x 50 articles) III.2. Produits de CESTA Création d’un corpus français de 13.000 mots étiqueté fluidité et adéquation. Création de corpus alignés : anglais/français et arabe/français (2 x 20.000 mots) Création d’une plate-forme d’évaluation (métriques automatiques + jugements humains) sous forme de services web. Création d’une plate-forme d’évaluation humaine via Internet Création de corpus médicaux alignés : anglais/français et arabe/français EVALDA / Produits RSC RSC RSC LOG LOG RSC

III. Pérennisation (2/5) III.3. Produits de CESART Création de nouvelles listes de synonymes à ajouter au thésaurus international MeSH. Création de 2 corpus spécialisés, domaine médical et domaine de l’éducation III.4. Produits d’EVASY Création d’un corpus phonétisé d’emails (plus de 2000 emails) Création d’un corpus phonétisé de noms propres (4000 couples prénoms + noms) Base de données associée aux noms propres : contexte, nationalité, origine linguistique Création de listes de phrases SUS (Semantically Unpredictable Sentences) (150 phrases) Nouvelle verbalisation tests MOS (Mean Opinion Score) Plate-forme d’évaluation pour réaliser des tests subjectifs (jugements humains) RSC RSC RSC RSC RSC LOG EVALDA / Produits RSC RSC

III. Pérennisation (3/5) III.5. Produits d’EQueR Création d’un corpus français d’environ 1,5 Go.  constitué principalement de textes journalistiques et de textes de lois provenant de 4 sources différentes : Le Monde, Le Monde Diplomatique, SDA (équivalent de l’AFP en Suisse), et du site Web du Sénat. Création d’un corpus « médical » français d’environ 50 Mo.  constitué principalement d’articles scientifiques et de recommandations médicales tirés du Web et plus particulièrement des sites de Santé Canada, Orphanet, CHU Rouen, FNCLCC. Création d’un corpus « général » de 500 questions en français. Création d’un corpus « médical » de 200 questions en français. Outil d’aide à l’évaluation de système de question-réponse EVALDA / Produits RSC RSC RSC RSC LOG

III. Pérennisation (4/5) III.6. Produits d’ESTER Production d’un corpus de 60 h d’émissions radiophoniques transcrites orthographiquement Annotation en Entités Nommés de 100 h d’émissions radiophoniques Production d’un corpus de 1700h d’émissions radiophoniques Outils d’évaluation III.7. Produits d’EASY Corpus étiqueté syntaxiquement de 1 million de mots couvrant plusieurs styles de textes : langue générale (journaux, rapports…), questions, emails, transcriptions, littéraire, médical Outils d’évaluation EVALDA / Produits RSC RSC RSC LOG RSC LOG

III. Pérennisation (5/5) III.8. Produits de MEDIA Corpus de 1250 dialogues enregistrés, transcrits et annotés sémantiquement et en actes de dialogue Méta annotations Outil d’annotation sémantique Paradigme et outil d’évaluation III.9. Intégration Dans le cadre des synergies avec TC-STAR, puis avec CHIL Développement d’une architecture distribuée pour l’évaluation, intégrant les outils logiciels produits par EVALDA Pour commencer : ESTER, CESTA, EVASY EVALDA / Produits RSC RSC LOG LOG

IV. Dissémination Articles (conférences) : - EVALDA/Technolangue.net , CESTA, ESTER à LREC 2004 - EVALDA, ESTER aux JEP à Fès 2004 - CESTA à COLING 2004 - EVASY à InterSpeech 2005, et TALN 2005 - EQUER et EASY à TALN 2005 - CESTA à MT Summit 2005 Revues : - EVASY soumis à Speech Communication, Computer Speech & Language, TALN - CESTA dans Multilingual Computing & Technology #68 Posters (conférences) : - EVALDA/Technolangue.net, MEDIA à LREC 2004 - MEDIA aux JEP à Fès 2004 - MEDIA à InterSpeech 2005 Stands : - EVALDA/Technolangue.net à iEXPO 2004 Sites web : www.technolangue.net www.elda.org/evasy www.elda.org www.limsi.fr/Recherche/CORVAL/easy www.afcp-parole.org/ester Workshops : - EQUER, 30 novembre 2004 - MEDIA, 14 novembre 2005 - ESTER, mars 2005 - EVASY, février ou mars 2006 EVALDA / Dissémination

EVALDA / Conclusion Technolangue (EVALDA) Un cas unique en Europe Un exemple qui inspire plusieurs programmes nationaux Une capitalisation importante ... étendre a l’Europe ?

Technolangue Campagnes d’Evaluation (EVALDA)