1 / 38

Journée Technolangue

Journée Technolangue. Le rôle d’ELDA/ELRA dans la diffusion des ressources linguistiques. Valérie Mapelli ELRA/ELDA 55-57 Rue Brillat-Savarin, F-75013 Paris, France Tél. +33 1 43 13 33 33 -- Fax. +33 1 43 13 33 30 Email: mapelli@elda.org Web: http://www.elda.org .

johana
Download Presentation

Journée Technolangue

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Journée Technolangue Le rôle d’ELDA/ELRA dans la diffusion des ressources linguistiques Valérie Mapelli ELRA/ELDA 55-57 Rue Brillat-Savarin, F-75013 Paris, France Tél. +33 1 43 13 33 33 -- Fax. +33 1 43 13 33 30 Email: mapelli@elda.org Web: http://www.elda.org

  2. ELRA/ELDA, Historique, Structure, Mission Distribution Validation Production Evaluation - EVALDA Diffusion d’information … LREC 2008 Journée TechnolanguePlan

  3. Analyse Contrastive“Rôle” publique – Rationaliser les financements publics … Jusqu’en 2000 AVANT ELRA: Aucune ressource disponible Duplication des efforts et des financements <== RL JAMAIS DISTRIBUEES ACQUILEX ARS GENELEX ONOMASTICA PLUS POLYGLOT REWARD SUNDIAL SUNSTAR APRES la création d’ELRA par la CE (RL DESORMAIS DISTRIBUEES Voir le catalogue ELRA) ACCOR COST-232 CRATER MULTEXT PAROLE SPEECHDATFamily TSNLP (Euro)WordNet • Retour sur investissement • Capitalisation rationnelle • Fonds "Public"

  4. ELRA Une infrastructure améliorée pour le partage des données Une association d’utilisateurs de RL • Un centre de dépôt : • Aspects techniques et logistiques • Aspects commerciaux (prix, cotisations, royalties) • Aspects juridiques (licences, DPI) • Diffusion d’information Infrastructure pour l’évaluation des Technologies de la Langue qui propose ressources, outils, méthodologies, logistique, Exit strategy / Capitalisation sur les packages d’évaluation

  5. 1994-1995RELATOR un consortium à dimension européenne avec le soutien de la Commission européenne, s’efforçant d’établir un Centre de dépôt européen de ressources linguistiques. 1995 Mise en place de l’Association européenne pour les ressources linguistiques (ELRA) en tant que centre d’archivage, mise en place de l’Agence de distribution (ELDA) 1996… Notre première “liste” de Ressources Linguistiques identifiées, suivie du premier Catalogue 1997 Négociation des droits de distribution, Début des activités de distribution, Projets R&D sur les questions relatives aux RL (co-financés par l’UE, les agences françaises, etc.) Extension du droit d’adhésion aux non européens 1998: 1er LREC, BLARK, Production & sous-traitance de la production de RL (production interne et réseau de production) Analyse de marché, Etat de l’art Activités d’Evaluation (projet Else janvier 98), Intégration de TA et ASR (Systran & Dragon), TTS 1999-: Orientation forte vers la Production (famille Speechdat, LRs-P&P, SpeeCon, etc.), Validation de RL et contrôle qualité des RL, mise en place d’unités de validation ELRA: Une structure efficace pour servir la communauté des TL - 10 ans d’activités

  6. 2000- Répertoire des acteurs des TL et promotion du domaine (EuroMap, …) Début d’un partenariat actif avec LDC : coordination juridique et production Lancement de campagnes d’EVALUATION (Amaryllis, Aurora) 2001- Identification de Ressources Multimodales (projet Isle) “roadmaps” des TL et RL, étude des activités nationales existantes 2004- Catalogue Universel 2005- Portail HLT : Informer ELRA 2005- Programme de fidélité 2005- Extension de la mission officielle d’ELRA pour la promotion de RL et l’évaluation dans le secteur des Technologies de la Langue dans toutes ses formes et ses usages. Ainsi, les objectifs sont : coordonner et réaliser l’identification, la production, la validation, la distribution, la standardisation des RL, ainsi que soutenir l’évaluation des systèmes, produits, outils, etc. D’autres ressources seront également prises en considération si les développements du secteur le rende souhaitable : par exemple, les ressources multimedia contenant ou non des langues ELRA: Une structure efficace pour servir la communauté des TL - 10 ans d’activités

  7. L’Association • Système d’adhésion: • ELRA ouverte aux institutions européennes et non européennes • Ressources disponibles aux membres et aux non membres • Paiement par ressource • Quelques avantages à devenir membre : • Remises significatives sur le prix des RL (plus de 70%) • Assistance juridique et contractuelle relative aux RL • Chiffres et faits sur le marché (résultats d’enquêtes ELRA) • Lettre d’information et autres publications • Organe opérationnel : ELDA

  8. Licences d’utilisation Utilisateurs finals Détenteurs Contrat évaluation Utilisateurs finals Contrat utilisateur final ELRA Producteurs Utilisateurs finals Intégrateur Contrat intégrateur Contrat de distribution

  9. Fournisseur Utilisateur Fournisseur Utilisateur Fournisseur Utilisateur ContratsFournisseur-Utilisateur Licences d’utilisation

  10. Collecte de Ressources Linguistiques Catalogue Catalogue Universel Catalogue “R&D” (RL “bon marché”) Packages d’Evaluation Collecte de Ressources Linguistiques

  11. Packages Evaluation Les ressources distribuées par ELDA Les ressources distribuées par ELDA Parole Lexiques Corpus Terminologie Monolingues Multilingues Monolingues Multilingues Monolingues Multilingues • Reconnaissance • Traitement automatique • Synthèse • Thérapie et parole • Extraction • terminologique • Contrôle d'analyseurs • de LN • Résumé de texte • automatique • Création de • bases de données • Consolidation de • lexiques • Validation de • mémoire de • traduction • Correcteurs • orthographiques • Extraction • d'information • Indexation • de document • Extraction d'information • Indexation de document • Systèmes de • traduction automatique • Extraction • d'information • Implémentation • de thesauri • Génération • Traduction • Génération • Consolidation de • dictionnaires

  12. Catalogue ELRA Catalogue

  13. Catalogue Universel ELRA Catalogue Universel CATALOGUE ELRA Accès restreint aux Membres d’ELRA Contient actuellement : 850 RL RL Distributeurs/Fournisseurs Centres de données Autres fournisseurs Projets et partenaires

  14. Besoin exprimé par plusieurs académiques Sélection de ressources “bon marché” rassemblées dans un nouveau Catalogue “ Catalogue R&D ” http://catalog.elra.info/retd/ Moyen de substitution avant la parution d’un moteur de recherche avancé “ Catalogue R&D ”

  15. Distribution - Usage Nombre de ressources distribuées Classement par type d’usage: Recherche / Commercial / Evaluation

  16. Distribution – Types de RL Nombre de ressources distribuées Classement par type de ressource: Oral / Ecrit / Terminologie / Evaluation Nouveauté 2006 = 15 Packages évaluation autres qu’AURORA

  17. Validation de RL Production de RL, packaging & financement Evaluation Tâches complémentaires

  18. Décrire la méthodologie pour la validation de RL (écrites et orales) Décrire la qualité des RL existantes via le “QQC” (ressources orales et écrites) Améliorer la qualité des RL existantes via un méchanisme de rapport d’incidents (bug report) Promouvoir la méthodologie et la qualité des RL Validation

  19. Service de Production de RL • SPEECHDAT-CAR (US) • SPEECON (99-2000) • NET-DC (Broadcast-News) • OrienTel • C-Oral-Rom • Neologos (Technolangue) • SALA-II • Productions “customisées” Production de RL – dans le cadre de l’UE Production de RL – autres cadres

  20. Infrastructure pour l’évaluation Production de RL adaptées à l’évaluation Campagnes d’évaluation Evaluation

  21. Valider les hypothèses de recherche Vérifier les progrès Choisir les alternatives de recherche Identifier les technologies prometteuses (marché) Benchmarking … état de l’art Partager les connaissances … ateliers dédiés Retour … Agences de financements Coûts partagés ??? Pourquoi évaluer ?

  22. Evaluation : EVALDA … • PROGRAMME TECHNOLANGUE • 8 projets ressources linguistiques • 6 projets outils • 3 projets standards (Parole / Ecrit) • 1 projet veille technologique (Portail) • 8 projets évaluation : 7 sur la technologie, 1 sur l’évaluation d’usage Constitution d’une infrastructure d'évaluation des systèmes d'ingénierie linguistique du français, pérenne et permanente, et son exploitation par la mise en œuvre de plusieurs expérimentations

  23. EVALDA - Les thèmes • l'oral : • la synthèse vocale, • les transcriptions d'émissions d'actualité, • le dialogue (pour des serveurs d'information orale type renseignements touristiques). • l'écrit : • les analyseurs syntaxiques, • la tâche question-réponse en recherche d’information, • l’alignement de corpus multilingues • la traduction automatique.

  24. Campagnes d’évaluation EVALDA 1. ARCADE II :Evaluation de systèmes d’alignement de corpus bilingues 2. CESART :Evaluation de systèmes d’extraction de terminologie 3. CESTA :Evaluation de systèmes de traduction automatique 4. EASy :Evaluation de systèmes d’annotation syntaxique 5. EQueR :Evaluation de systèmes de question-réponse 6. ESTER :Evaluation de systèmes de transcription automatique d’émissions radiodiffusées 7. EVASy :Evaluation de systèmes de synthèse de la parole 8. MEDIA :Evaluation de systèmes de dialogue en contexte et hors-contexte EVALDA - Campagnes

  25. 1. Pérenniser les produits Créer une/des plate-forme(s) d’évaluation des technologies linguistiques qui soit réutilisable au-delà d’EVALDA. Constituer une base de ressources utiles en-dehors d’EVALDA. 2. Créer des synergies entre les différentes campagnes EVALDA Partager et réutiliser les ressources et les outils développés originellement pour une campagne dans d’autres campagnes. Partager les efforts et l’expertise mis en œuvre et générés. 3. Créer des synergies à l’extérieur d’EVALDA e.g. Technovision, FP6 Partager des ressources créées dans EVALDA avec d’autres projets. Réutiliser dans EVALDA des ressources créées dans d’autres projets. Intégrer les outils créés dans EVALDA dans un cadre de développement plus large. EVALDA - Objectifs

  26. Synergies à l’intérieur d’EVALDA EQUER  CESART Réutilisation du corpus médical de la tâche médical comme corpus de spécialité (+ parallélisation avec l’anglais). CESART  CESTA Réutilisation du corpus médical bilingue parallèle anglais//français de CESART pour la 2nde campagne de CESTA. ARCADE-II  CESTA Réutilisation du corpus aligné arabe//français pour la 1ère campagne de CESTA. EVASY  EASY Réutilisation du corpus de 2200 emails anonymisés (DELIC) ESTER  EASY Réutilisation d’une partie des transcriptions d’émissions de radio EQUER  EASY Réutilisation d’un corpus de rapports du Sénat EVALDA - Synergies

  27. Synergies à l’extérieur d’EVALDA Projet européen TC-STAR Développement de systèmes distribués de traduction oral-oral en temps réel. Réutilisation des plate-formes d’évaluation développées dans : CESTA (traduction automatique) EVASY (synthèse vocale) Réutilisation de corpus alignés produits dans ARCADE-II (espagnol-anglais, chinois-français-anglais). Projet Amaryllis (terminé) Réutilisation de 3000 questions du corpus sur les notices bibliographiques dans EASY EVALDA - Synergies

  28. EVALDA – ARCADE II • Objectifs : • identifier les évolutions récentes de l’état de l’art de l’alignement multilingue. • approfondir l’évaluation sur un large éventail de langues, incluant les langues à écriture non-latine. Participants : 5 laboratoires publics et 2 industriels • Tâche T1 : Alignement phrastique • Tâche T2 : Traduction d’entités nommées • Innovation – Intérêt : • - Recherche : • - ouverture à de nouvelles langues, notamment à écriture non-latine ; • - nouvelle tâche spécifique: traduction d’entités nommées français et arabe • - Industrie : • - absence de projet concurrent à l’heure actuelle ; • - avancée technologique et méthodologique dans l’évaluation de l’alignement multilingue • Ressources et Outils issus de la campagne : • - La mise au point de corpus de textes parallèles alignés d’une taille importante et portant sur un éventail de langues très important, dont diverses langues à différentes écritures: • latine : allemand, anglais, espagnol, français, italien • non-latine : arabe, chinois, grec, japonais, persan, russe • - La mise à disposition des participants du logiciel d’alignement Unicode AligneEd

  29. EVALDA - CESART • Objectifs : • élaborer un nouveau protocole pour l'évaluation de systèmes d'acquisition de ressources terminologiques • produire des ressources réutilisables sous la forme d’un « package » d’évaluation Participants : 3 laboratoires publics et 2 industriels • Tâche 1 : Extraction de candidats termes • Tâche 2 : Extraction de relations • Innovation – Apport : • - Prise en compte des critères d’évaluation basés sur l’application (utilisateur) • - Évaluation automatique (quantitative) + évaluation humaine (qualitative) • Ressources et Outils issus de la campagne : • - Collection de textes médicaux extraits du site de Santé-Canada • - Collection de textes de l’éducation provenant de la revue scientifique Spirale • - Listes des termes amorces de domaines spécialisés

  30. Objectifs : - Création d'une méthodologie d'évaluation des analyseurs syntaxiques - Développement des outils d’évaluation des résultats - Création à faible coût d'une ressource linguistique validée Participants : 2 coordinateurs, 5 fournisseurs de corpus, 13 participants 2 types d’évaluation : - constituants - relations de dépendances Innovation – Apports : - De nombreux participants - Constitution d’un corpus de 1 million de mots annoté en constituants et en relations syntaxiques. Ressources et Outils issus de la campagne : - Collection de textes français étiquetés syntaxiquement couvrant 6 domaines : médical, littéraire, emails, général, oral et questions 1 million de mots - Outils et Guide détaillé pour les annotations - Outils d’évaluation (en constituants et en relations) - Outil de visualisation des constituants et des relations EVALDA - EASy

  31. Objectifs : Développer et mettre à disposition des outils et méthodes d’évaluation validés par le consortium Mettre à jour les faiblesses et atouts des systèmes de synthèse Participants : 6 laboratoires publics et 3 institutions privées Trois axes d’évaluation : Evaluation de la conversion graphème-phonème Evaluation de la prosodie de synthèse Evaluation globale de la synthèse Innovation – Apports : - Evaluations: Poursuite de la campagne AUPELF (maintenant AUF) 1996-1998: - « Evaluation conversion grapheme-phoneme »: sur un corpus de noms propres - « Evaluation de la Prosodie » : nouvelle tâche, innovation méthodologique - « Evaluation Globale» : nouvelle tâche, innovation méthodologique Ressources et Outils issus de la campagne : Création d’un corpus phonétisé d’emails (2.146 emails, soit 114.685 mots) Création d’un corpus phonétisé de noms propres (4.000 couples prénoms + noms) Base de données associée aux noms propres : contexte, nationalité, origine linguistique Création de ~15 listes de 10 phrases SUS (Semantically Unpredictable Sentences) Nouvelle verbalisation pour les tests MOS (Mean Opinion Score) Plate-forme d’évaluation pour réaliser les tests subjectifs (jugements humains) EVALDA - EVASy

  32. Objectifs : définition d’une méthodologie d’évaluation de la compréhension des systèmes de dialogues évaluation des systèmes de compréhension de dialogues production et diffusion des ressources linguistiques mesurer et faire progresser les performances des systèmes Participants : 9 laboratoires publics et 3 institutions privées Deux axes d’évaluations evaluation hors-contexte du dialogue evaluation en-contexte du dialogue Innovation – Apports: Définition d’un paradigme d’évaluation hors et en contexte de dialogue Ressources et Outils issus de la campagne : Corpus de 1250 dialogues enregistrés (WoZ) pour la tâche d’informations touristiques Transcriptions orthographiques, annotations en segments sémantiques et méta-annotations (actes de dialogues, répetitions, incises, etc) Outil d’annotation (semantizer) Outil d’évaluation (mediaval) EVALDA - MEDIA

  33. Pérennisation: Infrastructure d’évaluation : évaluation sur mesure à ELDA Capitalisation : Distribution Packages d’évaluation des différents projets EVALDA: Disponibles à ELDA (à paraître dans catalogue) Prix couvrant les coûts de production EVALDA – Packages d’évaluation

  34. Autres campagnes d’Evaluation Capitalisation • Parole & Son/audio • ASR: TC-STAR, CHIL • TTS: TC-STAR • Identification du locuteur (CHIL) • Traduction Parole-Parole (SST) • Suivi acoustique de la personne • Détection d’activité de la parole, ….. • ………

  35. Autres campagnes d’Evaluation Capitalisation • Multimodal --- Video – Technologies de la vision • Détection du visage • Suivi visuel de la personne • Identification visuelle du locuteur • Estimation des poses de tête • Suivi des mains

  36. Sites ELRA & ELDA www.elra.info www.elda.org Technolangue www.technolangue.net Portail sur l’évaluation www.hlt-evaluation.org Language Resources & Evaluation Journal www.springerlink.com/content/113189 Lettre d’information ELRA Conférence LREC… Diffusion d’information

  37. Conférence LREC Conférence internationale sur les Ressources Linguistiques et l’Evaluation Tous les 2 ans ~ 900 participants Connection entre industriels et partenaires académiques Ressources Linguistiques & Evaluation • LREC 1998 Grenade • LREC 2000 Athènes • LREC 2006 Gênes Prochainement : LREC’2008 • LREC 2002 Las Palmas • LREC 2004 Lisbonne

  38. LREC 2008 Quand ? Fin mai 2008 Où ? Marrakech http://www.lrec-conf.org

More Related