CESTA : Campagne d’évaluation des systèmes de traduction automatique

CESTA : Campagne d’évaluation des systèmesde traduction automatique Andrei Popescu-Belis Université de Genève i-expo, Paris, 14 juin 2007

Pourquoi évaluer des systèmes de traduction automatique (TA) ? • La qualité des systèmes de TA augmente • ils possèdent déjà de nombreuses applications • Les utilisateurs ont besoin de critères • pour acheter, utiliser, ou remplacer des systèmes • Des méthodes d’évaluation fiables permettent d’améliorer les systèmes de TA et aident les utilisateurs dans leurs choix CESTA | i-expo | 14 juin 2007

Pourquoi est-ce difficile d’évaluerdes systèmes de TA ? • Il n’y a pas une seule, mais de nombreuses traductions correctes d’un texte donné • l’ensemble de ces traductions est difficile à cerner • Il est donc impossible de comparer une traduction produite par un système à « la traduction correcte » • il faut trouver d’autres méthodes pour en estimer la qualité • De plus, la qualité de la traduction n’est pas le seul facteur qui détermine l’utilité d’un système de TA CESTA | i-expo | 14 juin 2007

CESTA (2003-2006) : objectifs • Définir un protocole fiable pour l’évaluation de la TA • mesures de qualité nécessitant des juges humains • mesures de qualité automatiques • Évaluer des systèmes de TA • industriels et académiques • traduisant de l’anglais et de l’arabe vers le français • dans plusieurs domaines et conditions d’utilisation • Mettre à disposition de la communauté des ressources et des outils pour l’évaluation de la TA • CESTA  EVALDA  Technolangue • synergies avec ARCADE2, CESART, EQueR, EVASY CESTA | i-expo | 14 juin 2007

Organisateurs et comité scientifique • Organisateurs • Khalid Choukri, Olivier Hamon, Sylvain Surcin (ELDA) • Widad Mustafa El Hadi, Marianne Dabbadie, Ismaïl Timimi (Université de Lille 3, IDIST/CERSATES) • Comité scientifique • Christian Boitet (Université de Grenoble) • Stéphane Chaudiron (Ministère de la Recherche) • Anthony Hartley (Université de Leeds/CTS) • Philippe Langlais (Université de Montréal/RALI) • Andrei Popescu-Belis (Université de Genève) • Martin Rajman (EPFL/LIA) CESTA | i-expo | 14 juin 2007

Plan de la présentation 1. Spécifications et méthodes • mesures de la qualité de la TA • scénarios des deux campagnes réalisées • ressources linguistiques : données de test 2. Exemples de résultats obtenus • scores des systèmes • étude de la fiabilité des métriques 3. Apports et perspectives CESTA | i-expo | 14 juin 2007

Première partie Spécifications et méthodes de CESTA

Première campagne CIMOS Comprendium RALI SDL Softissimo Systran Seconde campagne Comprendium RALI RWTH Softissimo Systran UPC Systèmes de TA participant à CESTA CESTA | i-expo | 14 juin 2007

Mesures de qualité automatiques (1/2) • Principe: mesurer la qualité d’un texte traduit en comparant celui-ci à une ou plusieurs traductions de référence • Objectif de CESTA: tester la fiabilité de plusieurs de ces métriques, pour les traductions vers le français • Mesures employées dans CESTA • BLEU : Bilingual Evaluation Understudy (Papineni et al. 2001) • moyenne pondérée du nombre de mots en commun, du nombre de bigrammes en commun, etc. (n-grammes avec n = 1, 2, 3, ou 4) • fiabilité inconnue pour des langues cible à morphologie riche • NIST (Doddington, 2002) • variante de BLEU: gain d’information et pénalités selon la taille • WNM : Weighted n-gram metric (Babych & Hartley 2004) • pondère les comparaisons de n-grammes selon leur fréquence • autorise une certaine variation dans la traduction CESTA | i-expo | 14 juin 2007

Mesures de qualité automatiques (2/2) • Mesures employées dans CESTA [suite] • X-Score (Rajman & Hartley, 2001) • analyse la grammaticalité du texte traduit en comparant la distribution morpho-syntaxique du texte avec un corpus de référence • mesure expérimentale implémentée par l’ELDA pour CESTA • D-Score (Rajman & Hartley, 2001) • analyse de la préservation du contenu sémantique en comparant la représentation sémantique vectorielle du texte traduit avec celle d’un texte de référence • mesure expérimentale implémentée par l’ELDA pour CESTA • Distances d’édition de chaînes de caractères (Leusch et al., 2003) • mWER: Multi-reference Word Error Rate • mPER: Multi-reference Position-independant Word Error Rate CESTA | i-expo | 14 juin 2007

Mesures d’évaluation fondées sur des jugements humains • Objectifs de CESTA • l’évaluation humaine des systèmes (référence de la qualité) • la méta-évaluation des métriques automatiques • en comparant leurs scores avec ceux des juges humains • Développement par l’ELDA d’une interface pour l’évaluation humaine en ligne, via HTTP • Scores d’adéquation (sémantique) et de fluidité • échelle de 1 à 5 • chaque segment est évalué par deux juges différents • les segments sont présentés aléatoirement CESTA | i-expo | 14 juin 2007

Interface d’évaluation de l’adéquation CESTA | i-expo | 14 juin 2007

Première et seconde campagnes • Première campagne: domaine « général » • pas de phase d’adaptation au domaine des textes • mise en place du protocole d’évaluation • Seconde campagne: avant et après adaptation à un domaine spécifique =santé • comparaison des résultats des systèmes de TA dans les deux conditions • perfectionnement et réutilisation du protocole d’évaluation • analyse de la fiabilité des métriques CESTA | i-expo | 14 juin 2007

Données : anglais  français • 1ère campagne • test à blanc : 20.000 mots extraits du JOC • 1 traduction de référence • test réel : 20.000 mots extraits du JOC + 200.000 mots extraits de MLCC pour le masquage (répartition aléatoire) • 4 trad. de référence (1 officielle + 3 agences) pour l’évaluation • 2nde campagne • adaptation : 20.000 mots extraits du site Santé Canada • sous-corpus du corpus CESART français • 1 traduction de référence • test réel : 20.000 mots extraits du même site + 200.000 mots pour le masquage • 4 trad. de référence (1 officielle + 3 agences) pour l’évaluation CESTA | i-expo | 14 juin 2007

Données : arabe  français [similaires] • 1ère campagne • test à blanc : 20.000 mots extraits du Monde Diplomatique • 1 traduction de référence • test réel : 20.000 mots extraits du monde Diplomatique (2002) + 200.000 mots extraits de Al-Hayat (1998) pour le masquage • 4 trad. de référence (1 officielle + 3 agences) pour l’évaluation • 2nde campagne • adaptation : 20.000 mots extraits des sites UNICEF, OMS et Family Health International • 1 traduction de référence • test réel : 20.000 mots extraits des mêmes sites + 200.000 mots pour le masquage • 4 trad. de référence (1 officielle + 3 agences) pour l’évaluation CESTA | i-expo | 14 juin 2007

Déroulement • Test à blanc : août 2004 • données semblables à la campagne d’évaluation  vérifier le format des fichiers et l’échange des données • 1ère campagne • 1er au 8 février 2005 : phase de test des systèmes • avril à juin 2005 : évaluations humaines • 2nde campagne • 27 septembre au 10 octobre 2005 : phase d’adaptation • 11 au 18 octobre 2005 : phase de test • octobre 2005 à février 2006 : évaluations humaines CESTA | i-expo | 14 juin 2007

Deuxième partie Exemples de résultats obtenus par CESTA Le rapport final est disponible à l’adresse : http://www.technolangue.net/article199.html

Pourcentage d’accord entre les scores humains en fonction de la distance [2e c.] CESTA | i-expo | 14 juin 2007

Jugements humains : scores et intervalles de confiance ; rangs et leurs probabilités[2nde campagne, après adaptation au domaine] CESTA | i-expo | 14 juin 2007

Métriques automatiques : scores et intervalles de confiance ; rangs et probabilités [2nde campagne, après adaptation] CESTA | i-expo | 14 juin 2007

Corrélation de Pearson (échelle -1 à 1) entre les métriques automatiques et les juges humains[2nde campagne, après adaptation, ENFR] CESTA | i-expo | 14 juin 2007

Comparaison des scores obtenus par les métriques automatiques avant et après adaptation [2nde campagne, ENFR] CESTA | i-expo | 14 juin 2007

Troisième partie Apports et perspectives

Bilan global de CESTA • Production d’une grande quantité de données • corpus parallèles : texte source + 4 traductions de référence (officielle, agences) + 5 traductions automatiques • anglais/français et arabe/français • Analyse de nombreuses métriques automatiques récentes • Développement et étude de deux métriques expérimentales • Protocole d’évaluation • Site web pour l’évaluation humaine CESTA | i-expo | 14 juin 2007

Apports de la campagne CESTA • Aux chercheurs • nouveaux résultats sur l’applicabilité des métriques automatiques au français  elles sont moins fiables que pour l’anglais • Aux développeurs de systèmes de TA ENFR et ARFR • utiliser le package CESTA pour mesurer leurs progrès • les intervalles de confiance et les corrélations de CESTA permettent d’estimer la fiabilité d’autres résultats obtenus • les valeurs obtenues dans CESTA permettent de comparer les systèmes avec l’état de l’art en 2005-2006 • Aux utilisateurs de TA • utiliser le package CESTA pour comparer des systèmes de TA • Le meilleur système ou le système le plus adapté ?! • beaucoup de qualités peuvent être utiles en réalité répertoire FEMTI : http://www.issco.unige.ch/femti CESTA | i-expo | 14 juin 2007

Publications Hamon O., Popescu-Belis A., Hartley A., Mustafa El Hadi W. & Rajman M. (à paraître) – “CESTA: Campagne d'Evaluation des Systèmes de Traduction Automatique”. In Chaudiron S. et al., eds., Bilan de l'action Technolangue (2002-2006), Hermès, Paris, 24 p. Hamon O., Hartley A., Popescu-Belis A. & Choukri K. (à paraître) – “Assessing Human and Automated Quality Judgments in the French MT Evaluation Campaign CESTA”. In Proceedings of Machine Translation Summit XI, Copenhagen, 8 p. O. Hamon, M. Rajman (2006). “X-Score: Automatic Evaluation of Machine Translation Grammaticality”. In Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006, p.155-160 O. Hamon, A. Popescu-Belis., K. Choukri, M. Dabbadie, A. Hartley, W. Mustafa El Hadi, M. Rajman, I. Timimi, (2006). “CESTA: First Conclusions of the Technolanguage MT Evaluation Campaign”. In Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006, p.179-184 Philippe Langlais, Fabrizio Gotti and Alexandre Patry, (2006) " De la Chambre des communes à la chambre d'isolement: adaptabilité d'un système de traduction basé sur les segments", in Proceedings of 13th TALN, Leuven, Belgium, April 10-13, pages 217-226 . S. Surcin, O. Hamon, A. Hartley, M. Rajman, A. Popescu-Belis, W. Mustafa El Hadi, I. Timimi, M. Dabbadie, K. Choukri, (2005), “Evaluation of Machine Translation with Predictive Metrics beyond BLEU/NIST: CESTA Evaluation Campaign #1”. In Proceedings of MT Summit X, Phuket, Thailand, September 2005, p. 117-124. M. Dabbadie, W. Mustafa El Hadi, I. Timimi, (2004), “CESTA, The first European Machine Translation Evaluation Campaign”. In Multilingual Computing, n° 65 volume 15, issue 5, p. 10-11. V. Mapelli, M. Nava, S. Surcin, D. Mostefa, K. Choukri. “Technolangue: A Permanent Evaluation and Information Infrastructure”. In : Proceedings of the 4th international Conference on Language Resources and Evaluation (LREC 2004), Lisbon, Portugal, May 2004, p.381-384. W. Mustafa El Hadi, M. Dabbadie, I. Timimi, M. Rajman, P. Langlais, A. Hartley, A. Popescu-Belis (2004), “Work-in-Progress project report: CESTA Machine Translation Evaluation Campaign”. In Proceedings of COLING' 2004, Geneva, Switzerland, August 2004. CESTA | i-expo | 14 juin 2007

CESTA remercie chaleureusement tous les systèmes ayant participé à la campagne ! COMPRENDIUM - Translendium SL, www.translendium.com[ENFR] MLTS - CIMOS, www.cimos.com[ARFR] RALI, Université de Montréal [ENFR] REVERSO - Softissimo, www.softissimo.com, www.reverso.net[ENFR] Université Technologique de Aachen (RWTH) [ARFR] SDL Enterprise Translation Server – SDL Int., www.sdl.com[ENFR] SYSTRAN, www.systran.fr[ARFR et ENFR] Université Polytechnique de Catalogne [ENFR] CESTA | i-expo | 14 juin 2007

CESTA : Campagne d’évaluation des systèmes de traduction automatique