240 likes | 445 Views
Caroline Lavecchia , Kamel Smaïli et David Langlois LORIA / Groupe Parole, Vandoeuvre-Lès-Nancy, France. Les Triggers inter-langues pour la Traduction Automatique. Plan. Positionnement en Traduction Automatique Nouvelle approche : les triggers inter-langues
E N D
Caroline Lavecchia, Kamel Smaïli et David Langlois LORIA / Groupe Parole, Vandoeuvre-Lès-Nancy, France Les Triggers inter-langues pour la Traduction Automatique Journée Atala 1er Décembre 2007
Plan • Positionnement en Traduction Automatique • Nouvelle approche : les triggers inter-langues • Mise en œuvre des triggers inter-langues : • Construction et évaluation d’un dictionnaire bilingue Français-Anglais • Construction et évaluation d’une table de Traduction dédiée à la traduction automatique • Conclusion et Perspectives Journée Atala 1er Décembre 2007
Description d’un système de traduction Parole-Parole La traduction automatique statistique Les modèles d’IBM Positionnement en Traduction Automatique Un système de traduction Parole-Parole : Phrase Source Système de Reconnaissance de la Parole Signal de Parole Langue source Module de Traduction Automatique Langue cible Système de Synthèse de la Parole Signal de Parole Phrase Cible Journée Atala 1er Décembre 2007
Description d’un système de traduction Parole-Parole La traduction automatique statistique Les modèles d’IBM Positionnement en Traduction Automatique But de la traduction automatique statistique : • Approche du canal bruité • Trouver la meilleure phrase cible t* sachant la phrase source s t*= argmaxt P(t|s) t* = argmaxtP(t)* P(s|t) Modèle de Langage Modèle de Traduction Journée Atala 1er Décembre 2007
Description d’un système de traduction Parole-Parole La traduction automatique statistique Les modèles d’IBM Positionnement en Traduction Automatique Procédé : Corpus parallèles alignés Apprentissage du modèle de traduction Table de Traduction P(si/tj) si,tjЄ Vocabulaires Décodeur « Phrase Cible » « Phrase Source » Modèle de Langage Journée Atala 1er Décembre 2007
Description d’un système de traduction Parole-Parole La traduction automatique statistique Les modèles d’IBM Positionnement en Traduction Automatique Exemple de corpus parallèles alignés : Le chat est gris Je vous en prie entrez Never ever take your eye off the ball Encore du poisson pour le dîner The cat is grey Please come in Jamais tu ne quittes la balle des yeux Fish for supper again Corpus Source Corpus Cible Journée Atala 1er Décembre 2007
Description d’un système de traduction Parole-Parole La traduction automatique statistique Les modèles d’IBM Positionnement en Traduction Automatique Apprentissage des modèles de traduction : • Les modèles d’ IBM (Brown et al, 1993) P(s|t) = a P(s, a|t) Avec a, un alignement possible entre la phrase source s et la phrase cible t • Modèle 1 : tous les alignements sont équiprobables • Modèle 2 : introduction de probabilités d’alignement • Nombre conséquent de paramètres à estimer • Modèles complexes et coûteux • EGYPT(Al-Onaizan, 1999 ), GIZA++ (Och, 2003) Journée Atala 1er Décembre 2007
Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Rappel sur les triggers : • Triggers classiques intra-langues calculés à partir de l’ Information Mutuelle (Kim et Khudanpur, 2004) Boris Kasparov is a chess champion • Combinaison avec des modèles n-grammes en modélisation du langage Journée Atala 1er Décembre 2007
Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Les triggers inter-langues : • Pour chaque couple de mots (mot_source, mot_cible) et chaque paire k du corpus parallèle, calcul d’une IM partielle : • Pour chaque couple de mots (mot_source, mot_cible), calcul d’une IM globale sur toutes les S paires du corpus : Journée Atala 1er Décembre 2007
Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Les triggers inter-langues : • Pour chaque mot source, nous gardons comme triggers inter-langues, lesnmeilleurs mots cibles suivant la valeur de l’IM globale. Boris Kasparov is a chess champion | Boris Kasparov est un champion d’échecs Triggers intra-langues Triggers inter-langues Journée Atala 1er Décembre 2007
Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Méthode de construction du dictionnaire bilingue : • Trigger(ei) : l’ensemble des mots déclenchés par ei • Trigger(fj) : l’ensemble des mots déclenchés par fj • Si fjЄ Trigger(ei) et si eiЄ Trigger(fj) alors ajout de l’entrée fj : ei dans le dictionnaire • A chaque mot sont associées ses p meilleures traductions possibles suivant l’ IM eiЄ Trigger(fj) fjЄ Trigger(ei) fj : ei Dictionnaire fj : échecs Échecs : chess ei : chess Journée Atala 1er Décembre 2007
Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Apprentissage : • Les données • Extrait des actes du Parlement Européen (Koehn, 2005) • 598014 paires de phrases Français-Anglais • Vocabulaires : • 19588 mots anglais les plus fréquents • 26811 mots français les plus fréquents • ei, fjЄ Vocabulaires, génération des 10 meilleurs triggers anglais et des 10 meilleurs triggers français selon l’ IM Journée Atala 1er Décembre 2007
Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Exemples de triggers générés : Triggers inter-langues Ang-Fr Triggers inter-langues Fr-Ang Journée Atala 1er Décembre 2007
Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Extraits des dictionnaires bilingues obtenus : Dictionnaire inter-langues Ang-Fr Dictionnaire Anglais/Français Dictionnaire inter-langues Fr-Ang Dictionnaire Français/Anglais Journée Atala 1er Décembre 2007
Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Évaluation du dictionnaire Français-Anglais : • Comparaison de notre dictionnaire automatique Français-Anglais TrigDic avec deux dictionnaires existants : • Un dictionnaire distribué par ELRA de 70832 entrées françaises ( dont 10405 se retrouvent dans notre vocabulaire français) • Un dictionnaire du projet XDXF de 41398 entrées (dont 11265 se retrouvent dans notre vocabulaire français) Journée Atala 1er Décembre 2007
Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Résultats en terme de Rappel : Nombre de mots français correctement traduits dans TrigDic Rappel = Nombre de mots français en commun avec ELRA ou XDXF • Pour chaque entrée française de notre dictionnaire automatique: • Test A : seule la meilleure traduction possible est prise en compte • Test B : ses 5 meilleures traductions possibles sont prises en compte Journée Atala 1er Décembre 2007
Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Analyse et perspectives : • Analyse : • Seulement 5 traductions possibles par mot • Certaines traductions possibles dans TrigDic sont pertinentes mais n’apparaissent pas dans le dictionnaire ELRA • Les traductions proposées par le dictionnaire ELRA ne sont pas toujours très courantes • Perspectives : • Augmenter le nombre de traductions possibles dans TrigDic • Comparer TrigDic à un dictionnaire construit manuellement Journée Atala 1er Décembre 2007
Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues IMG(f, e1) IMG(f, ei) j=1 …p Du dictionnaire bilingue à la table de traduction : • Dictionnaire TrigDic f Є Vocabulaire, f : e1(IMG(f,e1)), … ep(IMG(f,ep)) • Table de traduction TrigDic f Є Vocabulaire, P(e1|f) = , …, P(ep|f) = IMG(f, ep) IMG(f, ei) j=1 …p Journée Atala 1er Décembre 2007
Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Évaluation de la table de traduction TrigDic : • Intégration dans un module de traduction automatique Anglais vers Français Table de traduction TrigDic Table de Traduction Table de traduction générée à l’aide de Giza++ Décodeur 59530 traductions candidates 59530 phrases Anglaises Pharaoh (Koehn, 2004) BLEU Modèle de Langage Français Modèle trigramme Journée Atala 1er Décembre 2007
Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Évaluation de la table de traduction TrigDic : • Comparaison en terme de score BLEU (Papineni, 2002) • Entre les traductions références et les traductions produites par Pharaoh avec la table de traduction TrigDic • Entre les traductions références et les traductions produites par Pharaoh avec la table de traduction générée par l’outil Giza++ avec le modèle 2 d’IBM (G) • T1: 10 meilleurs triggers Fr-Ang, 10 meilleurs triggers Ang-Fr, 5 meilleures traductions probables pour chaque mot f du Vocabulaire Journée Atala 1er Décembre 2007
Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Améliorations apportées : • T2: 50 meilleurs triggers Fr-Ang, 50 meilleurs triggers Ang-Fr, 10 traductions probables pour chaque mot Français f du vocabulaire • T3: T2 + ajout d’une probabilité P(null | f) pour chaque mot Français f du vocabulaire Journée Atala 1er Décembre 2007
Le concept de triggers inter-langues Construction d’un dictionnaire bilingue Construction d’une table de traduction Nouvelle approche: les triggers inter-langues Comparaison TrigDic-Giza++ : T2 • Comparaison des tables de traduction pour le mot Français Coopération Modèle 2 d’IBM T1 654 traductions probables pour Coopération avec le modèle 2 d’IBM Journée Atala 1er Décembre 2007
Conclusion Conclusion et perspectives Conclusion : • Résultats encourageants • Les triggers inter-langues permettent de construire une table de traduction appropriée pour la traduction automatique • Résultats en terme de BLEU proches de ceux des méthodes classiquement utilisées • Modèles d’IBM : complexes, calculs itératifs longs • Triggers inter-langues : simple (une seule itération) et rapide à mettre en œuvre • Travaux sur des corpus de sous-titres • Meilleures performances que le modèle 3 d’IBM Journée Atala 1er Décembre 2007
Conclusion Conclusion et perspectives Perspectives : • Traduction automatique basée sur les séquences • Triggers de séquences (plusieurs mots déclenchent plusieurs mots) • Mise en place de triggers de traits • Singulier déclenche Singulier • Adj-Nom en Anglais déclenche Nom-Adj en Français • Will en Anglais déclenche verbe futur en Français • Etc … • Mise en place d’un décodeur dédié aux triggers (en cours de test) Journée Atala 1er Décembre 2007