840 likes | 980 Views
Méthode et outils pour la création automatique et l’évaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies. Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse, 27 septembre 2005. EN. EN. FR. JA. DE. MS. FR. JMDict. FeM.
E N D
Méthode et outils pour la création automatique et l’évaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree TEERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse, 27 septembre 2005
EN EN FR JA DE MS FR JMDict FeM Bases lexicales multilingues (BDLM) 3 catégories principales • Structure en fourche 1 langue source n langues cibles ex. JMDict, FeM
DE IT NL fleuve (fr) ? EN ES FR river (en) rivière (fr) ? ET CS Bases lexicales multilingues (BDLM) • Structure pivot naturel n langues sources n langues cibles une langue naturelle comme pivot ex. Projet EuroWordNet Problème : phénomène contrastif
EN DE VT fleuve (fr) ? TH FR river (en) rivière (fr) ? JA LO MS Bases lexicales multilingues (BDLM) • Structure pivot artificiel n langues sources n langues cibles un langageartificiel comme pivot ex. Projet Papillon fleuve (fr) river (en) rivière (fr) • Avantage • Phénomènes contrastifs correctement traités
EN DE VT TH FR JA LO MS Bases lexicales multilingues (BDLM) • Structure pivot artificiel n langues sources n langues cibles un langageartificiel comme pivot ex. Projet Papillon • Problème • Comment définir le pivot ? Peut-on construire automatiquement une base à pivot artificielle à partir d'informations existantes
Dico Ja lexie 1 Dico En Dico Fr lexie affection 1 lexie affection1(tendresse) lexie disease 1 lexie affection 2(maladie) axie lexie maladie 1 Dico Th lexie1 lexie = sens de mot axie = interlingue Papillon : Base lexicale multilingue But : Construction collaborative d’une grande BDLM
Données récupérées Données récupérées L1<->L4 L1<->L3 L1 L3 Serveur papillon L2 L4 L2<->L5 L2<->L3 Amorçage L3 L5 Base papillon L1 L2 Axie Ré-amorçage L5 L4 L3 Papillon : construction des données 1 Phase d’amorçage 2 Phase de contribution Contributions Validation Modifications/ Ajouts/ Suppressions Intégration
Serveur papillon Données récupérées L1<->L3 L1 Base papillon L2 L2<->L3 Amorçage L3 L1 L2 Axie V1 L3 Papillon : construction des données 1 Phase d’amorçage 2 Phase de contribution
Données récupérées Données récupérées L1<->L3 L1<->L4 L1 L3 Serveur papillon L4 L2 L2<->L5 L2<->L3 Amorçage L5 L3 Base papillon L1 L2 Axie V2 Ré-amorçage L5 L4 L3 Papillon : construction des données 1 Phase d’amorçage 2 Phase de contribution
Serveur papillon Base papillon L1 L2 Axie V3 L5 L4 L3 Papillon : construction des données 1 Phase d’amorçage 2 Phase de contribution Contributions Validation Modifications/ Ajouts/ Suppressions Intégration
Données récupérées Données récupérées L1<->L3 L1<->L4 L1 L3 Serveur papillon L4 L2 L2<->L3 L2<->L5 Amorçage L3 L5 Base papillon L1 L2 Axie Ré-amorçage L5 L4 L3 Papillon : construction des données 1 Phase d’amorçage 2 Phase de contribution Contributions Validation Modifications/ Ajouts/ Suppressions Intégration
L2 L1 L3 mot L4 BDmnl Dicosbl lexie axie Objectif de la thèse Amorçage automatique d’une BDLM à pivot • Qualité raisonnable • Utilisable par humain ou machine • Correspond aux objectifs du lexicologue et aux ressources disponibles ressources existantes BDLM à pivot
Plan • Bases lexicales multilingues • Structuration d’une base d’axies • Travaux existants • Proposition pour la structuration d’axies • Expérimentation • Évaluation de la qualité d’une base d’axies • Proposition des mesures • Expérimentation
Problèmes de la construction des BDLM • Manque de ressources disponibles • Non cohérence des ressources disponibles : format de données, richesse des informations, etc. • Mise en correspondance de lexies de différentes langues • Nécessité pour lexicologue de faire des compromis entre les ressources existantes et la qualité de BDLM créée
Trois volets de problèmes d’amorçage des BDLM • Construction initiale des lexies et des axies • Récupération de données existantes • Intégration des données • Création des lexies et des axies à partir des données récupérées • Amélioration incrémentale par humain • Évaluation de la qualité de BDLM produite
Trois volets de problèmes d’amorçage des BDLM • Construction initiale des lexies et des axies • Récupération de données existantes Récupdic [Haï, 1998] • Intégration des données • Création des lexies et des axies à partir des données récupérées • Amélioration incrémentale par humain • Évaluation de la qualité de BDLM produite
Exemples des travaux existants pour la structuration des lexies & axies • Méthode de transfert et consultation inverse de dictionnaires bilingues[Tanaka & Umemura,1994] • Comparaison de vecteurs conceptuels pour distinguer des lexies [Chauché,1990; Lafourcade,2002]
Méthode de transfert et consultation inverse de dictionnaires bilingues (1/5) But : Construire des liens traductionnels entre trois langues Ressources nécessaires : Bilingue L1-> L 2 Bilingue L 2-> L 3 Résultat BDLM 1-2-3 Monolingue langue 1 Monolingue langue 2 Monolingue langue 3 Bilingue L 2-> L 1 Bilingue L 3-> L 2 [Tanaka & Umemura,1994]
Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5) Méthode de transfert kyousou FR JP EN [Tanaka & Umemura,1994]
Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5) Méthode de transfert kyousou competition contest race FR JP EN [Tanaka & Umemura,1994]
Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5) Méthode de transfert kyousou competition contest race compétition concours course race hâte FR JP EN On obtient toutes les relations traductionnelles possibles pour chaque entrée de la langue source [Tanaka & Umemura,1994]
Méthode de transfert et consultation inverse de dictionnaires bilingues (3/5) Méthode de consultation inverse 1 fois ? kyousou match competition contest race ancestry haste compétition concours course race hâte ? FR JP EN On garde : mot dont la traduction est en commun avec mot source On enlève : mot dont aucune traduction n’est en commun avec mot source [Tanaka & Umemura,1994]
Méthode de transfert et consultation inverse de dictionnaires bilingues (4/5) Méthode de consultation inverse 2 fois kyougi kyousou jinshu senzo match competition contest race ancestry compétition concours course race FR JP EN [Tanaka & Umemura,1994]
Méthode de transfert et consultation inverse de dictionnaires bilingues (5/5) Avantage • Facile à construire Limitations • Nécessite plusieurs dicos bilingues • Ne fonctionne pas au niveau des lexies
Exemples des travaux existants pour la structuration des lexies & axies • Méthode de transfert et consultation inverse de dictionnaires bilingues[Tanaka & Umemura,1994] • Comparaison de vecteurs conceptuels pour distinguer des lexies [Chauché,1990; Lafourcade,2002]
lexie Méthode de comparaison de vecteurs conceptuels (1/5) • Idée : associer un vecteur à chaque lexie, qui code le sens donné par la définition • Vecteur : combinaison des vecteurs d’un ensemble de concepts de base (V(Ci)) • Ci = un concept feuille d’un thésaurus • P.ex : 873 concepts feuilles du thésaurus Larousse • V(Ci) = <0, 0, …, 0 , 1 , 0, …, 0> [Chauché 1990, Lafourcade, 2002]
Méthode de comparaison de vecteurs conceptuels (2/5) • Calcul récursif des vecteurs des lexies { V(Ci) } , { mot-concepts} « bootstrap » : combinaison linéaire des concepts, selon l'index Ensemble initial de VC pour les mots indexés 1ère itération VC associés aux lexies combinaison linéaire des vecteurs des lexies pour chaque mot-vedette n-ième itération VC associés aux mots-vedettes
Méthode de comparaison de vecteurs conceptuels (3/5) • Comment calculer le vecteur pour une lexie ? • P. ex. lexie de « ranger » Définition : « disposer à sa place dans l'ordre » analyse morpho-syntaxique BD : VC pour les mots « disposer », « place », « ordre », ... Mots importants : « disposer », « place », « ordre » combinaison linéaire des vecteurs des mots de la définition VC pour la lexie
X Y Méthode de comparaison de vecteurs conceptuels (4/5) Comparer la distance thématique entre lexies Distance angulaire entre 2 vecteurs (DA ) DA (X,Y) = angle (X,Y) ; 0 DA (X,Y) 90 DA ("profit" , "profit" ) = 0 DA ("profit" , "benefit" ) = 10 DA ("profit" , "joy" ) = 39 DA ("profit" , "sadness" ) = 65 [Chauché 1990, Lafourcade, 2002]
Méthode de comparaison de vecteurs conceptuels (5/5) Avantages • Fonctionne au niveau lexie • Relativement efficace Limitations • Nécessite analyseur morpho-syntaxique • Besoin d’un index mot-concepts pour initialiser des VC • Les VC doivent utiliser les mêmes ensembles de concepts pour pouvoir comparer
Discussion • Chaque méthode nécessite des ressources lexicales spécifiques • Chaque méthode a des avantages et des limitations différents • Des méthodes peuvent être complémentaires • Il est préférable de pouvoir réutiliser ces méthodes existantes
1 2 3 + + 1 3 2 + + N 1 + Notre proposition algorithmes de structuration d’axies existantes 1 2 3 N … Avantages • dépasser limitations d’utilisation de méthode • adaptabilité à de nombreuses situations possibles Composer arbitrairement les algorithmes de structuration d’axies pour créer un BDLM de meilleure qualité possible selon les ressources disponibles
Conception Système de structuration automatique des BDLM Développement + Évaluation des BDLM Notre contribution Idée : appliquer des techniques de génie logiciel Réalisation : Jeminie : canevas logiciel (framework) modulaire et adaptable
Jeminie Trois fonctions principales • Préparation des données • Production et filtrage d’axies • Évaluation de la qualité de la base d’axies produites Trois types d’utilisateur • Linguiste • Programmeur • Utilisateur de base de données
Jeminie : architecture globale linguiste processus de structuration Interpréteur de processus programmeur M2 M1 Mn Noyau de programme Persistance O/R utilisateur Base de données
Jeminie : architecture globale linguiste • - Modèle de données • - Outils de base, p. ex. • Connexion à l’analyseur morpho-syntaxique • Connexion à la base de données • Importation de dictionnaires processus / mesure de qualtié Interpréteur de processus Interpréteur de mesure de qualité programmeur M2 M1 Mn Noyau de programme Persistance O/R utilisateur Base de données
Jeminie : architecture globale linguiste Module est une implémentation d’un algorithme de structuration d’axies processus de structuration Interpréteur de processus programmeur M2 M1 Mn Noyau de programme Persistance O/R utilisateur Base de données
Jeminie : architecture globale linguiste Module est une implémentation d’un algorithme de structuration d’axies processus de structuration Interpréteur de processus programmeur M2 M1 Mn Noyau de programme Jeminie peut être étendu en développant de nouveaux modules Persistance O/R utilisateur Base de données
Module de structuration d’axie • updateAxieDatabase : implémente un nouvel algorithme • AxieDatabaseContext : indique la base lexicale à modifier • Parameters : indique les ressources utilisées par l’algorithme, ou les informations supplémentaires selon l’algorithme Publicinterface AxieCreator { void updateAxieDatabase(AxieDatabaseContext context, List parameters) boolean checkAxieCreatorParameters (List parameters) }
Jeminie : comment ça marche Processus Interpréteur de processus entrée exécuter M2 M3 Mn M1 Base de données lexies & axies Noyau de programme Processus est une séquence d’exécutions de modules de structuration d’axies Jeminie entrée / sortie
Jeminie : comment ça marche Processus Interpréteur de processus entrée exécuter M2 M3 Mn M1 Base de données lexies & axies Noyau de programme Jeminie entrée / sortie
Processus entrée Jeminie : comment ça marche Interpréteur de processus exécuter M2 M3 Mn M1 Base de données lexies & axies Noyau de programme Jeminie entrée / sortie
kyousou competition contest race compétition concours course race hâte FR JP EN Exemple de modules implémentés (1/3) Nom : BlingTransfertAxieCreator Paramètres : Dico L1L2, Dico L2L3, Base d’axies (BDa ) Résultat : de nouvelles axies créées par la méthode de transfert ajoutées dans BDa kyousou competition race course concours
kyousou competition contest race compétition concours course FR JP EN Exemple de modules implémentés (2/3) Nom : BlingTransfertInverseAxieCreator Paramètres : Dico L1L2, Dico L2L3, Dico L3L2, Dico L2L1, Base d’axie (BDa ) Résultat : de nouvelles axies créées par la méthode de transfert et consultation inverse ajoutées dans BDa kyousou competition course concours
Exemple de modules implémentés (3/3) Nom : VCAxieFilter Paramètres : Base d’axie (BDa ) , seuil pour la distance angulaire maximale Résultat : base BDa modifiée par la méthode de comparaison de vecteurs conceptuels 2 lexies > 2 lexies Z X X Y Y On enlève l’axie où DA (X,Y) > un seuil On enlève l’axie où la distance angulaire moyenne > un seuil
Plan • Bases lexicales multilingues • Structuration d’axies • Travaux existants • Proposition pour la structuration d’axies • Expérimentation • Évaluation de la qualité d’axies • Proposition des mesures • Expérimentation
Expérimentation : données • Données monolingues <HTML><HEAD><TITLE>Pisang generated page for GETDEF</TITLE></HEAD><link rel="stylesheet" href="http://www.lirmm.fr/~lafourca/style.css" type="text/css"><BODY bgcolor="#fffffe"><b>Warning : server learning since the 7/8/2002 at 11:20:10 </b><p><SERVICE-RESULT> <B><VED>inexpiable</VED></B> <BR><I> with 5 parts </I><blockquote> <B><SUBVED>inexpiable.3</SUBVED></B> <I>as</I> <def>#s=2# Que rien n'apaise. ( Haine inexpiable ) .</def> <font color="#888888" size="3"><code>[<src>HDL</src> <i>the 3/12/2001 at 20:55:51</i>]</code></font> <BR> 100015787,artifact,n 100015787,artefact,n 100016679,article,n 100016840,psychological feature,n 100016993,abstraction,n 100017218,cognition,n 100017218,knowledge,n WordNet 100015787,a man-made object taken as a whole 100016679,one of a class of artifacts 100016840,a feature of the mental life of a living organism 100016993,a general concept formed by extracting common features from specific examples 100017218,the psychological result of perception and learning and reasoning Donnée de Lirmm Royal Institute
<lexie d:id="poème.3"> <headword>poème <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <government-pattern> <mod><actor/></mod> </government-pattern> <lexie d:id="poème.3"> <headword>poème <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <government-pattern> <mod><actor/></mod> </government-pattern> Expérimentation : données <lexie d:id="poème.3"> <headword>poème</headword> <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <more-info> <resource name= "LAR"> </resource> </more-info> </lexie> • Données monolingues html xml Papillon texte
<lexie d:id="poème.3"> <headword>poème <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <government-pattern> <mod><actor/></mod> </government-pattern> Expérimentation : données • Données bilingues <volume name="oxford_mini" source-language="fra" target-language="eng"> <dict-entry> <entry>absent</entry> <pos>a.</pos> <translation>absent</translation> </dict-entry> </volume> xml xml html
Jeminie : Préparation des données • InitLexieSimple(Dico.xml, BDa, fr) • Créer une lexie avec • information minimale • Mot-vedette • Partie de discours • Définition • Ressource • Langue <lexie d:id="poème.3"> <headword>poème</headword> <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <government-pattern> <mod><actor/></mod> </government-pattern> <more-info> <resource name= "LAR"> </resource> </more-info> </lexie> Base BDa