1 / 83

Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse, 27 septembre 2005

Méthode et outils pour la création automatique et l’évaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies. Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse, 27 septembre 2005. EN. EN. FR. JA. DE. MS. FR. JMDict. FeM.

Download Presentation

Aree T EERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse, 27 septembre 2005

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Méthode et outils pour la création automatique et l’évaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree TEERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse, 27 septembre 2005

  2. EN EN FR JA DE MS FR JMDict FeM Bases lexicales multilingues (BDLM) 3 catégories principales • Structure en fourche 1 langue source  n langues cibles ex. JMDict, FeM

  3. DE IT NL fleuve (fr) ? EN ES FR river (en) rivière (fr) ? ET CS Bases lexicales multilingues (BDLM) • Structure pivot naturel n langues sources  n langues cibles une langue naturelle comme pivot ex. Projet EuroWordNet Problème : phénomène contrastif

  4. EN DE VT fleuve (fr) ? TH FR river (en) rivière (fr) ? JA LO MS Bases lexicales multilingues (BDLM) • Structure pivot artificiel n langues sources  n langues cibles un langageartificiel comme pivot ex. Projet Papillon fleuve (fr) river (en) rivière (fr) • Avantage • Phénomènes contrastifs correctement traités

  5. EN DE VT TH FR JA LO MS Bases lexicales multilingues (BDLM) • Structure pivot artificiel n langues sources  n langues cibles un langageartificiel comme pivot ex. Projet Papillon • Problème • Comment définir le pivot ? Peut-on construire automatiquement une base à pivot artificielle à partir d'informations existantes

  6. Dico Ja lexie 1 Dico En Dico Fr lexie affection 1 lexie affection1(tendresse) lexie disease 1 lexie affection 2(maladie) axie lexie maladie 1 Dico Th lexie1 lexie = sens de mot axie = interlingue Papillon : Base lexicale multilingue But : Construction collaborative d’une grande BDLM

  7. Données récupérées Données récupérées L1<->L4 L1<->L3 L1 L3 Serveur papillon L2 L4 L2<->L5 L2<->L3 Amorçage L3 L5 Base papillon L1 L2 Axie Ré-amorçage L5 L4 L3 Papillon : construction des données 1 Phase d’amorçage 2 Phase de contribution Contributions Validation Modifications/ Ajouts/ Suppressions Intégration

  8. Serveur papillon Données récupérées L1<->L3 L1 Base papillon L2 L2<->L3 Amorçage L3 L1 L2 Axie V1 L3 Papillon : construction des données 1 Phase d’amorçage 2 Phase de contribution

  9. Données récupérées Données récupérées L1<->L3 L1<->L4 L1 L3 Serveur papillon L4 L2 L2<->L5 L2<->L3 Amorçage L5 L3 Base papillon L1 L2 Axie V2 Ré-amorçage L5 L4 L3 Papillon : construction des données 1 Phase d’amorçage 2 Phase de contribution

  10. Serveur papillon Base papillon L1 L2 Axie V3 L5 L4 L3 Papillon : construction des données 1 Phase d’amorçage 2 Phase de contribution Contributions Validation Modifications/ Ajouts/ Suppressions Intégration

  11. Données récupérées Données récupérées L1<->L3 L1<->L4 L1 L3 Serveur papillon L4 L2 L2<->L3 L2<->L5 Amorçage L3 L5 Base papillon L1 L2 Axie Ré-amorçage L5 L4 L3 Papillon : construction des données 1 Phase d’amorçage 2 Phase de contribution Contributions Validation Modifications/ Ajouts/ Suppressions Intégration

  12. L2 L1 L3 mot L4 BDmnl Dicosbl lexie axie Objectif de la thèse Amorçage automatique d’une BDLM à pivot • Qualité raisonnable • Utilisable par humain ou machine • Correspond aux objectifs du lexicologue et aux ressources disponibles ressources existantes BDLM à pivot

  13. Plan • Bases lexicales multilingues • Structuration d’une base d’axies • Travaux existants • Proposition pour la structuration d’axies • Expérimentation • Évaluation de la qualité d’une base d’axies • Proposition des mesures • Expérimentation

  14. Problèmes de la construction des BDLM • Manque de ressources disponibles • Non cohérence des ressources disponibles : format de données, richesse des informations, etc. • Mise en correspondance de lexies de différentes langues • Nécessité pour lexicologue de faire des compromis entre les ressources existantes et la qualité de BDLM créée

  15. Trois volets de problèmes d’amorçage des BDLM • Construction initiale des lexies et des axies • Récupération de données existantes • Intégration des données • Création des lexies et des axies à partir des données récupérées • Amélioration incrémentale par humain • Évaluation de la qualité de BDLM produite

  16. Trois volets de problèmes d’amorçage des BDLM • Construction initiale des lexies et des axies • Récupération de données existantes  Récupdic [Haï, 1998] • Intégration des données • Création des lexies et des axies à partir des données récupérées • Amélioration incrémentale par humain • Évaluation de la qualité de BDLM produite

  17. Exemples des travaux existants pour la structuration des lexies & axies • Méthode de transfert et consultation inverse de dictionnaires bilingues[Tanaka & Umemura,1994] • Comparaison de vecteurs conceptuels pour distinguer des lexies [Chauché,1990; Lafourcade,2002]

  18. Méthode de transfert et consultation inverse de dictionnaires bilingues (1/5) But : Construire des liens traductionnels entre trois langues Ressources nécessaires : Bilingue L1-> L 2 Bilingue L 2-> L 3 Résultat BDLM 1-2-3 Monolingue langue 1 Monolingue langue 2 Monolingue langue 3 Bilingue L 2-> L 1 Bilingue L 3-> L 2 [Tanaka & Umemura,1994]

  19. Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5) Méthode de transfert kyousou FR JP EN [Tanaka & Umemura,1994]

  20. Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5) Méthode de transfert kyousou competition contest race FR JP EN [Tanaka & Umemura,1994]

  21. Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5) Méthode de transfert kyousou competition contest race compétition concours course race hâte FR JP EN On obtient toutes les relations traductionnelles possibles pour chaque entrée de la langue source [Tanaka & Umemura,1994]

  22. Méthode de transfert et consultation inverse de dictionnaires bilingues (3/5) Méthode de consultation inverse 1 fois ? kyousou match competition contest race ancestry haste compétition concours course race hâte ? FR JP EN On garde : mot dont la traduction est en commun avec mot source On enlève : mot dont aucune traduction n’est en commun avec mot source [Tanaka & Umemura,1994]

  23. Méthode de transfert et consultation inverse de dictionnaires bilingues (4/5) Méthode de consultation inverse 2 fois kyougi kyousou jinshu senzo match competition contest race ancestry compétition concours course race FR JP EN [Tanaka & Umemura,1994]

  24. Méthode de transfert et consultation inverse de dictionnaires bilingues (5/5) Avantage • Facile à construire Limitations • Nécessite plusieurs dicos bilingues • Ne fonctionne pas au niveau des lexies

  25. Exemples des travaux existants pour la structuration des lexies & axies • Méthode de transfert et consultation inverse de dictionnaires bilingues[Tanaka & Umemura,1994] • Comparaison de vecteurs conceptuels pour distinguer des lexies [Chauché,1990; Lafourcade,2002]

  26. lexie Méthode de comparaison de vecteurs conceptuels (1/5) • Idée : associer un vecteur à chaque lexie, qui code le sens donné par la définition • Vecteur : combinaison des vecteurs d’un ensemble de concepts de base (V(Ci)) • Ci = un concept feuille d’un thésaurus • P.ex : 873 concepts feuilles du thésaurus Larousse • V(Ci) = <0, 0, …, 0 , 1 , 0, …, 0> [Chauché 1990, Lafourcade, 2002]

  27. Méthode de comparaison de vecteurs conceptuels (2/5) • Calcul récursif des vecteurs des lexies { V(Ci) } , { mot-concepts} « bootstrap » : combinaison linéaire des concepts, selon l'index Ensemble initial de VC pour les mots indexés 1ère itération VC associés aux lexies combinaison linéaire des vecteurs des lexies pour chaque mot-vedette n-ième itération VC associés aux mots-vedettes

  28. Méthode de comparaison de vecteurs conceptuels (3/5) • Comment calculer le vecteur pour une lexie ? • P. ex. lexie de « ranger » Définition : « disposer à sa place dans l'ordre » analyse morpho-syntaxique BD : VC pour les mots « disposer », « place », « ordre », ... Mots importants : « disposer », « place », « ordre » combinaison linéaire des vecteurs des mots de la définition VC pour la lexie

  29. X  Y Méthode de comparaison de vecteurs conceptuels (4/5) Comparer la distance thématique entre lexies  Distance angulaire entre 2 vecteurs (DA ) DA (X,Y) = angle (X,Y) ; 0  DA (X,Y)  90  DA ("profit" , "profit" ) = 0 DA ("profit" , "benefit" ) = 10 DA ("profit" , "joy" ) = 39 DA ("profit" , "sadness" ) = 65 [Chauché 1990, Lafourcade, 2002]

  30. Méthode de comparaison de vecteurs conceptuels (5/5) Avantages • Fonctionne au niveau lexie • Relativement efficace Limitations • Nécessite analyseur morpho-syntaxique • Besoin d’un index mot-concepts pour initialiser des VC • Les VC doivent utiliser les mêmes ensembles de concepts pour pouvoir comparer

  31. Discussion • Chaque méthode nécessite des ressources lexicales spécifiques • Chaque méthode a des avantages et des limitations différents • Des méthodes peuvent être complémentaires • Il est préférable de pouvoir réutiliser ces méthodes existantes

  32. 1 2 3 + + 1 3 2 + + N 1 + Notre proposition algorithmes de structuration d’axies existantes 1 2 3 N … Avantages • dépasser limitations d’utilisation de méthode • adaptabilité à de nombreuses situations possibles Composer arbitrairement les algorithmes de structuration d’axies pour créer un BDLM de meilleure qualité possible selon les ressources disponibles

  33. Conception Système de structuration automatique des BDLM Développement + Évaluation des BDLM Notre contribution Idée : appliquer des techniques de génie logiciel Réalisation : Jeminie : canevas logiciel (framework) modulaire et adaptable

  34. Jeminie Trois fonctions principales • Préparation des données • Production et filtrage d’axies • Évaluation de la qualité de la base d’axies produites Trois types d’utilisateur • Linguiste • Programmeur • Utilisateur de base de données

  35. Jeminie : architecture globale linguiste processus de structuration Interpréteur de processus programmeur M2 M1 Mn Noyau de programme Persistance O/R utilisateur Base de données

  36. Jeminie : architecture globale linguiste • - Modèle de données • - Outils de base, p. ex. • Connexion à l’analyseur morpho-syntaxique • Connexion à la base de données • Importation de dictionnaires processus / mesure de qualtié Interpréteur de processus Interpréteur de mesure de qualité programmeur M2 M1 Mn Noyau de programme Persistance O/R utilisateur Base de données

  37. Jeminie : architecture globale linguiste Module est une implémentation d’un algorithme de structuration d’axies processus de structuration Interpréteur de processus programmeur M2 M1 Mn Noyau de programme Persistance O/R utilisateur Base de données

  38. Jeminie : architecture globale linguiste Module est une implémentation d’un algorithme de structuration d’axies processus de structuration Interpréteur de processus programmeur M2 M1 Mn Noyau de programme Jeminie peut être étendu en développant de nouveaux modules Persistance O/R utilisateur Base de données

  39. Module de structuration d’axie • updateAxieDatabase : implémente un nouvel algorithme • AxieDatabaseContext : indique la base lexicale à modifier • Parameters : indique les ressources utilisées par l’algorithme, ou les informations supplémentaires selon l’algorithme Publicinterface AxieCreator { void updateAxieDatabase(AxieDatabaseContext context, List parameters) boolean checkAxieCreatorParameters (List parameters) }

  40. Jeminie : comment ça marche Processus Interpréteur de processus entrée exécuter M2 M3 Mn M1 Base de données lexies & axies Noyau de programme Processus est une séquence d’exécutions de modules de structuration d’axies Jeminie entrée / sortie

  41. Jeminie : comment ça marche Processus Interpréteur de processus entrée exécuter M2 M3 Mn M1 Base de données lexies & axies Noyau de programme Jeminie entrée / sortie

  42. Processus entrée Jeminie : comment ça marche Interpréteur de processus exécuter M2 M3 Mn M1 Base de données lexies & axies Noyau de programme Jeminie entrée / sortie

  43. kyousou competition contest race compétition concours course race hâte FR JP EN Exemple de modules implémentés (1/3) Nom : BlingTransfertAxieCreator Paramètres : Dico L1L2, Dico L2L3, Base d’axies (BDa ) Résultat : de nouvelles axies créées par la méthode de transfert ajoutées dans BDa kyousou competition race course concours

  44. kyousou competition contest race compétition concours course FR JP EN Exemple de modules implémentés (2/3) Nom : BlingTransfertInverseAxieCreator Paramètres : Dico L1L2, Dico L2L3, Dico L3L2, Dico L2L1, Base d’axie (BDa ) Résultat : de nouvelles axies créées par la méthode de transfert et consultation inverse ajoutées dans BDa kyousou competition course concours

  45. Exemple de modules implémentés (3/3) Nom : VCAxieFilter Paramètres : Base d’axie (BDa ) , seuil pour la distance angulaire maximale Résultat : base BDa modifiée par la méthode de comparaison de vecteurs conceptuels 2 lexies > 2 lexies Z X X Y Y On enlève l’axie où DA (X,Y) > un seuil On enlève l’axie où la distance angulaire moyenne > un seuil

  46. Plan • Bases lexicales multilingues • Structuration d’axies • Travaux existants • Proposition pour la structuration d’axies • Expérimentation • Évaluation de la qualité d’axies • Proposition des mesures • Expérimentation

  47. Expérimentation : données • Données monolingues <HTML><HEAD><TITLE>Pisang generated page for GETDEF</TITLE></HEAD><link rel="stylesheet" href="http://www.lirmm.fr/~lafourca/style.css" type="text/css"><BODY bgcolor="#fffffe"><b>Warning : server learning since the 7/8/2002 at 11:20:10 </b><p><SERVICE-RESULT> <B><VED>inexpiable</VED></B> <BR><I> with 5 parts </I><blockquote> <B><SUBVED>inexpiable.3</SUBVED></B> <I>as</I> <def>#s=2# Que rien n'apaise. ( Haine inexpiable ) .</def> <font color="#888888" size="3"><code>[<src>HDL</src> <i>the 3/12/2001 at 20:55:51</i>]</code></font> <BR> 100015787,artifact,n 100015787,artefact,n 100016679,article,n 100016840,psychological feature,n 100016993,abstraction,n 100017218,cognition,n 100017218,knowledge,n WordNet 100015787,a man-made object taken as a whole 100016679,one of a class of artifacts 100016840,a feature of the mental life of a living organism 100016993,a general concept formed by extracting common features from specific examples 100017218,the psychological result of perception and learning and reasoning Donnée de Lirmm Royal Institute

  48. <lexie d:id="poème.3"> <headword>poème <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <government-pattern> <mod><actor/></mod> </government-pattern> <lexie d:id="poème.3"> <headword>poème <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <government-pattern> <mod><actor/></mod> </government-pattern> Expérimentation : données <lexie d:id="poème.3"> <headword>poème</headword> <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <more-info> <resource name= "LAR"> </resource> </more-info> </lexie> • Données monolingues html xml Papillon texte

  49. <lexie d:id="poème.3"> <headword>poème <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <government-pattern> <mod><actor/></mod> </government-pattern> Expérimentation : données • Données bilingues <volume name="oxford_mini" source-language="fra" target-language="eng"> <dict-entry> <entry>absent</entry> <pos>a.</pos> <translation>absent</translation> </dict-entry> </volume> xml xml html

  50. Jeminie : Préparation des données • InitLexieSimple(Dico.xml, BDa, fr) • Créer une lexie avec • information minimale • Mot-vedette • Partie de discours • Définition • Ressource • Langue <lexie d:id="poème.3"> <headword>poème</headword> <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <government-pattern> <mod><actor/></mod> </government-pattern> <more-info> <resource name= "LAR"> </resource> </more-info> </lexie> Base BDa

More Related