1 / 28

DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS. 1 er Avril 2010 – 30 Septembre 2010. Yuanyuan XU. Master Professionnel  Ingénierie de la Langue pour la Gestion Intelligente de l’Information. Plan. Problématique et cadre théorique

komala
Download Presentation

DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS 1er Avril 2010 – 30 Septembre 2010 Yuanyuan XU Master Professionnel  Ingénierie de la Langue pour la Gestion Intelligente de l’Information

  2. Plan • Problématique et cadre théorique • Segmentation proposée • Création du lexique morphosyntaxique chinois • Développement d’un étiqueteur morphosyntaxique • Evaluation de l’étiqueteur • Extraction des mots clés • Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  3. Syllabs: entreprise d’accueil • Laboratoire de Recherche privé et Entreprise • Spécialisé dans les Nouvelles Technologies de l’Information et de la Communication (TIC) • Projets R&D et développement de produits • Équipe de douze personnes Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  4. Plan • Problématique et cadre théorique • Segmentation proposée • Création du lexique morphosyntaxique chinois • Développement d’un étiqueteur morphosyntaxique • Evaluation de l’étiqueteur • Extraction des mots clés • Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  5. Problématique • Morphologie et syntaxe du chinois • Composition des mots • Morphologie dérivationnelle • Affixation • Réduplication • Identification des mots et segmentation Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  6. Identification des mots et segmentation (1) • Ambigüité et mots inconnus • Segmenteurs existants • Syllabs • PanGu • Stanford • TreeTagger Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  7. Identification des mots et segmentation (2) • Comparaison des outils • Stanford CTB ( Chinese TreeBank ) • Moins d’erreurs • Standard uniforme Exemples tableau: Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  8. Plan • Problématique et cadre théorique • Segmentation proposée • Création du lexique morphosyntaxique chinois • Développement d’un étiqueteur morphosyntaxique • Evaluation de l’étiqueteur • Extraction des mots clés • Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  9. Segmentation proposée Standard différent: Segmentation proposée: Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  10. Plan • Problématique et cadre théorique • Segmentation proposée • Création du lexique morphosyntaxique chinois • Développement d’un étiqueteur morphosyntaxique • Evaluation de l’étiqueteur • Extraction des mots clés • Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  11. Création du lexique (1) Catégories définies avec jeu d’étiquettes de Syllabs (19 catégories) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  12. Création du lexique (2) Gestion des lexiques avec l’éditeur OAL (Outil d’Aide au Linguiste) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  13. Paradigme Variable et Stem Liste des lemmes Flexions Création du lexique (3) Gestion des lexiques avec l’éditeur OAL (Outil d’Aide au Linguiste) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  14. Dictionnaire construit • 38.266 lemmes, 39.193 formes, 45 patterns et 62 paradigmes Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  15. Plan • Problématique et cadre théorique • Segmentation proposée • Création du lexique morphosyntaxique chinois • Développement d’un étiqueteur morphosyntaxique • Evaluation de l’étiqueteur • Extraction des mots clés • Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  16. Développement d’un étiqueteur morphosyntaxique non supervisé • Constitution du corpus d’entrainement non annoté (SylbootCat) • Résultat de l’étiqueteur Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  17. Règles de correction avec LOL (1) LOL (Linguistic Object Language) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  18. Règles de correction avec LOL (2) Template : Classificateur (M) => Nom commun (Nc) : Résultat : Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  19. Plan • Problématique et cadre théorique • Segmentation proposée • Création du lexique morphosyntaxique chinois • Développement d’un étiqueteur morphosyntaxique • Evaluation de l’étiqueteur • Extraction des mots clés • Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  20. Evaluation de l’étiqueteur • 50 phrases d’un corpus construit par MSRA (Microsoft Research) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  21. Plan • Problématique et cadre théorique • Segmentation proposée • Création du lexique morphosyntaxique chinois • Développement d’un étiqueteur morphosyntaxique • Evaluation d’étiqueteur • Extraction des mots clés • Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  22. Extraction de mots clés (1) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  23. Extraction de mots clés (2) Règle d’extraction: Résultat:

  24. Plan • Problématique et cadre théorique • Segmentation proposée • Création du lexique morphosyntaxique chinois • Développement d’un étiqueteur morphosyntaxique • Evaluation d’étiqueteur • Extraction des mots clés • Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  25. Conclusion • Bilan • Proposition de segmentation pour: • S’adapter aux besoins de Syllabs • L’amélioration du traitement des mots inconnus • 38.266 lemmes, 95% de couverture, corpus crawlé 394.250 phrases • Perspectives à court terme • Mélange chinois simplifié et traditionnel • Mélange caractères chinois et latins • Amélioration d’étiqueteur • Corpus de référence • Perspective à long terme • Ambigüité • Segmenteur Syllabs • Encodage • Guesseur chinois Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  26. Référence Introduction to Chinese Natural Language Processing Wang, K.-F., Li, W., Xu, R., & Zhang, Z.-S. 2010 Hybrid approaches for automatic segmentation and annotation of a chinese text corpus Feng, Z. 2001 "一种基于字词联合解码的中文分词方法" (Approach to Chinese Word Segmentation Based on Character-Word Joint Decoding) Song, Y., Cai, D.-f., Zhang, G.-p., & Zhao, H. 2009 Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

  27. Merci de votre attention! Question?

  28. Identification des mots et segmentation Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

More Related