280 likes | 412 Views
DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS. 1 er Avril 2010 – 30 Septembre 2010. Yuanyuan XU. Master Professionnel Ingénierie de la Langue pour la Gestion Intelligente de l’Information. Plan. Problématique et cadre théorique
E N D
DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS 1er Avril 2010 – 30 Septembre 2010 Yuanyuan XU Master Professionnel Ingénierie de la Langue pour la Gestion Intelligente de l’Information
Plan • Problématique et cadre théorique • Segmentation proposée • Création du lexique morphosyntaxique chinois • Développement d’un étiqueteur morphosyntaxique • Evaluation de l’étiqueteur • Extraction des mots clés • Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Syllabs: entreprise d’accueil • Laboratoire de Recherche privé et Entreprise • Spécialisé dans les Nouvelles Technologies de l’Information et de la Communication (TIC) • Projets R&D et développement de produits • Équipe de douze personnes Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Plan • Problématique et cadre théorique • Segmentation proposée • Création du lexique morphosyntaxique chinois • Développement d’un étiqueteur morphosyntaxique • Evaluation de l’étiqueteur • Extraction des mots clés • Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Problématique • Morphologie et syntaxe du chinois • Composition des mots • Morphologie dérivationnelle • Affixation • Réduplication • Identification des mots et segmentation Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Identification des mots et segmentation (1) • Ambigüité et mots inconnus • Segmenteurs existants • Syllabs • PanGu • Stanford • TreeTagger Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Identification des mots et segmentation (2) • Comparaison des outils • Stanford CTB ( Chinese TreeBank ) • Moins d’erreurs • Standard uniforme Exemples tableau: Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Plan • Problématique et cadre théorique • Segmentation proposée • Création du lexique morphosyntaxique chinois • Développement d’un étiqueteur morphosyntaxique • Evaluation de l’étiqueteur • Extraction des mots clés • Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Segmentation proposée Standard différent: Segmentation proposée: Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Plan • Problématique et cadre théorique • Segmentation proposée • Création du lexique morphosyntaxique chinois • Développement d’un étiqueteur morphosyntaxique • Evaluation de l’étiqueteur • Extraction des mots clés • Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Création du lexique (1) Catégories définies avec jeu d’étiquettes de Syllabs (19 catégories) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Création du lexique (2) Gestion des lexiques avec l’éditeur OAL (Outil d’Aide au Linguiste) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Paradigme Variable et Stem Liste des lemmes Flexions Création du lexique (3) Gestion des lexiques avec l’éditeur OAL (Outil d’Aide au Linguiste) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Dictionnaire construit • 38.266 lemmes, 39.193 formes, 45 patterns et 62 paradigmes Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Plan • Problématique et cadre théorique • Segmentation proposée • Création du lexique morphosyntaxique chinois • Développement d’un étiqueteur morphosyntaxique • Evaluation de l’étiqueteur • Extraction des mots clés • Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Développement d’un étiqueteur morphosyntaxique non supervisé • Constitution du corpus d’entrainement non annoté (SylbootCat) • Résultat de l’étiqueteur Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Règles de correction avec LOL (1) LOL (Linguistic Object Language) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Règles de correction avec LOL (2) Template : Classificateur (M) => Nom commun (Nc) : Résultat : Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Plan • Problématique et cadre théorique • Segmentation proposée • Création du lexique morphosyntaxique chinois • Développement d’un étiqueteur morphosyntaxique • Evaluation de l’étiqueteur • Extraction des mots clés • Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Evaluation de l’étiqueteur • 50 phrases d’un corpus construit par MSRA (Microsoft Research) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Plan • Problématique et cadre théorique • Segmentation proposée • Création du lexique morphosyntaxique chinois • Développement d’un étiqueteur morphosyntaxique • Evaluation d’étiqueteur • Extraction des mots clés • Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Extraction de mots clés (1) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Extraction de mots clés (2) Règle d’extraction: Résultat:
Plan • Problématique et cadre théorique • Segmentation proposée • Création du lexique morphosyntaxique chinois • Développement d’un étiqueteur morphosyntaxique • Evaluation d’étiqueteur • Extraction des mots clés • Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Conclusion • Bilan • Proposition de segmentation pour: • S’adapter aux besoins de Syllabs • L’amélioration du traitement des mots inconnus • 38.266 lemmes, 95% de couverture, corpus crawlé 394.250 phrases • Perspectives à court terme • Mélange chinois simplifié et traditionnel • Mélange caractères chinois et latins • Amélioration d’étiqueteur • Corpus de référence • Perspective à long terme • Ambigüité • Segmenteur Syllabs • Encodage • Guesseur chinois Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Référence Introduction to Chinese Natural Language Processing Wang, K.-F., Li, W., Xu, R., & Zhang, Z.-S. 2010 Hybrid approaches for automatic segmentation and annotation of a chinese text corpus Feng, Z. 2001 "一种基于字词联合解码的中文分词方法" (Approach to Chinese Word Segmentation Based on Character-Word Joint Decoding) Song, Y., Cai, D.-f., Zhang, G.-p., & Zhao, H. 2009 Développement et intégration de ressources linguistiques pour le traitement automatique du chinois
Merci de votre attention! Question?
Identification des mots et segmentation Développement et intégration de ressources linguistiques pour le traitement automatique du chinois