DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS 1er Avril 2010 – 30 Septembre 2010 Yuanyuan XU Master Professionnel Ingénierie de la Langue pour la Gestion Intelligente de l’Information

Plan • Problématique et cadre théorique • Segmentation proposée • Création du lexique morphosyntaxique chinois • Développement d’un étiqueteur morphosyntaxique • Evaluation de l’étiqueteur • Extraction des mots clés • Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Syllabs: entreprise d’accueil • Laboratoire de Recherche privé et Entreprise • Spécialisé dans les Nouvelles Technologies de l’Information et de la Communication (TIC) • Projets R&D et développement de produits • Équipe de douze personnes Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Problématique • Morphologie et syntaxe du chinois • Composition des mots • Morphologie dérivationnelle • Affixation • Réduplication • Identification des mots et segmentation Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Identification des mots et segmentation (1) • Ambigüité et mots inconnus • Segmenteurs existants • Syllabs • PanGu • Stanford • TreeTagger Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Identification des mots et segmentation (2) • Comparaison des outils • Stanford CTB ( Chinese TreeBank ) • Moins d’erreurs • Standard uniforme Exemples tableau: Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Segmentation proposée Standard différent: Segmentation proposée: Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Création du lexique (1) Catégories définies avec jeu d’étiquettes de Syllabs (19 catégories) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Création du lexique (2) Gestion des lexiques avec l’éditeur OAL (Outil d’Aide au Linguiste) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Paradigme Variable et Stem Liste des lemmes Flexions Création du lexique (3) Gestion des lexiques avec l’éditeur OAL (Outil d’Aide au Linguiste) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Dictionnaire construit • 38.266 lemmes, 39.193 formes, 45 patterns et 62 paradigmes Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Développement d’un étiqueteur morphosyntaxique non supervisé • Constitution du corpus d’entrainement non annoté (SylbootCat) • Résultat de l’étiqueteur Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Règles de correction avec LOL (1) LOL (Linguistic Object Language) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Règles de correction avec LOL (2) Template : Classificateur (M) => Nom commun (Nc) : Résultat : Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Evaluation de l’étiqueteur • 50 phrases d’un corpus construit par MSRA (Microsoft Research) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Plan • Problématique et cadre théorique • Segmentation proposée • Création du lexique morphosyntaxique chinois • Développement d’un étiqueteur morphosyntaxique • Evaluation d’étiqueteur • Extraction des mots clés • Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Extraction de mots clés (1) Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Extraction de mots clés (2) Règle d’extraction: Résultat:

Plan • Problématique et cadre théorique • Segmentation proposée • Création du lexique morphosyntaxique chinois • Développement d’un étiqueteur morphosyntaxique • Evaluation d’étiqueteur • Extraction des mots clés • Conclusion Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Conclusion • Bilan • Proposition de segmentation pour: • S’adapter aux besoins de Syllabs • L’amélioration du traitement des mots inconnus • 38.266 lemmes, 95% de couverture, corpus crawlé 394.250 phrases • Perspectives à court terme • Mélange chinois simplifié et traditionnel • Mélange caractères chinois et latins • Amélioration d’étiqueteur • Corpus de référence • Perspective à long terme • Ambigüité • Segmenteur Syllabs • Encodage • Guesseur chinois Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Référence Introduction to Chinese Natural Language Processing Wang, K.-F., Li, W., Xu, R., & Zhang, Z.-S. 2010 Hybrid approaches for automatic segmentation and annotation of a chinese text corpus Feng, Z. 2001 "一种基于字词联合解码的中文分词方法" (Approach to Chinese Word Segmentation Based on Character-Word Joint Decoding) Song, Y., Cai, D.-f., Zhang, G.-p., & Zhao, H. 2009 Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

Merci de votre attention! Question?

Identification des mots et segmentation Développement et intégration de ressources linguistiques pour le traitement automatique du chinois

DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

DEVELOPPEMENT ET INTEGRATION DE RESSOURCES LINGUISTIQUES POUR LE TRAITEMENT AUTOMATIQUE DU CHINOIS

Presentation Transcript

Outils et ressources linguistiques pour l’alignement de textes bilingues français-vietnamiens

Cours 4: Vieillissement et ressources de traitement

CENTRE NATIONAL POUR LE DEVELOPPEMENT DU SPORT CNDS

MIGRATION ET DEVELOPPEMENT ASPECTS STRATEGIQUES POUR LE MAROC

FEDERATION POUR LE DEVELOPPEMENT DU MONDE RURAL - FDMR - Burundi

TAL (Traitement automatique du langage)

Traitement Automatique de la Langue:

ASSOCIATION POUR LA SANTE ET LE DEVELOPPEMENT FAMILIAL

INITIATIVES REGIONALES POUR LE DEVELOPPEMENT DU NUMERIQUE EN MARTINIQUE

ASSOCIATION POUR LA SANTE ET LE DEVELOPPEMENT FAMILIAL

CENTRE NATIONAL POUR LE DEVELOPPEMENT DU SPORT

Ressources lexicales et grammaticales pour le russe

Ressources lexicales et grammaticales pour le russe

ASSOCIATION POUR LA SANTE ET LE DEVELOPPEMENT FAMILIAL République Démocratique du Congo

Du traitement automatique de l’information à sa manipulation

Le Traitement Automatique des Langues (TAL)

COMMUNICATION POUR LE DEVELOPPEMENT COMMUNAUTAIRE ET DURABLE

Ressources lexicales et grammaticales pour le russe

Traitement automatique de la langue

Sources et Ressources pour les sciences sociales : nature / traitement / modélisation

Outils pour le traitement des textes Commandes Unix pour traiter les ressources linguistiques

QUELS ENJEUX DE DEVELOPPEMENT POUR LE BENIN ?