480 likes | 583 Views
Une approche multi-disciplinaire pour le traitement automatique des langues peu dotées . Laurent Besacier Université Joseph Fourier (Grenoble 1) Laboratoire d’Informatique de Grenoble Equipe GETALP. Plan. Contexte & Enjeux La diversité linguistique Objet
E N D
Une approche multi-disciplinaire pour le traitement automatique des langues peu dotées Laurent Besacier Université Joseph Fourier (Grenoble 1) Laboratoire d’Informatique de Grenoble Equipe GETALP
Plan • Contexte & Enjeux • La diversité linguistique • Objet • Une étude des langues abordée selon l’angle du traitement automatique • Multidisciplinarité • Informatique, Signal, Phonétique, Linguistique de terrain, etc. • Exemples • Sur des langues issues de quatre continents • Revitalisation d’un langue peu dotée du sud-ouest colombien
Plan • Contexte & Enjeux • La diversité linguistique « We should treat language diversity as we treat bio-diversity » David Crystal, Language Death - Cambridge: CUP, 2000
Diversité des langues sur Internet -Top-10: +200% -Chinois: +414% -Arabe: +940% -Autres : +440% (sauf top-10) [ITU] 30/6/07
Diversité des langues parlées Langues les plus parlées dans le monde (source : www.ethnologue.com ; pris en 2007)
Diversité mais… -Quelques dizaines de langues n’ont plus qu’un locuteur -500 langues avec <500 locuteurs -1500 langues avec < 1000 locuteurs -3000 langues avec < 10.000 -5000 langues avec < 100.000 -96% des langues parlées par seulement 4% de la population mondiale
Diversité mais… -Quelques dizaines de langues n’ont plus qu’un locuteur -500 langues avec <500 locuteurs -1500 langues avec < 1000 locuteurs -3000 langues avec < 10.000 -5000 langues avec < 100.000 -96% des langues parlées par seulement 4% de la population mondiale Enjeux patrimoniaux (documentation / revitalisation des langues en danger)
Diversité mais… • Langues véhiculaires (lingua-franca) qui prédominent • Nombreux contenus (texte, audio) produits par des « non natifs» Source : « Human Language Technologies for Europe », E.U., April 2006
Quelques technologies centrales pour aborder cette diversité… • Traduction automatique • Traduction, par une machine, d’un texte en langue source vers un texte en langue cible • Reconnaissance automatique de la parole multilingue • Transcription, par une machine, d’un enregistrement (ou d’un flux) contenant de la parole • Speech-to-text • Doit être disponible pour un grand nombre de langues • Doit prendre en compte les variétés dialectales, les locuteurs non natifs, etc • Enjeux • Systèmes interactifs multilingues • Accès multilingue à l’information (et publication multilingue d’informations)
Plan • Contexte & Enjeux • La diversité linguistique • Objet • Une étude des langues abordée selon l’angle du traitement automatique
Langues peu dotées : définition • Langues présentant certaines, sinon toutes les caractéristiques suivantes : • manque d’un système d’écriture unique ou d’une orthographe stable • www.omniglot.comseules 800 langues environ sur 6000 possèdent un système d’écriture • présence limitée sur le Web, • manque d’expertises linguistiques, phonétiques • manque de ressources pour le TALN • données linguistiques, corpus monolingues et bilingues, dictionnaires électroniques, thésaurus, analyseurs morphologiques/syntaxiques, étiqueteurs, etc. ! Différent d’une langue en danger mais caractéristiques communes !
Langues peu dotées : défis • Pour le traitement automatique • Proposer des techniques qui vont bien au-delà du simple re-apprentissage des modèles • Systèmes phonologiques particuliers • Langue non écrite • Problèmes de segmentation en mots • Remise en cause des unités de modélisation standard (mots/phonèmes) • Variantes dialectales • Présence massive de locuteurs non natifs • Alternance codique
Langues peu dotées : défis • Pour les langues elle-mêmes • Outiller les langues • Aider les linguistes de terrain, les phonéticiens • Participer à la revitalisation de certaines langues … • … ou à leur sauvegarde
Plan • Contexte & Enjeux • La diversité linguistique • Objet • Une étude des langues abordée selon l’angle du traitement automatique • Multidisciplinarité • Informatique, Signal, Phonétique, Linguistique de terrain, etc.
Multidisciplinarité • Fossé entre experts de la langue (les locuteurs eux-mêmes) et experts en technologies (les développeurs de systèmes) • Nécessité d’emprunter des ressources et des connaissances issues de langues proches • Appel aux dialectologues, aux phonéticiens • Accéder aux locuteurs / collecter des données selon les règles élémentaires éthiques et techniques • Linguistes de terrain, ethnologues, traducteurs • Revitalisation via l’utilisation d’outils d’aide à l’apprentissage • Enseignants des langues, didacticiens
Pour arriver où ? • Outiller les langues • Correcteurs orthographiques, transcription, dictionnaires, etc. • Participer à leur revitalisation… • Apprentissage des langues • … ou à leur sauvegarde • Numérisation, accès, recherche d’information • Humanités numériques… • Proposer / aborder de nouveaux paradigmes / questionnements • Modélisation multilingue pour la reconnaissance automatique de la parole • Traduction de parole à partir d’une langue non écrite • Rôle de la technologie dans l’évolution des langues
Rôle de la technologie dans l’évolution des langues • Nicholas Ostler : président de la fondation pour les langues en danger (Foundation for Endangered Languages) • The Last Lingua Franca: English Until the Return of Babel, by Nicholas Ostler Walker & Co • A propos des technologies actuelles de traduction automatique, l’auteur indique • « A technological revolution could save declining tongues from extinction. Those who now neglect their traditional regional language in favor of English would no longer need a lingua franca to access the same commercial and cultural opportunities » • Concept de « langue virtuelle »
Plan • Contexte & Enjeux • La diversité linguistique • Objet • Une étude des langues abordée selon l’angle du traitement automatique • Multidisciplinarité • Informatique, Signal, Phonétique, Linguistique de terrain, etc. • Exemples • Langues issues de quatre continents • Revitalisation d’un langue peu dotée du sud-ouest colombien
Dictionnaire de prononciation signal Signal Modèles acoustiques Modélisation acoustique Signaux annotés Système de RAP Phrase Modélisation du langage Phrase reconnue Modèles de langage Corpus textuels Vocabulaire Ressources nécessaires pour la RAP • Corpus textuels et de parole • Dictionnaire de prononciation • Modèles acoustiques • Modèles de langage
Phonème FR Phonème VN Modélisation acoustique translingue • FR/VN ~63% couverture • Si plusieurs langues source (ex: modèle multilingue de 7 langues) => 87% couverture Bénéfice d’une couverture multilingue
Modélisation acoustique multilingue • Représentation des unités acoustiques (pour la reconnaissance de parole) dans un espace multilingue • Collection de HMMs • Appris sur des bases de parole multilingues • Modèles « à large couverture » représentant les unités phonétiques des langues du monde • Mesures de similarité entre phonèmes (ou unités plus complexes) • Amorçage (bootstrap) des modèles acoustiques pour les langues peu dotées • Thèse Viet-Bac Le (juin 2006) • Adaptation de modèles à la parole non native • Thèse Tien-Ping Tan (juillet 2008) • Identification de l’accent
Amorçage de modèles pour la reconnaissance automatique du vietnamien PI VN FR FR EN EN CH « Automatic Speech Recognition for Under-Resourced Languages: Application to Vietnamese Language » IEEE Transactions on ASL, 2009 (with Viet-Bac LE)
Exemple de résultats (2006) • Portabilité rapide d’un système de reconnaissance de parole vers le vietnamien et le khmer Performance de RAP pour le vietnamien (% syllabes correctes) Corpus de dialogue chi,cro,fr,ge, jap,esp,turc Même méthodologie appliquée au khmer : système de RAP développé en quelques semaines : WA=73.6% sur des phrases lues
MA VN (L1) MA FR (L2) Exemple de résultats (2008) Adaptation de modèles à la parole non native vietnamien (L1) parlant français (L2)
Exemple de résultats (2009) • RI multilingue • http://www.thestarchallenge.sg/ • Lancé par une compagnie singapourienne • ~50 participants dont le LIG (collaboration avec MRIM) • LIG finaliste (top 5) • Contenus multilingues, fortement accentués (singlish) • Recherche par API (requêtes constituées de phonèmes de l’Alphabet Phonétique International) • Utilisation d’un modèle multilingue à large couverture qui transcrit les documents selon l’alphabet phonétique international “Content-based search in multilingual audiovisual documents using the International Phonetic Alphabet.”, Multimedia Tools and Applications Journal, 48(1)
Exemple de résultats (2010) • Aide à l’analyse d’une langue en danger (Punu) • Travail similaire en cours sur le Mo-Piu (Vietnam) Résultat de l’alignement forcé du mot [dile:m͡bi] confronté à l’alignement de référence (ligne du haut). Using automatic speech recognition for phonological purposes: Study of Vowel Lenght in Punu (Bantu B40). Laphon 12 (with Hadrien GELAS & al)
Exemple de résultats (2012) • Structure syllabique de la langue amharique et de son système d’écriture • Unités CV pour la modélisation acoustique Syllable-Based and Hybrid Acoustic Models for Amharic Speech Recognition. SLTU 2012 (avec M. Y. Tachbelie, S. T. Abate & S. Rossato)
Collecter des données langagières sur le Web • Collecte de données textuelles monolingues • parfois unique moyen de collecter des données pour certaines langues • utile pour collecter des données sur un domaine particulier • problèmes de remise en forme des données : ex. restauration des diacritiques pour le roumain • Collecte de données textuelles bilingues • Thèse de Thi-Ngoc-Diep Do • A partir de corpus comparables ou de corpus partiellement parallèles • Itération de la boucle collecte-apprentissage (non supervisé ou peu supervisé) Enhancing Automatic Speech Recognition for Romanian by Using Machine Translated and Web-based Text Corpora SPECOM'2011 (avec H. Cocu & C. Burileanu) “Mining a comparable text corpus for a Vietnamese–French statistical machine translation system”, EACL/WMT 2009
Revitalisation d’une langue en danger du sud-ouest colombien • Projet Ecos-Nord avec DDL et Université du Cauca • Langues du sud-ouest colombien : Nasa Yuwe (Paes) et Nam Trik • Développement de technologies informatiques pour compléter les outils informatiques didactiques • apprentissage autonome des langues (outils d’aide à la prononciation). Pronunciation Learning System for the 32 vowel system of Nasa Yuwe Language. SLTU 2012 (avec R. Naranjo, E. Marsico, F. Pellegrino & T. Rojas)
Contexte Nasa : deuxième plus grand groupe ethnique en Colombie Maintien de la tradition orale au fil du temps La communauté Nasa est maintenant en train de perdre l'usage de la langue Efforts visant à revitaliser la langue Unification de l'alphabet Nasa Enseignement de la langue! 4 voyelles (A, E, I, U) – chaque groupe subdivisé en oral et nasal 4 modes d’articulation des voyelles : normal (basic), coup de glotte (glottal stop), aspirée (aspirated) et allongée (elongated), soit au total 32 voyelles ! Forte confusion chez les apprenants
Description des voyelles (Rojas, 2011) – publication en espagnol
Premiers objectifs Construire et optimiser un système de classification de voyelles Construire un prototype de CAPT (Système d’Apprentissage de la Prononciation Assisté par Ordinateur) Mettre en place et appliquer des tests réels avec des locuteurs natifs et des apprenants
(Rapide) Revue de l’Apprentissage de la Prononciation Assisté par Ordinateur Modèles fondés sur le calcul d’un rapport de vraisemblance (likelihood ratio test - LRT) (Fraco et al 99). Modèles fondés sur le calcul d’une probabilité a posteriori (Fraco et al 99). Modèles de qualité de la prononciation (goodness of pronunciation – GOP) (Witt & Young 00). Modèles acoustico-phonetiques avec classifieurs binaires (Troun et al. 09).
Corpus Mots isolés contenant les voyelles cibles Les apprenant participent à des exercices de prononciation avec ces mots Vocabulaire limité (250 mots) Structure phonétique : CV, VC, CVC, CCVCV 4224 enregistrements de locuteurs natifs 132 répetitions pour chacune des 32 voyelles 1088 enregistrements d’apprenants (non natifs) Les voyelles sont segmentées en utilisant la technique DTW
Paramètres et Modèles Utilisés Vecteurs de paramètres 30 coefficients LPC et énergie residuelle Sous-échantillonage à 16 kHz (44kHz au départ) K-plus proches voisins (K-nearest neighbor – KNN) 3-NN + distance euclidienne Perceptron multi-couches (Multilayer perceptron – MLP) 16-25-25-8 or 16-25-25-2 Algo. de Levenberg-Marquardt Modèles de Markov Cachés (HMM) 3 états
Expériences Validation croisée (20-replis) 80% apprentissage / 20% test Première expérience Un classifieur pour chacun des 4 groupes de voyelles (A, E, I, U) Performances décevantes Seconde expérience Un classifieur (binaire) appris pour chaque voyelle 106 occurences “positives”, 106 occurences “negatives” pour chaque voyelle (%Correct=~75%)
Expériences Troisième expérience Utilisation du “bagging” Connu pour être utile sur de petits corpus Sélectionne aléatoirement n sous-ensembles de données, et entraine 1 classifieur avec chaque sous ensemble (n au total). Les n classifieurs sont combinés par vote majoritaire (Kuncheva, 2004) Accroissement du nombre d’occurences “negatives” de 106 à 742 par voyelle
Performance pour les groupes de voyelles A et E (3è expérience)
Performance pour les groupes de voyelles I et U (3è expérience) Performance > 80% avec “bagging” et ajout d’exemples négatifs
Distribution des scores non natifs vs natifs 5 locuteurs natifs ; 845 signaux 3 locuteurs non natifs ; 1088 signaux scores normalisés entre 0 et 1
Analysis des confusions du système • Pour les locuteurs non natifs, est-ce que les confusions sont dues aux erreurs du système ou aux erreurs de prononciation des apprenants ? • Pas encore analysé mais, si on insiste sur la voyelle a’ (glottale) • 38 signaux contenant un a’ • 9 classés comme a’ • 9 classés comme a (7 detections correctes d’erreur d’apprenant) • 9 classés comme ã (2 detections correctes d’erreur d’apprenant) • 6 classés comme ã' (non analysé) • 3 classés comme a: (non analysé) • 2 classés comme ã: (non analysé)
Discussion Modèles pour les 32 voyelles du Nasa yuwe Les taux de précision sont en moyenne supérieurs à 80% pour les locuteurs natifs MLP + bagging sont les meilleurs classifieurs binaires Certaines confusions des apprenants ont pu être mises en évidence grâce au processus automatique Voyelles allongées vs normales
References CASACUBERTA, F., VIDAL, E., AIBAR, P. (1991). Decodificación Acústico Fonética mediante plantillas subléxicas. Procesamiento del lenguaje natural, Nº. 11. 265-274. CRIC. (2000). Acerca de la unificación del alfabeto Nasa yuwe. Revista C'ayu'ce número 4. 52-53. CRIC. (2001). Cartilla Nasa yuwe Cartilla. Consejo Regional Indígena del Cauca. DUDA, O. HARD, R. STORK, P. (2000). Patter Clasification. 2 Ed. Jhon Wiley & Son. MARSICO, E., ROJAS, T. (1998). Etude acoustique préliminarire des 16 voyelles orales du Paez de Talaga, langue amérindienne. XXII journees d’etude sur la parole. KUNCHEVA, L. (2004). Combining pattern classifiers: models and algorithms. Ed. Jhon Wiley. FRANCO, H., NEUMEYER, L., KIM, Y., RONEN, O., BRATT, H. (1999). Automatic detection of phone-level mispronunciation for language learning. In: Proc. European Conference on Speech Communication and Technology. 851–854. FREUND, Y. SCHAPIRE, R. (1997). A decision theoretic generalization of On line learning and an application to Boosting. Journal of computer and system sciences 55, pp. 119-139. HAYKIN, S. (1998). Neural Networks: A Comprehensive Foundation (2nd Edition), Prentice Hall. HUANG, X., ACERO, A., HON, H. (2001). Spoken Language Processing. Prentice Hall. 290-303. RABINER, L. JUANG, B.H. (1993). Fundamental Speech Recognition, Prentice - Hall International Inc. SAKOE, H., CHIBA, S. (1978). Dynamic programming optimization for spoken word recognition, IEEE Trans. Acoust. Speech Signal Process. Vol. ASSP-26, No. 1. 43-49. TROUN, K., NERI, A., CUCCHIARINI, C., STRIK, H. (2009). Automatic pronunciation error detection: an acoustic-phonetic approach. University of Nijmegen. http://citeseerx.ist.psu.edu/. WITT, S.M., YOUNG, S.J. (2000). Phone-level pronunciation scoring and assessment for interactive language learning. Speech Comm. 95–108.
Merci de votre attention… • Pour en savoir plus… http://pi.imag.fr