200 likes | 316 Views
La prosodie pour l’Identification Automatique des Langues. DEA IIL - IRIT - équipe IHM-PT Directeur de recherche: Régine ANDRE-OBRECHT Responsable de stage : François PELLEGRINO Jérôme FARINAS. Plan de l’exposé. Cadre de l’étude La prosodie
E N D
La prosodie pour l’Identification Automatique des Langues DEA IIL - IRIT - équipe IHM-PT Directeur de recherche: Régine ANDRE-OBRECHT Responsable de stage : François PELLEGRINO Jérôme FARINAS
Plan de l’exposé • Cadre de l’étude • La prosodie • Evaluation des algorithmes d’extraction de la fréquence fondamentale • Une modélisation de la prosodie pour l’IAL • Conclusions et perspectives
1 Cadre de l’étude • Identification Automatique des Langues (IAL) • Projet de recherche de l’équipe : • projet Discrimination Automatique Multilingue • système complet d’IAL : • un module de décodage acoustico-phonétique • un modèle de langage • un module prosodique • Sujet de DEA : • recherche des algorithmes d’extraction de la fréquence fondamentale, • étude multilingue de la structure prosodique suprasegmentale (recherche d’unités prosodiques et modélisation)
2 La prosodie • définitions • quelques fonctions • difficultés liés à l’extraction de paramètres et à la modélisation
2 La prosodie : définitions • Au niveau acoustique : • Hauteur (fréquence fondamentale F0) • intensité (énergie) • durée • Au niveau perceptuel : • rythme • mélodie • accentuation
2 La prosodie : quelques fonctions • Distinction entre homonymes a segment to segment plátano platano • Structuration de l’énoncé L’instituteur dit le directeur est un incapable • Modalité Il va venir ? Il va venir. Il va venir ! • Fonctions non linguistiques calme ou énervé, triste ou gai, enthousiaste, surpris...
2 La prosodie : difficultés • Au niveau de la modélisation : • nombreux modèles, pas de théorie unifiée • apprentissage implicite : • enseignement implicite pour la langue naturelle • prise en compte récente lors de l’apprentissage de langues étrangères [Bagshaw 94] • Au niveau de l’extraction de paramètres : • détection voisement • confusion entre harmoniques • signal téléphonique (F0 manquant, variabilité)
Évaluation algorithmes... • Comment évaluer un algorithme ? • Difficultés dues aux erreurs de détections • Autre source d’information pour évaluer • Bases de référence [Bagshaw 94] • Intérêt de la combinaison d’algorithmes d’extraction de la fréquence fondamentale [Hess 83]
4 Une modélisation de la prosodie pour l’IAL • Corpus utilisé • Système général • Extraction de paramètres • Modélisation des unités prosodiques • Modèle de langage • résultats
4 Une modélisation… : corpus utilisé • OGI-MLTS (Oregon Graduate Institute - Multi Lingual Téléphone Speech Corpus) • corpus développé pour l’IAL • 11 langues (Français et Japonais utilisés) • Fichiers de parole non-contrainte : htl, htc, meal, room, story-at, story-bt • Divisé en corpus APP et TST
4 Une modélisation… : système général • Modélisations existantes : • approche classique adaptée à la prosodie [Muthusamy 93] [Hazen 97] • approche basée sur F0 [Itahashi 95] • Vue générale du module prosodique : Signal Langue Segmentation Paramétrisation Modèle prosodique Modèle de langage
4 Une modélisation... : extraction de paramètres Dénivelé de E et de F0 Dérivée première de E et de F0 Dérivée seconde de E et de F0 Ecart-type de E et de F0 Skewness de E et de F0 Kurtosis de E et de F0
1 état 3 états 4 Une modélisation… : modèle prosodique • Unité : segment voisé • 10 formes prosodiques : ST, BU, TR, UPlo, UPmi, UPhi, UPen, DWlo, DWmi, DWhi • une forme = un Modèle de Markov Caché
4 Une modélisation… : modèle de langage • But : modéliser les enchaînements entre les formes contenues dans les «phrases» • Modèle langage bigramme (en utilisant le système multigramme [Deligne 96]) øi: Forme prosodique
4 Une modélisation… : résultats • Modélisation des unités prosodiques : • Identification des langues :
5 Conclusion et perspectives • Recherche d’unités prosodiques spécifiques à chaque langue • Essayer d’autres modélisations des unités prosodiques • Modélisation de la durée pour prendre en compte le rythme de la parole