360 likes | 541 Views
Reconnaissance de la parole. Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org. Objectifs. Transformer un signal de parole en : Texte (dictée vocale, transcription) Action (commande vocale, systèmes de dialogue) Information indexée (annotation, indexation).
E N D
Reconnaissance de la parole Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Objectifs Transformer un signal de parole en : • Texte (dictée vocale, transcription) • Action (commande vocale, systèmes de dialogue) • Information indexée (annotation, indexation) LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Les sources de variabilité • Les facteurs intra-locuteurs :co-articulation, variation dans la prononciation, etc. • Les facteurs inter-locuteurs :physiologie, age, sexe, psychologie, familiarité avec l’application, etc. • L’environnement :bruit, micro, canal de transmission, présence d’autres locuteurs, etc. LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Variabilité intra- et inter-locuteur LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Variabilité intra-locuteur LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Typologie des systèmes • Type de parole • Taille du vocabulaire • Niveau de dépendance par rapport aux locuteurs • Environnement d’utilisation • Profil des utilisateurs potentiels LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Type de parole • Mots isolés • Mots connectés • Détection de mots clés • Parole contrainte • Parole continue • Parole spontanée LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Taille du vocabulaire • Quelques mots (5 – 50) • Petit vocabulaire (50 – 500) • Vocabulaire moyen (500 – 5000) • Grand vocabulaire (5000 – 50000) • Très grand vocabulaire (> 50000) LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Dépendance au locuteur • Dépendant du locuteur :le système fonctionne correctement avec un utilisateur particulier Adaptation au locuteur =utilise quelques données spécifiquesd’un locuteur pour adapter le systèmeà une nouvelle voix • Indépendant du locuteur :le système fonctionne avec n’importe quel utilisateur LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Environnement d’utilisation • Parole large-bande(ordinateur, etc.) • Parole bande-étroite avec distorsion (téléphone, etc.) • Environnement calme (bureau + micro-casque) • Bruit de fond LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Profil des utilisateurs potentiels • Utilisation professionnelle par des spécialistes • Grand public • Entraîné / naïf • Fréquent / occasionnel • Utilité • Coopération LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Deux exemples Dictée vocale • Parole continue • Grand vocabulaire • Adaptation au locuteur • Bureau+micro-casque • Utilisateurs d’ordinateurs Service téléphonique • Détection de mots clés • Quelques mots • Indépendant du locuteur • Parole téléphonique • Grand public LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Système de reconnaissance de mots LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Mot 1 Mot inconnu Y Mot 2 Mot X Mot n meilleur chemin Programmation dynamique (DTW) LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Contraintes locales LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Contraintes locales : exemple LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Modèle de Markov caché : principe LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Mot inconnu Y Mot 1 Mot 2 Mot X Mot n meilleur chemin Modèles de Markov cachés (HMM) LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Viterbi : exemple LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Algorithme de Viterbi : exercice LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Le modèle hiérarchique LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Le modèle hiérarchique : exemple LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Modèles phonétiques (1) LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Modèles phonétiques (2) Le mot « américain » LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Modèles contextuels LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Modèles de langage • A un instant donné, tous les mots n’ont pas la même probabilité de présence : • Le petit chat boit du … • Grammaires probabilistes : toutes les phrases sont possibles mais avec des probabilités différentes • Grammaires à états finis : partition binaire des séquences de mots en « séquences possibles » et « séquences impossibles » LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Modèle acoustique + Modèle de langage LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Les n meilleures phrases LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Treillis de mots / Graphe de mots LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Graphe de mots (2) LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Performances LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Recherche actuelle LE TRAITEMENT AUTOMATIQUE DE LA PAROLE