310 likes | 638 Views
Traitement de la parole : Synthèse et reconnaissance. Plan. La parole, c’est quoi ? Analyse de la parole Parole et IdL Synthèse vocale Reconnaissance vocale Evaluation. 1. La parole, c’est quoi ?. Production Perception. Production Signal acoustique « en 3 étapes »
E N D
Plan • La parole, c’est quoi ? • Analyse de la parole • Parole et IdL • Synthèse vocale • Reconnaissance vocale • Evaluation
Production Perception • Production • Signal acoustique « en 3 étapes » • Appareil respiratoire & appareil phonatoire • Types de sons • Voyelles : orale / nasales • Consonnes : fricatives, occlusives, liquides, nasales. (voisées / non voisées) • Perception • Vibrations mécanique -> impulsions nerveuses
Caractériser la parole • Facteurs physiques • Fréquence et hauteur • Prosodie • Intonation • Rythme • Intensité • Timbre • Autres facteurs • Les émotions dans la parole
Analyse de la parole • Discipline : au croisement du traitement du signal et des sciences du langage • Traits acoustiques d’un signal de parole • Fréquence fondamentale • Spectre sonore • Energie
Modélisation du signal acoustique • Signal de parole • Non stationnaire à long terme • Stationnaire à (très) court terme • Production image acoustique significative • Synthèse : produire une telle image • Reco : extraire info de cette image
Modélisation du signal acoustique • Trouver des traits acoustiques caractéristiques • Voyelles : les formants • Maxima d’énergie dans un spectre de parole • Fréquence, Amplitude et bande passante • F1 et F2 pour triangle acoustique • Consonnes • Occlusives : silence puis perturbation • Fricatives : bruit de friction • Sonnantes : formants et peu de bruit • Construction d’un modèle acoustique
Objectifs • Générer de la parole à partir d’un texte • De l’orthographe vers la phonétique • Du phonétique au son numérique • Tendre vers de la parole « naturelle » : prononciation et prosodie « écologiques »
Historique • 1ère génération : 1965 -1985 • Synthèse par règles / par formants • Exc • 2ème génération : depuis 1985 • Synthèse vocale par diphones • Portions de parole naturelle « concaténée » • Sélecton de diphones/d’unités
Aspect technique • Transcription phonétique • Transformer une forme orthographique en une séquence de phonèmes • Règles de réécriture en contexte • Lexique d’exception • Application de règles à cette séquence • Formants / diphones • Gestion de la prosodie • Gestion des émotions (?)
Applications • Créer des interfaces vocales • Vocalisation d’écran • Serveurs téléphoniques • Outils d’enseignement assisté par ordi • Dictée automatique, Apprentissage des langues • Applications industrielles • Télématique vocale
Retours d’expériences par l’usage • Fiabilité et robustesse • Intelligibilité parfaite • Filtrage « intelligent » • Attentes des usagers • Naturel de la parole : fluidité et expressivité • Voix aux timbres variés • Langues traitées • Prétraitement des documents
Evaluation • Test de diagnostic • Tester modules individuellement • Evaluation globale • Intelligibilité globale • Qualité globale • Comparaison entre systèmes par utilisateurs
Objectifs • Analyser un signal de parole pour le transcrire sous une forme exploitable par la machine • Reconnaissance vocale • Vérification du locuteur • Identification du locuteur • 1er système : Bell Labs (1952) • Reconnaissance de chiffres isolés
Principe • A partir d’un signal de parole • Extraire une image acoustique (par tranches) • Numériser le signal pour le donner en entrée du système • Mise en relation des segments de parole et des éléments lexicaux • Reconstitution du discours le plus probable
Principe (2) • Modèles sous-jacents • Modèle acoustique : • à partir du résultat du traitement du signal, donner la probabilité que le signal corresponde à chacun des phonèmes de la langue cible • Modèle de prononciation • Prononciation(s) possible(s) pour chaque mot du vocabulaire (et proba associée(s)) • Modèle de langage • Proba de suite de mots
Application • Interfaces Homme-machine • Aéronotique / automobile • Systèmes embarqués • Bureautique • Enseignement assisté par ordinateur
Evaluation • Utilisation du WER (Word Error Rate) • Taux de mots incorrectement reconnus par rapport à un texte de référence • Mots isolés ou parole continue ? • Variabilité inter/intra locuteur ? • Naturel du discours ?