1 / 23

Traitement de la parole : Synthèse et reconnaissance

Traitement de la parole : Synthèse et reconnaissance. Plan. La parole, c’est quoi ? Analyse de la parole Parole et IdL Synthèse vocale Reconnaissance vocale Evaluation. 1. La parole, c’est quoi ?. Production Perception. Production Signal acoustique « en 3 étapes »

Download Presentation

Traitement de la parole : Synthèse et reconnaissance

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Traitement de la parole : Synthèse et reconnaissance

  2. Plan • La parole, c’est quoi ? • Analyse de la parole • Parole et IdL • Synthèse vocale • Reconnaissance vocale • Evaluation

  3. 1. La parole, c’est quoi ?

  4. Production Perception • Production • Signal acoustique « en 3 étapes » • Appareil respiratoire & appareil phonatoire • Types de sons • Voyelles : orale / nasales • Consonnes : fricatives, occlusives, liquides, nasales. (voisées / non voisées) • Perception • Vibrations mécanique -> impulsions nerveuses

  5. Caractériser la parole • Facteurs physiques • Fréquence et hauteur • Prosodie • Intonation • Rythme • Intensité • Timbre • Autres facteurs • Les émotions dans la parole

  6. 2. Analyse de la parole

  7. Analyse de la parole • Discipline : au croisement du traitement du signal et des sciences du langage • Traits acoustiques d’un signal de parole • Fréquence fondamentale • Spectre sonore • Energie

  8. Modélisation du signal acoustique • Signal de parole • Non stationnaire à long terme • Stationnaire à (très) court terme • Production image acoustique significative • Synthèse : produire une telle image • Reco : extraire info de cette image

  9. Modélisation du signal acoustique • Trouver des traits acoustiques caractéristiques • Voyelles : les formants • Maxima d’énergie dans un spectre de parole • Fréquence, Amplitude et bande passante • F1 et F2 pour triangle acoustique • Consonnes • Occlusives : silence puis perturbation • Fricatives : bruit de friction • Sonnantes : formants et peu de bruit • Construction d’un modèle acoustique

  10. 3. Parole et IdL

  11. 3.1. Synthèse vocale

  12. Objectifs • Générer de la parole à partir d’un texte • De l’orthographe vers la phonétique • Du phonétique au son numérique • Tendre vers de la parole « naturelle » : prononciation et prosodie « écologiques »

  13. Historique • 1ère génération : 1965 -1985 • Synthèse par règles / par formants • Exc • 2ème génération : depuis 1985 • Synthèse vocale par diphones • Portions de parole naturelle « concaténée » • Sélecton de diphones/d’unités

  14. Aspect technique • Transcription phonétique • Transformer une forme orthographique en une séquence de phonèmes • Règles de réécriture en contexte • Lexique d’exception • Application de règles à cette séquence • Formants / diphones • Gestion de la prosodie • Gestion des émotions (?)

  15. Applications • Créer des interfaces vocales • Vocalisation d’écran • Serveurs téléphoniques • Outils d’enseignement assisté par ordi • Dictée automatique, Apprentissage des langues • Applications industrielles • Télématique vocale

  16. Retours d’expériences par l’usage • Fiabilité et robustesse • Intelligibilité parfaite • Filtrage « intelligent » • Attentes des usagers • Naturel de la parole : fluidité et expressivité • Voix aux timbres variés • Langues traitées • Prétraitement des documents

  17. Evaluation • Test de diagnostic • Tester modules individuellement • Evaluation globale • Intelligibilité globale • Qualité globale • Comparaison entre systèmes par utilisateurs

  18. 3.2. Reconnaissance vocale

  19. Objectifs • Analyser un signal de parole pour le transcrire sous une forme exploitable par la machine • Reconnaissance vocale • Vérification du locuteur • Identification du locuteur • 1er système : Bell Labs (1952) • Reconnaissance de chiffres isolés

  20. Principe • A partir d’un signal de parole • Extraire une image acoustique (par tranches) • Numériser le signal pour le donner en entrée du système • Mise en relation des segments de parole et des éléments lexicaux • Reconstitution du discours le plus probable

  21. Principe (2) • Modèles sous-jacents • Modèle acoustique : • à partir du résultat du traitement du signal, donner la probabilité que le signal corresponde à chacun des phonèmes de la langue cible • Modèle de prononciation • Prononciation(s) possible(s) pour chaque mot du vocabulaire (et proba associée(s)) • Modèle de langage • Proba de suite de mots

  22. Application • Interfaces Homme-machine • Aéronotique / automobile • Systèmes embarqués • Bureautique • Enseignement assisté par ordinateur

  23. Evaluation • Utilisation du WER (Word Error Rate) • Taux de mots incorrectement reconnus par rapport à un texte de référence • Mots isolés ou parole continue ? • Variabilité inter/intra locuteur ? • Naturel du discours ?

More Related