1 / 119

Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon

Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains?. Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon http://www.ddl.ish-lyon.cnrs.fr/ ivan@ieee.org. Plan. Introduction aux processus de la communication parlée

hachi
Download Presentation

Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Le traitement automatiquede la paroleComment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon http://www.ddl.ish-lyon.cnrs.fr/ ivan@ieee.org DEA de Sciences Cognitives

  2. Plan • Introduction aux processus de la communication parlée • Analyse de la parole • Synthèse de la parole • Reconnaissance de la parole • Reconnaissance du locuteur DEA de Sciences Cognitives

  3. 1. Introduction aux processus de la communication parlée DEA de Sciences Cognitives

  4. Quelques segments d’un signal DEA de Sciences Cognitives

  5. Quelques propriétés du signal de parole • La parole est quasi-stationnaire • La parole est 70% du temps(pseudo-)périodique(bruit ou silence le reste du temps) • La parole est un signal large bande(il remplit toute la largeur de bande) • La parole est un signal à bande limitée(0-8000 Hz essentiellement) DEA de Sciences Cognitives

  6. Anatomie de l’appareil vocal (1) DEA de Sciences Cognitives

  7. Anatomie de l’appareil vocal (2) DEA de Sciences Cognitives

  8. Anatomie de l’appareil vocal (3) DEA de Sciences Cognitives

  9. Fonctionnement acoustique de l’appareil vocal • Système acoustique = excitateur + résonateur • Trois modes de fonctionnement • Excitation glottique du conduit vocal • Excitation du conduit vocal en un point de constriction par un bruit d’écoulement • Excitation du conduit vocal par une impulsion acoustique DEA de Sciences Cognitives

  10. Transcription phonétique du français DEA de Sciences Cognitives

  11. Transcription phonétique du français DEA de Sciences Cognitives

  12. Description acoustique de la parole DEA de Sciences Cognitives

  13. Voyelles orales françaises DEA de Sciences Cognitives

  14. Triangle vocalique DEA de Sciences Cognitives

  15. Représentation acoustique (ex. 1) DEA de Sciences Cognitives

  16. Représentation acoustique (ex. 2) DEA de Sciences Cognitives

  17. Grille polaire de Maeda DEA de Sciences Cognitives

  18. Coupes saggitales des voyelles DEA de Sciences Cognitives

  19. Fonctions d’aires des voyelles DEA de Sciences Cognitives

  20. Anatomie de l’oreille DEA de Sciences Cognitives

  21. Les limites de l’oreille • L’oreille est à bande limitée • L’oreille est fausse sur des sons purs • L’oreille n’est pas également sensible • L’oreille a une résolution en temps limitée • L’oreille a une résolution en fréquence limitée DEA de Sciences Cognitives

  22. 2. Analyse de la parole DEA de Sciences Cognitives

  23. Objectifs de l’analyse de parole Extraire des paramètres du signal de parole afin de : • Retirer l’information non pertinente • Réduire la redondance • Obtenir une représentation plus compacte • Atteindre un niveau d’abstraction plus élevé • Définir des mesures de ressemblance simples DEA de Sciences Cognitives

  24. Principes • Prétraitement • Découpage en trames • Taille des trames • Décalage entre trames • Fenêtrage • Extraction de paramètres acoustiques DEA de Sciences Cognitives

  25. Principe d’une analyse acoustique DEA de Sciences Cognitives

  26. Paramètres acoustiques non spectraux • Energie • Fréquence fondamentale • Taux de passage par zéro du signal • Taux de passage par zéro de la dérivée du signal DEA de Sciences Cognitives

  27. L’enveloppe spectrale Les approches conventionnelles visent à extraire des caractéristiques de l’enveloppe spectrale. • Analyse par banc de filtres • Analyse par prédiction linéaire • Coefficients cepstraux DEA de Sciences Cognitives

  28. Analyse par banc de filtres (1) DEA de Sciences Cognitives

  29. Analyse par banc de filtres (2) DEA de Sciences Cognitives

  30. Analyse par banc de filtres (3) DEA de Sciences Cognitives

  31. e(t) s(t) Filtre de prédiction linéaire Analyse par prédiction linéaire (1) Modélisation de la parole sous forme d’un filtre de prédiction linéaire DEA de Sciences Cognitives

  32. Analyse par prédiction linéaire (2) DEA de Sciences Cognitives

  33. Coefficients cepstraux • On applique une transformée de Fourier inverse sur le module du spectre logarithmique. • Les premiers coefficients caractérisent l’enveloppe spectrale. DEA de Sciences Cognitives

  34. L’information dynamique • On représente l’information dynamique par la dérivée première (vitesse) et la dérivée seconde (accélération) des paramètres cepstraux→ paramètres deltas et deltas-deltas DEA de Sciences Cognitives

  35. 3. Synthèse de la parole DEA de Sciences Cognitives

  36. La synthèse, pour quoi faire ? • Services de télécommunications • Rendre toute information écrite disponible via le téléphone (horaires de cinéma, horaires de train, informations routières, état d’un compte en banque, dernière facture téléphonique, etc.) • Applications en bureautique • Terminaux parlants, lecture des emails par la voix, etc. • Applications dans les transports • Information dans les automobiles, aide à l’exploitation des trains, lecture de cadrans dans les avions, etc. • Aide aux personnes handicapées • Un handicapé peut s’exprimer par le biais d’un synthétiseur (cours du célèbre astrophysicien Stephen Hawking) • Apprentissage des langues étrangères • Dictionnaires électronique avec prononciation intégrée, logiciels d’apprentissage des langues étrangères, traduction automatique, etc. • Livres et jouets parlants • À l’usage des enfants en bas âge • Communication naturelle avec la machine DEA de Sciences Cognitives

  37. Structure d’un système de synthèse SYNTHESE DE LA PAROLE A PARTIR DU TEXTE TRAITEMENT DU LANGAGE NATUREL Formalismes linguistiques Moteurs d’inférence Inférences logiques TRAITEMENT DU SIGNAL NUMERIQUE Modèles mathématiques Algorithmes Calculs numériques Parole Texte Phonèmes Prosodie DEA de Sciences Cognitives

  38. Traitement du langage naturel Texte Pré-processeur Analyseur morphologique Analyseur contextuel Structure de données Analyseur syntaxique- prosodique Phonétiseur Générateur de prosodie Phonèmes Prosodie DEA de Sciences Cognitives

  39. Analyse morpho-syntaxique DEA de Sciences Cognitives

  40. Phonétisation (1) DEA de Sciences Cognitives

  41. Phonétisation (2) DEA de Sciences Cognitives

  42. Synthétiseur par prédiction linéaire DEA de Sciences Cognitives

  43. Synthétiseur à formants DEA de Sciences Cognitives

  44. Synthèse par règles (1) DEA de Sciences Cognitives

  45. Synthèse par règles (2) DEA de Sciences Cognitives

  46. Synthèse par concaténation d’unités DEA de Sciences Cognitives

  47. Qu’est-ce qu’un diphone ? DEA de Sciences Cognitives

  48. Concaténation de diphones DEA de Sciences Cognitives

  49. Prosodie : la « musique » de la parole DEA de Sciences Cognitives

  50. Exemples • ICP-Grenoble (F), 1993 • CNET-Lannion (F), 1993 (TD-PSOLA) • KTH-Stockholm (S), 1993 • LAIP-Lausanne (CH), 1996 (MBR PSO) • University-Mons (B), 1993 (LPC) • University-Mons (B), 1993 (MBE) • University-Mons (B), 1993 (MBR PSO) • University-Mons (B), 1993 (TD PSO) DEA de Sciences Cognitives

More Related