1.19k likes | 1.33k Views
Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains?. Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon http://www.ddl.ish-lyon.cnrs.fr/ ivan@ieee.org. Plan. Introduction aux processus de la communication parlée
E N D
Le traitement automatiquede la paroleComment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon http://www.ddl.ish-lyon.cnrs.fr/ ivan@ieee.org DEA de Sciences Cognitives
Plan • Introduction aux processus de la communication parlée • Analyse de la parole • Synthèse de la parole • Reconnaissance de la parole • Reconnaissance du locuteur DEA de Sciences Cognitives
1. Introduction aux processus de la communication parlée DEA de Sciences Cognitives
Quelques segments d’un signal DEA de Sciences Cognitives
Quelques propriétés du signal de parole • La parole est quasi-stationnaire • La parole est 70% du temps(pseudo-)périodique(bruit ou silence le reste du temps) • La parole est un signal large bande(il remplit toute la largeur de bande) • La parole est un signal à bande limitée(0-8000 Hz essentiellement) DEA de Sciences Cognitives
Anatomie de l’appareil vocal (1) DEA de Sciences Cognitives
Anatomie de l’appareil vocal (2) DEA de Sciences Cognitives
Anatomie de l’appareil vocal (3) DEA de Sciences Cognitives
Fonctionnement acoustique de l’appareil vocal • Système acoustique = excitateur + résonateur • Trois modes de fonctionnement • Excitation glottique du conduit vocal • Excitation du conduit vocal en un point de constriction par un bruit d’écoulement • Excitation du conduit vocal par une impulsion acoustique DEA de Sciences Cognitives
Transcription phonétique du français DEA de Sciences Cognitives
Transcription phonétique du français DEA de Sciences Cognitives
Description acoustique de la parole DEA de Sciences Cognitives
Voyelles orales françaises DEA de Sciences Cognitives
Triangle vocalique DEA de Sciences Cognitives
Représentation acoustique (ex. 1) DEA de Sciences Cognitives
Représentation acoustique (ex. 2) DEA de Sciences Cognitives
Grille polaire de Maeda DEA de Sciences Cognitives
Coupes saggitales des voyelles DEA de Sciences Cognitives
Fonctions d’aires des voyelles DEA de Sciences Cognitives
Anatomie de l’oreille DEA de Sciences Cognitives
Les limites de l’oreille • L’oreille est à bande limitée • L’oreille est fausse sur des sons purs • L’oreille n’est pas également sensible • L’oreille a une résolution en temps limitée • L’oreille a une résolution en fréquence limitée DEA de Sciences Cognitives
2. Analyse de la parole DEA de Sciences Cognitives
Objectifs de l’analyse de parole Extraire des paramètres du signal de parole afin de : • Retirer l’information non pertinente • Réduire la redondance • Obtenir une représentation plus compacte • Atteindre un niveau d’abstraction plus élevé • Définir des mesures de ressemblance simples DEA de Sciences Cognitives
Principes • Prétraitement • Découpage en trames • Taille des trames • Décalage entre trames • Fenêtrage • Extraction de paramètres acoustiques DEA de Sciences Cognitives
Principe d’une analyse acoustique DEA de Sciences Cognitives
Paramètres acoustiques non spectraux • Energie • Fréquence fondamentale • Taux de passage par zéro du signal • Taux de passage par zéro de la dérivée du signal DEA de Sciences Cognitives
L’enveloppe spectrale Les approches conventionnelles visent à extraire des caractéristiques de l’enveloppe spectrale. • Analyse par banc de filtres • Analyse par prédiction linéaire • Coefficients cepstraux DEA de Sciences Cognitives
Analyse par banc de filtres (1) DEA de Sciences Cognitives
Analyse par banc de filtres (2) DEA de Sciences Cognitives
Analyse par banc de filtres (3) DEA de Sciences Cognitives
e(t) s(t) Filtre de prédiction linéaire Analyse par prédiction linéaire (1) Modélisation de la parole sous forme d’un filtre de prédiction linéaire DEA de Sciences Cognitives
Analyse par prédiction linéaire (2) DEA de Sciences Cognitives
Coefficients cepstraux • On applique une transformée de Fourier inverse sur le module du spectre logarithmique. • Les premiers coefficients caractérisent l’enveloppe spectrale. DEA de Sciences Cognitives
L’information dynamique • On représente l’information dynamique par la dérivée première (vitesse) et la dérivée seconde (accélération) des paramètres cepstraux→ paramètres deltas et deltas-deltas DEA de Sciences Cognitives
3. Synthèse de la parole DEA de Sciences Cognitives
La synthèse, pour quoi faire ? • Services de télécommunications • Rendre toute information écrite disponible via le téléphone (horaires de cinéma, horaires de train, informations routières, état d’un compte en banque, dernière facture téléphonique, etc.) • Applications en bureautique • Terminaux parlants, lecture des emails par la voix, etc. • Applications dans les transports • Information dans les automobiles, aide à l’exploitation des trains, lecture de cadrans dans les avions, etc. • Aide aux personnes handicapées • Un handicapé peut s’exprimer par le biais d’un synthétiseur (cours du célèbre astrophysicien Stephen Hawking) • Apprentissage des langues étrangères • Dictionnaires électronique avec prononciation intégrée, logiciels d’apprentissage des langues étrangères, traduction automatique, etc. • Livres et jouets parlants • À l’usage des enfants en bas âge • Communication naturelle avec la machine DEA de Sciences Cognitives
Structure d’un système de synthèse SYNTHESE DE LA PAROLE A PARTIR DU TEXTE TRAITEMENT DU LANGAGE NATUREL Formalismes linguistiques Moteurs d’inférence Inférences logiques TRAITEMENT DU SIGNAL NUMERIQUE Modèles mathématiques Algorithmes Calculs numériques Parole Texte Phonèmes Prosodie DEA de Sciences Cognitives
Traitement du langage naturel Texte Pré-processeur Analyseur morphologique Analyseur contextuel Structure de données Analyseur syntaxique- prosodique Phonétiseur Générateur de prosodie Phonèmes Prosodie DEA de Sciences Cognitives
Analyse morpho-syntaxique DEA de Sciences Cognitives
Phonétisation (1) DEA de Sciences Cognitives
Phonétisation (2) DEA de Sciences Cognitives
Synthétiseur par prédiction linéaire DEA de Sciences Cognitives
Synthétiseur à formants DEA de Sciences Cognitives
Synthèse par règles (1) DEA de Sciences Cognitives
Synthèse par règles (2) DEA de Sciences Cognitives
Synthèse par concaténation d’unités DEA de Sciences Cognitives
Qu’est-ce qu’un diphone ? DEA de Sciences Cognitives
Concaténation de diphones DEA de Sciences Cognitives
Prosodie : la « musique » de la parole DEA de Sciences Cognitives
Exemples • ICP-Grenoble (F), 1993 • CNET-Lannion (F), 1993 (TD-PSOLA) • KTH-Stockholm (S), 1993 • LAIP-Lausanne (CH), 1996 (MBR PSO) • University-Mons (B), 1993 (LPC) • University-Mons (B), 1993 (MBE) • University-Mons (B), 1993 (MBR PSO) • University-Mons (B), 1993 (TD PSO) DEA de Sciences Cognitives