1 / 14

Comment analyser le signal vocal.

Comment analyser le signal vocal. Séance 12, 1 heure Version : mercredi 5 mai 2004 Auteur: Jean-Paul Stromboni . Contenu de la séance :. Le langage parlé est constitué de phonèmes Il y a des phonèmes voisés et des phonèmes non voisés,

betty_james
Download Presentation

Comment analyser le signal vocal.

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Comment analyser le signal vocal. Séance 12, 1 heure Version : mercredi 5 mai 2004 Auteur: Jean-Paul Stromboni Contenu de la séance : • Le langage parlé est constitué de phonèmes • Il y a des phonèmes voisés et des phonèmes non voisés, • Les phonèmes voisés sont quasi-périodiques et leur spectre présente des résonances et des anti résonances • L’analyse du signal vocal avec la FFT impose des durées allant de 10 à 30 milliseconde, ce qui limite la résolution • La technique des fenêtres OLA permet d’enchainer les phonèmes et de créer l’intonation de la voix ou prosodie • Le traitement de la parole, M. Kunt, R. Boite, Presses Polytechniques Romandes, 1987 • Introduction au traitement automatique de la parole, Thierry Dutoit, Faculté Polytechnique de Mons, 2000 • http://tcts.fpms.ac.be/, en plus du cours précédent, ce site contient de nombreuses adresses utiles et intéressantes. Références utilisées :

  2. Le langage parlé se compose de phonèmes Pour lire à voix haute un texte ou une chaîne de caractères, un ordinateur devra enchaîner des phonèmes, et leur donner une intonation. • la langue française contient 37 phonèmes, la langue anglaise plus de 40 phonèmes, … • Avec l’alphabet phonétique SAMPA (utilisé par MBROLA), écrire le mot ‘bonjour’ phonétiquement : SAMPA EXAMPLES i idiot, ami e ému, été E perdu, maison a alarme, patte A bâton, patte O obstacle, corps o auditeur, beau u coupable, loup y punir, élu 2 creuser, deux 9 malheureux, peur @ petite, fortement e~ peinture, matin a~ vantardise, temps o~ rondeur, bon 9~ lundi, brun j piétiner, choyer w quoi, fouine H huile, nuage Note: 'h' (halte,hop) is not defined. SAMPA EXAMPLES H huile, nuage p patte, repas, cap t tête, net k carte, écaille, bec b bête, habile, robe d dire, rondeur, chaud g gauche, égal, bague f feu, affiche, chef s soeur, assez, passe S chanter, machine, poche v vent, inventer, rêve z zéro, raisonner, rose Z jardin, manger, piège l long, élire, bal R rond, charriot, sentir m madame, aimer, pomme n nous, punir, bonne N ping, pong _ (silence marker)

  3. Dans le signal de parole, on différencie des phonèmes voisés et des phonèmes non voisés • Les phonèmes voisés sont quasi périodiques, au contraire des phonèmes non voisés on trouve ces deux types dans le diagramme ci-dessus. • En réalité, les phonèmes non voisés n’utilisent pas les cordes vocales, comme quand on siffle et qu’on utilise la bouche comme une cavité résonante : • C’est le cas de certains phonèmes, ‘s’ et ‘f’ entre autres, • C’est aussi le cas quand on chuchote.

  4. Le spectre d’un signal voisé présente des résonances et des antirésonances. • quasi périodicité ou pitch de période P (seconde) et de fréquence F0=1/P (Hz) • durée d’analyse limitée à 10ms à 30 ms (le spectre du signal vocal est non stationnaire) • formants F0, F1, F2 et éventuellement F3. • spectre constitué d’harmoniques de F0 = 1/P modulés par les résonances et les anti résonances de l’appareil phonatoire

  5. La position relative des formants est un moyen de différencier les phonèmes voisés

  6. On peut distinguer phonèmes voisés et phonèmes non voisés avec le spectre Pourquoi utiliser un filtre préaccentuateur ?

  7. Pour analyser un signal vocal avec la FFT, il faut respecter un ensemble de contraintes • Le spectre est périodique, de période fe • On découpe une fenêtre d’analyse de durée D=N/fe ou de N points • Le nombre de points N limite la résolution fe/N de la FFT (largeur des lo-bes de la FFT) • Exemple: pour 10ms de signal vocal et pour fe=8kHz, on a N=80 et fe/N=100Hz • Spectre à bande étroite : pour D=30ms, la résolution devient 33,3Hz

  8. Lire une phrase, c’est (1) enchaîner des phonèmes et (2) y ajouter une intonation • Pour lire à voix haute un texte écrit, il ne suffit pas de le traduire en phonèmes et de synthétiser les sons associés aux phonèmes, il faut en plus : • enchaîner les phonèmes de manière fluide • y ajouter une intonation, ou prosodie pour éviter la ‘voix du robot’. • Enchaîner les phonèmes à la manière fluide d’un locuteur humain est un problème trop difficile, on enregistre plutôt des diphones : • un diphone est la liaison de deux phonè-mes voisins ; par exemple, voici les cinq diphones du mot ‘salut’ : _s + sa + al + lu + u_ ( _ est le silence) • mais le nombre de diphones possibles avec 38 phonèmes est 382 (plus important). • Créer la prosodie, c’est moduler le pitch P au cours du temps, selon la ponctuation par exemple, • en augmentant F0 pour une interrogation ou une virgule (la voix devient plus aigüe) • en diminuant F0 pour un point final (c’est-à-dire que la voix devient plus grave).

  9. La technique des fenêtres OLA permet à la fois d’enchaîner les phonèmes et de créer la prosodie • OLA (pour OverLap and Add) est utilisée entre autres dans MBROLA. • on enregistre un locuteur (homme, femme, français, anglais, …) dont on isole les diphones. • on découpe les diphones au moyen de fenêtres de durée 2*P entrelacées (voir ci-dessous), • on constitue ensuite les sons par addition de ces fenêtres entrelacées pour obtenir la fusion des diphones • en faisant varier l’intervalle de temps entre les fenêtres, on fait varier P et on crée facilement la prosodie

  10. Voici comment MBROLA code la prosodie La syntaxe d’une ligne suit le schéma suivant phonème durée [%durée F0] n fois Les variations de la fréquence F0=1/P où P est le pitch sont linéaires. Ainsi : u 96 29 123 81 128 spécifie une durée de 96 ms, et à 29% de la durée, on a F0=123Hz, à 81% de la durée, on aura F0 = 128Hz

  11. Le fonctionnement de l’appareil phonatoire explique les caractéristiques du signal vocal • Les observations précédentes conduisent à modé-liser la phonation par le filtre 1/A(z) ci-dessous dont l’entrée est soit : • une suite d’impulsions périodiques (cas voisé) • un bruit blanc (cas non voisé)

  12. La fréquence d’échantillonnage fe doit être choisie en fonction de l’appareil auditif • Définition du son en décibel, on convient que le 0dB est le seuil d’audition10-12 W/m2 • Quelles sont les limites de l’audition ? • Quelle est la zone de fréquence la plus audible ? • Quel est le seuil de dou-leur, volume sonore insupportable ?

  13. Étapes de conversion texte parole

  14. Loi de répartition du signal vocal

More Related