1.46k likes | 1.97k Views
Traitement de la parole. -Introduction-. Restauration -analyse SNR -filtrage. Codage -quantification -codage par modèles -transmission. Reconnaissance -modélisation du langage -théorie de la décision -intelligence artificielle. Com. Multimodale -multimédia -son-image -les 5 sens.
E N D
Traitement de la parole -Introduction- Télécommunications, services & usages
Restauration -analyse SNR -filtrage Codage -quantification -codage par modèles -transmission Reconnaissance -modélisation du langage -théorie de la décision -intelligence artificielle Com. Multimodale -multimédia -son-image -les 5 sens Compréhension -base de données -grammaire, analyse sémantique Identification ‘speaker specific’ Analyse-synthèse -modélisation physique -modélisation électrique -analyse spectrale -prédiction linéaire Télécommunications, services & usages
Auditeur Locuteur ????????? idée, niveau cognitif, pensée. compréhension objectif : la communication traitement cognitif construction grammaticale. signal acoustique = vecteur de la parole prétraitement sensoriel commande musculaire. système auditif système phonatoire La parole Télécommunications, services & usages
problème : limité dans l’espace signal acoustique Auditeur Locuteur microphone écouteur signal électrique signal électrique transmission électromagnétique CAN CNA câble signal numérique signal numérique hertzien ‘la parole aux télécoms’ Télécommunications, services & usages
E R -analogique E R CAN CNA -numérique quantification échantillonnage E R décod. CAN codeur CNA -codage modélisation compression Normes de communication Le codage de la parole degré de complexité Télécommunications, services & usages
Aspects abordés dans ce cours • modélisation du signal de parole • le codage direct (PCM, DPCM, APCM, ADPCM) • la prédiction linéaire (APC,LPC,RPE-LTP) • la quantification vectorielle (VSELP, CELP, ACELP) • transformée en sous-bande (MBE,MELP) • signal audio musical : HD, (MPEG, MIDI) Télécommunications, services & usages
Traitement de la parole -Etude du signal de parole- Télécommunications, services & usages
Plan • production naturelle de la parole • modélisation physique • modélisation spectrale, analyse de Fourier • modélisation paramétrique autorégressive Télécommunications, services & usages
I-Production naturelle de la parole 1) un peu de physiologie narines Cavité nasale C. buccale lèvres langue pharynx oesophage glotte larynx Trachée artère Télécommunications, services & usages
Cordes vocales Le larynx : - voisé ou non voisé - fréquence fondamentale (pitch) épiglotte muqueuse glotte Télécommunications, services & usages
0.4 0.3 ‘e’ 0.2 0.1 amplitude 0 -0.1 -0.2 -0.3 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 temps 2) Le rôle des cordes vocales : sons voisés Un son voisé est défini par : - sa fréquence fondamentale (=hauteur) - son timbre = rapport entre fondamental et harmonique Télécommunications, services & usages
3) Représentation simplifiée : souffle Cavité buccale Pharynx E cordes vocales Cavité nasale E b on j ou r Télécommunications, services & usages
souffle souffle cordes vocales cordes vocales Pharynx Pharynx Cavité buccale Cavité buccale E E Cavité nasale E 4) Les différents types de sons (phonèmes) Les voyelles (voisées) Orales [A, E, I, O, U, OU...] Nasales [IN, UN, AN, ON] Télécommunications, services & usages
[e] PSD [e] 0.4 50 40 0.2 30 (dB) 20 0 10 -0.2 0 0 50 100 0 1 2 3 4 5 t (ms) f (kHz) [on] PSD [on] 0.4 50 40 0.2 30 (dB) 20 0 10 -0.2 0 0 50 100 0 1 2 3 4 5 t (ms) f (kHz) Télécommunications, services & usages
Les consonnes Liquides souffle cordes vocales Pharynx Cavité buccale E [R,L] Nasales souffle cordes vocales Pharynx Cavité buccale E [M,N,GN] Cavité nasale E Télécommunications, services & usages
souffle souffle Pharynx Pharynx Cavité buccale Cavité buccale E E Fricatives non voisées [F, S, CH] Fricatives voisées [V, Z, J] cordes vocales Télécommunications, services & usages
[ch] 0.1 0.05 0 -0.05 -0.1 0 10 20 30 40 50 60 70 80 90 100 t (ms) PSD [ch] 30 20 10 (dB) 0 -10 -20 0 1 2 3 4 5 6 7 8 9 10 f (kHz) Télécommunications, services & usages
Occlusives non voisées [P, T, K] souffle Pharynx Cavité buccale E Occlusives voisées souffle Pharynx Cavité buccale [B, D, G] E cordes vocales Cavité nasale E Télécommunications, services & usages
[bon] 1 0.5 0 -0.5 [b] [on] -1 0 50 100 150 t (ms) [par] 0.1 0.05 0 -0.05 [p] [a] [r] -0.1 0 50 100 150 t (ms) Télécommunications, services & usages
II-Modélisation physique Télécommunications, services & usages
Bandpass filter 1 Non- linearity Lowpass filter Sampling rate reduction Amplitude Compression Bandpass filter Q Non- linearity Lowpass filter Sampling rate reduction Amplitude Compression III-Modélisation harmonique Modèle de Dudley (VOCODER) également développé en 1930 speech Télécommunications, services & usages
[e] PSD [e] 0.4 50 40 0.2 30 (dB) 20 0 10 -0.2 0 0 50 100 0 1 2 3 4 5 t (ms) f (kHz) DFT Transformée de Fourier = décomposition spectrale Télécommunications, services & usages
Harmoniques Formants Quelques propriétés spectrales • Sons voisés • Fondamental (pitch) PSD [e] 50 40 30 (dB) 20 10 f (kHz) 0 0 1 2 3 4 5 Télécommunications, services & usages
PSD [ch] 30 20 10 (dB) 0 -10 -20 0 1 2 3 4 5 6 7 8 9 10 f (kHz) • Sons non voisés • Bruit blanc • (souffle) Télécommunications, services & usages
Non stationnarité : le spectrogramme bonjour 0.6 0.4 0.2 0 -0.2 -0.4 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 t (s) 2 1.5 f (MHz) 1 0.5 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 t (s) Télécommunications, services & usages
sachez parler 0.1 0.05 0 -0.05 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 t (s) 4 3 f (MHz) 2 1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 t (s) Télécommunications, services & usages
Signal aléatoire : Transformée de Fourier Signal Densité spectrale de puissance Processus stationnaire, ergodique Plusieurs réalisations, Energie finie DSP=mean(TSF) Télécommunications, services & usages
Processus gaussien non corrélé Signal Signal Fourier DSP 0 Télécommunications, services & usages
IV-Modélisation paramétrique La modélisation paramétrique présentée repose sur les propriétés de la transformée en z et de la modélisation ARMA (filtres IIR; FIR). • Quelques rappels : • - transformée en z • -modélisation ARMA • -les différentes représentations des modèles AR Télécommunications, services & usages
1) La transformée en z la transformée en Z est aux signaux échantillonnés ce que la transformée de Laplace est aux signaux continus (automatisme) X(z) est définie comme la somme d’une série relative aux échantillons temporels x[k] • déf. étude du domaine de convergence en fonction de z • prop. linéarité décalage temporel convolution temporelle cf. cours TSI Télécommunications, services & usages
liens avec la transformée de Fourier discrète si on restreint l’espace de z au cercle unité, z=e(jw) , on retrouve la transformée de Fourier : Im(z) la périodicité du spectre apparaît naturellement, en fonction de la fréquence d’échantillonnage f=0 |z|<1 Re(z) f=fe Télécommunications, services & usages
Fonction de transfert numérique H(z) y[k]=(x*h)|k x[k] h[k] H(z) Y(z)=X(z).H(z) X(z) z=exp(j2pf) z=exp(j2pf) Yd(f) Hd(f) Xd(f) Comme pour la TFD, le passage dans le domaine des z, permet de remplacer l’opération de convolution par une opération de multiplication => mathématiquement très intéressant Télécommunications, services & usages
cas spécifique où H(z) est un polynôme du type Tous les pôles dans le cercle unité => stabilité du filtre Tous les zéros dans le cercle unité =>phase minimale remarques : a0=1 pour unicité du modèle ai, bi réels si signal réel factorisation numérateur => q zéros factorisation dénominateur => p pôles Télécommunications, services & usages
intérêt de cette structure expression dans le domaine temporel Y(z)=X(z).H(z) expression dans le domaine spectral Télécommunications, services & usages
2) Modélisation ARMA def. d’un gabarit • problème de filtrage : y[k] x[k] H (z) x[k] • problème de modélisation: + y[k] e[k] u[k] H (z) - Télécommunications, services & usages
modélisation ARMA (moving average autoregressive) - les zéros caractérisent la partie ‘moyenne ajustée’. - les pôles caractérisent la partie ‘autorégressive’. • modélisation MA (moyenne ajustée) - modèle ’tout zéros ’ spectres doux • modélisation AR (autorégressive) - modèle ’tout pôles’ - algorithmes d’estimation très rapides. - spectres présentant des pics. MA AR ordre infini Télécommunications, services & usages
f r p=0.85 • Exemple de modèles AR, 1 pôle réel p=0.6 p=0.3 réponse impulsionnelle réponse spectrale 20 1 position des pôles 0.9 0.25 15 0.8 0.7 0.6 10 0.5 -0.5 0 (dB) 0.5 0.4 5 0.3 -0.25 0.2 0 0.1 0 -5 0 50 -0.5 0 0.5 n Télécommunications, services & usages
p=0.85; 0.3 • Exemple de modèles AR, 2 pôles conjugués p=0.85 exp(jp/4) p=0.3 exp(jp/2) réponse impulsionnelle réponse spectrale position des pôles 1 20 0.25 15 0.5 -0.5 0 (dB) 10 0 5 -0.25 0 -1 -5 0 50 -0.5 0 0.5 Télécommunications, services & usages n f r
3) Modélisation ARMA de la parole • représentation shématique du signal de parole : source E Canal n Canal 1 la source peut être un bruit blanc (sons non voisés ou chuchotés) ou 1 train périodique pour les sons voisés. le conduit vocal peut être représenté par une succession de tubes acoustiques, (pharynx, cavité buccale, nasale) modélisés par des résonateurs. l’émetteur, lèvres ou narines, représente une charge acoustique pour l’onde sonore qui y arrive. Télécommunications, services & usages
réponse spectrale 60 50 40 (dB) 30 20 10 10 0 0 1 2 3 4 f (kHz) 5 0 0 100 200 300 400 500 n xv(k) • source pour les sons voisés G(z) réponse impulsionnelle a=0.97, b=0.85, fE=44kHz Télécommunications, services & usages
Source (sortie de G(z) ) pour les sons voisés 5 4 3 2 1 0 0 500 1000 1500 2000 2500 n fE=44kHz Télécommunications, services & usages
source pour les sons non voisés Télécommunications, services & usages
canal ou tube acoustique La réponse acoustique d’un tube est caractérisée par un résonateur. La réponse d’un résonateur est donnée par modèle AR d’ordre 2 Chaque résonateur est un ‘formant’ dont la fréquence centrale est : Le conduit vocal est donc bien modélisé par un modèle AR, ordre 2n Télécommunications, services & usages
4 1.5 2 0 1 -2 (dB) -4 0.5 -6 -8 0 -10 -12 -0.5 -14 0 5 f (kHz) -1 0 50 100 n réponse spectrale réponse impulsionnelle position des pôles 11kHz 22kHz 0 -11kHz Télécommunications, services & usages
L’émetteur (lèvres ou narines) La pression observée à une certaine distance des lèvres est proportionnelle à la dérivée du volume des lèvres : modèle MA d’ordre 1 Télécommunications, services & usages
Son voisé G(z) R(z) Vn(z) V1(z) V(z) qui tend vers 1 modèle AR d’ordre 2n+1, si un des pôles de G(z) est proche de l’unité Télécommunications, services & usages
Son nasalisé les sons nasalisés font intervenir simultanément les cavités nasale et bucale. G(z) R(z) Vn(z) V1(z) V’(z) R’(z) modèle ARMA Télécommunications, services & usages
4) En résumé • complexité de la production de la parole (sons voisés, occlusifs etc...). • principales propriétés spectrales du signal de parole (électrique ou acoustique) : fondamentale, harmonique, formants, bande passante vocale, non stationnarité, stationnarité locale (20ms), signal stochastique • modèles ARMA d’un processus physique (intérêt pour le codage) • un modèle AR pouvait suffire dans certains cas. Télécommunications, services & usages
Traitement de la parole -Le codage de la parole- Télécommunications, services & usages
Problématique du codage qualité débit complexité coût Compression Télécommunications, services & usages