240 likes | 357 Views
Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema6b.ppt. Dpto. Señales, Sistemas y Radiocomunicaciones. Tecnología de Reconocimiento de Locutor. Feature extraction. VQ distortion. Decision. Accumulation. Speaker identity. Input speech.
E N D
Tratamiento Digital de VozProf. Luis A. Hernández Gómezftp.gaps.ssr.upm.es/pub/TDV/DOC/Tema6b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones
Tecnología de Reconocimiento de Locutor Feature extraction VQ distortion Decision Accumulation Speaker identity Input speech VQ codebooks Independencia de Texto Observaciones independientes
Tecnología de Reconocimiento de Locutor • Reconocimiento de Locutor mediante CV • El cuantificador vectorial “representa” la distribución estadística de los datos • Otras técnicas de entrenamiento: • Entrenamiento Discriminativo: el objetivo no es el minimizar el error de cuantificación sino el Error de CLASIFICACIÓN (técnicas de gradiente -> Redes Neuronales)
Tecnología de Reconocimiento de Locutor Por la técnica de clasificación... • Clasificadores paramétricos (I): • Son los más utilizados en Reconocimiento
Tecnología de Reconocimiento de Locutor Por la técnica de clasificación... • Clasificadores paramétricos (II): • Utilizan una representación paramétrica explícita de la probabilidad acústica: • Los parámetros de se estiman a partir de los datos de entrenamiento X={x1,x2, ... xN} • Proporciona un formalismo matemático consistente para técnicas de adaptación a diferentes condiciones y entornos.
Tecnología de Reconocimiento de Locutor • Clasificadores paramétricos: GMM (Gaussian Mixture Models) • Representación paramétrica explícita de la probabilidad acústica como suma de fdp gaussianas:
Tecnología de Reconocimiento de Locutor • Clasificadores paramétricos: GMM (Gaussian Mixture Models) • Los parámetros de se estiman a partir de los datos de entrenamiento X={x1,x2, ... xN} • La combinación de gaussianas se aproxima a la distribución de los datos.
Tecnología de Reconocimiento de Locutor • Identificación con GMMs Maximum selection Feature extraction Speech wave • • • Identification result (Speaker ID)
Tecnología de Reconocimiento de Locutor • Verificación con GMMs : Normalización • Likelihood ratio • log L(O) = log p(O|l= lc) - log p(O| l lc) • lc : identidad supuesta • A posteriori probability • log L(O) = log p(O| l = lc) - log p(O| l) • Ref : locutor de referencia o cohorte de locutores • Modelo Universal • log L(O) = log p(O| l = lc) - log p(O| l UBM) • UBM : Universal Background Model SRef
Tecnología de Reconocimiento de Locutor • Clasificadores paramétricos: GMM (Gaussian Mixture Models) • Los parámetros de se estiman a partir de los datos de entrenamiento X={x1,x2, ... xN} • ¡¡IMPORTANTE!!: Cantidad de datos de entrenamiento Número de Parámetros a estimar • Técnicas de Entrenamiento: • ML (Maximum Likelihood) • MAP (Maximun a posteriori) Similares resultados si no hay información a priori, pero MAP válida para adaptación
Tecnología de Reconocimiento de Locutor • Entrenamiento ML
Tratamiento Digital de Voz • Reconocimiento de Locutor => Reconocimiento de Habla • Hasta ahora: El orden de la secuencia de sonidos NO IMPORTABA => Independiente de Texto • PERO: • En Reconocimiento de Locutor dependiente de texto • En Reconocimiento de Habla La secuencia de sonidos sí importa (“casa” “saca”) Primera Aproximación: Alineamiento Temporal + Medida de Distancia (DTW Dynamic Time Warping)
C A S A ENVENTANADO ANÁLISIS { } PATRÓN V3 V4 V5 V6 V1 V2 Tratamiento Digital de Voz • Reconocimiento de Locutor => Reconocimiento de Habla Primera Aproximación: Alineamiento Temporal + Medida de Distancia (DTW Dynamic Time Warping)
Tratamiento Digital de Voz • Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping) • ENTRENAMIENTO: se obtiene y almacena un patrón de refrencia (PRef) para cada una de las palabras del vocabulario • RECONOCIMIENTO: se obtiene el patrón de la palabra a reconocer (PReco). La palabra reconocida será la correspondiente al patrón de referencia más parecido (menor distancia) al patrón a reconocer. PROBLEMA: PRef TIENE DISTINTA DURACIÓN TEMPORAL QUE PReco SOLUCIÓN: DEFORMAR EL EJE DE TIEMPOS ESTIRÁNDOLO O ENCOGIÉNDOLO (TÉCNICAS DE PROGRAMACIÓN DINÁMICA)
PATRÓN DE REFERENCIA (TIEMPO) 5 4 3 2 PALABRA A RECONOCER (TIEMPO) 1 1 2 3 4 5 6 7 8 Tratamiento Digital de Voz
g(i,j) g(i-1,j) g(i-1,j-1) g(i,j-1) Tratamiento Digital de Voz • Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping • Cálculo distancia acumulada g(i,j) según el “camino óptimo” (Programación Dinámica) • g(i,j) = d(i,j) + min { g(i-1,j), g(i-1,j-1), g(i,j-1)} • 1 < i < I ( nº tramas de Preco ) • 1 < j < J ( nºtramas de Pref ) La distancia entrel el PRef y el PReco d(PRef, PReco) será: • d(Preco, Pref) = g(I,J) / I+J
PATRÓN DE REFERENCIA (TIEMPO) 5 4 3 2 PALABRA A RECONOCER (TIEMPO) 1 1 2 3 4 5 6 7 8 Tratamiento Digital de Voz • Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping)
Reconocimiento de Habla • Tecnología Dominante: HMM (Hidden Markov Models) • Clasificador Paramétrico: p(O/l) con l secuencia de sonidos, palabras, frases,... • Primera Aproximación: Estados + GMMs por Estado