1 / 24

Dpto. Señales, Sistemas y Radiocomunicaciones

Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema6b.ppt. Dpto. Señales, Sistemas y Radiocomunicaciones. Tecnología de Reconocimiento de Locutor. Feature extraction. VQ distortion. Decision. Accumulation. Speaker identity. Input speech.

sophie
Download Presentation

Dpto. Señales, Sistemas y Radiocomunicaciones

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Tratamiento Digital de VozProf. Luis A. Hernández Gómezftp.gaps.ssr.upm.es/pub/TDV/DOC/Tema6b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones

  2. Tecnología de Reconocimiento de Locutor Feature extraction VQ distortion Decision Accumulation Speaker identity Input speech VQ codebooks Independencia de Texto Observaciones independientes

  3. Tecnología de Reconocimiento de Locutor • Reconocimiento de Locutor mediante CV • El cuantificador vectorial “representa” la distribución estadística de los datos • Otras técnicas de entrenamiento: • Entrenamiento Discriminativo: el objetivo no es el minimizar el error de cuantificación sino el Error de CLASIFICACIÓN (técnicas de gradiente -> Redes Neuronales)

  4. Tecnología de Reconocimiento de Locutor Por la técnica de clasificación... • Clasificadores paramétricos (I): • Son los más utilizados en Reconocimiento

  5. Tecnología de Reconocimiento de Locutor Por la técnica de clasificación... • Clasificadores paramétricos (II): • Utilizan una representación paramétrica explícita de la probabilidad acústica: • Los parámetros de se estiman a partir de los datos de entrenamiento X={x1,x2, ... xN} • Proporciona un formalismo matemático consistente para técnicas de adaptación a diferentes condiciones y entornos.

  6. Tecnología de Reconocimiento de Locutor

  7. Tecnología de Reconocimiento de Locutor • Clasificadores paramétricos: GMM (Gaussian Mixture Models) • Representación paramétrica explícita de la probabilidad acústica como suma de fdp gaussianas:

  8. Tecnología de Reconocimiento de Locutor • Clasificadores paramétricos: GMM (Gaussian Mixture Models) • Los parámetros de se estiman a partir de los datos de entrenamiento X={x1,x2, ... xN} • La combinación de gaussianas se aproxima a la distribución de los datos.

  9. Tecnología de Reconocimiento de Locutor

  10. Tecnología de Reconocimiento de Locutor

  11. Tecnología de Reconocimiento de Locutor • Identificación con GMMs Maximum selection Feature extraction Speech wave • • • Identification result (Speaker ID)

  12. Tecnología de Reconocimiento de Locutor • Verificación con GMMs : Normalización • Likelihood ratio • log L(O) = log p(O|l= lc) - log p(O| l  lc) • lc : identidad supuesta • A posteriori probability • log L(O) = log p(O| l = lc) - log  p(O| l) • Ref : locutor de referencia o cohorte de locutores • Modelo Universal • log L(O) = log p(O| l = lc) - log  p(O| l UBM) • UBM : Universal Background Model SRef

  13. Tecnología de Reconocimiento de Locutor

  14. Tecnología de Reconocimiento de Locutor • Clasificadores paramétricos: GMM (Gaussian Mixture Models) • Los parámetros de se estiman a partir de los datos de entrenamiento X={x1,x2, ... xN} • ¡¡IMPORTANTE!!: Cantidad de datos de entrenamiento  Número de Parámetros a estimar • Técnicas de Entrenamiento: • ML (Maximum Likelihood) • MAP (Maximun a posteriori) Similares resultados si no hay información a priori, pero MAP válida para adaptación

  15. Tecnología de Reconocimiento de Locutor • Entrenamiento ML

  16. Tecnología de Reconocimiento de Locutor

  17. Tecnología de Reconocimiento de Locutor

  18. Tratamiento Digital de Voz • Reconocimiento de Locutor => Reconocimiento de Habla • Hasta ahora: El orden de la secuencia de sonidos NO IMPORTABA => Independiente de Texto • PERO: • En Reconocimiento de Locutor dependiente de texto • En Reconocimiento de Habla La secuencia de sonidos sí importa (“casa” “saca”) Primera Aproximación: Alineamiento Temporal + Medida de Distancia (DTW Dynamic Time Warping)

  19. C A S A ENVENTANADO ANÁLISIS { } PATRÓN V3 V4 V5 V6 V1 V2 Tratamiento Digital de Voz • Reconocimiento de Locutor => Reconocimiento de Habla Primera Aproximación: Alineamiento Temporal + Medida de Distancia (DTW Dynamic Time Warping)

  20. Tratamiento Digital de Voz • Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping) • ENTRENAMIENTO: se obtiene y almacena un patrón de refrencia (PRef) para cada una de las palabras del vocabulario • RECONOCIMIENTO: se obtiene el patrón de la palabra a reconocer (PReco). La palabra reconocida será la correspondiente al patrón de referencia más parecido (menor distancia) al patrón a reconocer. PROBLEMA: PRef TIENE DISTINTA DURACIÓN TEMPORAL QUE PReco SOLUCIÓN: DEFORMAR EL EJE DE TIEMPOS ESTIRÁNDOLO O ENCOGIÉNDOLO (TÉCNICAS DE PROGRAMACIÓN DINÁMICA)

  21. PATRÓN DE REFERENCIA (TIEMPO) 5 4 3 2 PALABRA A RECONOCER (TIEMPO) 1 1 2 3 4 5 6 7 8 Tratamiento Digital de Voz

  22. g(i,j) g(i-1,j) g(i-1,j-1) g(i,j-1) Tratamiento Digital de Voz • Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping • Cálculo distancia acumulada g(i,j) según el “camino óptimo” (Programación Dinámica) • g(i,j) = d(i,j) + min { g(i-1,j), g(i-1,j-1), g(i,j-1)} • 1 < i < I ( nº tramas de Preco ) • 1 < j < J ( nºtramas de Pref ) La distancia entrel el PRef y el PReco d(PRef, PReco) será: • d(Preco, Pref) = g(I,J) / I+J

  23. PATRÓN DE REFERENCIA (TIEMPO) 5 4 3 2 PALABRA A RECONOCER (TIEMPO) 1 1 2 3 4 5 6 7 8 Tratamiento Digital de Voz • Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping)

  24. Reconocimiento de Habla • Tecnología Dominante: HMM (Hidden Markov Models) • Clasificador Paramétrico: p(O/l) con l secuencia de sonidos, palabras, frases,... • Primera Aproximación: Estados + GMMs por Estado

More Related