1 / 89

Sistemas de Interacción Natural (4e)

Sistemas de Interacción Natural (4e). Luis Hernández Gómez luis@gaps.ssr.upm.es. SPEECH & LANGUAGE TECHNOLOGIES. 4a: Speech production and analysis 4b: Speech perception 4c: Speech Analysis 4d: Text-to-Speech 4e: Speech Recognition 4f: Dialog Systems Digital Speech Processing Course

sheba
Download Presentation

Sistemas de Interacción Natural (4e)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es

  2. SPEECH & LANGUAGE TECHNOLOGIES • 4a: Speech production and analysis • 4b: Speech perception • 4c: Speech Analysis • 4d: Text-to-Speech • 4e: Speech Recognition • 4f: Dialog Systems • Digital Speech Processing Course • Prof. Lawrence Rabiner • http://www.caip.rutgers.edu/~lrr/

  3. Tratamiento Digital de Voz • Tema 6: Reconocimiento de Voz • Principios de Reconocimiento de Habla y de Locutor • Tecnología de Reconocimiento de Locutor • Tecnología de Reconocimiento de Habla

  4. Reconocimiento de Voz • Principios de Reconocimiento de Habla y de Locutor • Reconocimiento de Habla: ¿qué se dice? • La variedad de locutores (¿quién lo dice?): “ruido” (Acentos, variedades dialectales, etc.) • Reconocimiento de Locutor: ¿quién lo dice? • La variedad de mensajes hablados (¿qué se dice?): “ruido” • variación intra-locutor variación inter-locutores

  5. Reconocimiento de Voz • Principios de Reconocimiento de Habla y de Locutor • Reconocimiento de Habla: Características • Dependiente / Independiente de Locutor • Tamaño del Vocabulario • “Tipos de Reconocimiento”: • Habla aislada, palabras en contexto (word spotting), habla natural, lenguaje natural, habla espontánea, ... • Otros: • Entorno de Ruido: móviles, cabinas, automóvil, ... • Sistema de comunicación: GSM, manos-libres, VoIP, ... • Prestaciones

  6. Reconocimiento de Voz • Principios de Reconocimiento de Habla y de Locutor • Reconocimiento de Habla: Dependiente/Independiente del Locutor • Dependiente de Locutor: por ejemplo, sistemas de dictado. • Independiente de Locutor: aplicaciones telefónicas. • Cada vez mayor importancia de las “Técnicas de Adaptación al Locutor” • Reducción de la cantidad de voz para la adaptación. • Adaptación supervisada / no-supervisada. • Adaptación también al entorno de ruido. • Adaptación a “habla espontánea”.

  7. Reconocimiento de Voz • Principios de Reconocimiento de Habla y de Locutor • Reconocimiento de Habla: Tamaño del Vocabulario • El vocabulario DEBE estar pre-fijado (en muchas ocasiones es muy importante la gestión dinámica de vocabularios : entradas variables) • El diseño del vocabulario puede “olvidar” palabras: palabras fuera del vocabulario (OOV out-of-vocabulary). Cómo detectar e incorporar esas palabras es de gran importancia. • Las prestaciones del Reconocedor son dependientes del tamaño del vocabulario: • Pequeño (< 100), medio (<1000), grande (>1000 -- 1M) • PERO es muy importante (muchas veces más que el número de palabras): • El grado de similitud acústica entre palabras (ej.: teléfonos) • La GRAMÁTICA de reconocimiento. La gramática restringe la secuencia de palabras a reconocer.

  8. Reconocimiento de Voz • Principios de Reconocimiento de Habla y de Locutor • Reconocimiento de Habla: ”Tipo” de Reconocimiento (terminología imprecisa) • Habla aislada: lista de palabras (directorio de nombres) • Palabras en contexto (word spotting): “con Juan Pérez por favor” • Habla natural: “dictado natural,” u “órdenes naturales” (“quiero que me digas qué películas ponen hoy”) • Lenguaje natural: suele asociarse a la identificación de entidades semánticas: <solicitud de información>quiero que me digas qué <tipo de información>películas</tipo de información> ponen<tiempo>hoy</tiempo> </solicitud de información> • Habla espontánea: “disfluencias” : “..eh quiero que me des, que me diga.. digas qué... pone... las películas de hoy”

  9. Reconocimiento de Voz • Principios de Reconocimiento de Habla y de Locutor • Reconocimiento de Habla: Características • Más otros.... • Entorno de Ruido: móviles, cabinas, automóvil, ... • Sistema de comunicación: GSM, manos-libres, VoIP, ... • DIFICULTAD de medir “realmente” las prestaciones de un sistema de reconocimiento (en laboratorio en aplicaciones) • Errores de Reconocimiento: Tasa de Error (Sustituciones / Inserciones / Elisiones (borrados)) • Rechazo: Falsa Aceptación / Falso Rechazo => INFLUYE en la Tasa de Error. • Ruidos • Palabras OOV (fuera del vocabulario) • Medidas de Confianza: “seguridad” del resultado de reconocimiento (ejemplo: Adaptación no-supervisada)

  10. Reconocimiento de Voz • Principios de Reconocimiento de Habla y de Locutor • Reconocimiento de Locutor: Características • Dependiente / Independiente de Texto • Población cerrada / abierta • “Modos de Funcionamiento”: • VERIFICACIÓN • IDENTIFICACIÓN • (Detección; Autenticación) • Otros: • Entorno de Ruido..., Sistema de comunicaciones, ... • VARIABILIDAD ENTRE SESIONES • Prestaciones

  11. Reconocimiento de Voz • Principios de Reconocimiento de Habla y de Locutor • Rec. de Locutor: Dependiente/Independiente de Texto • Dependiente Texto: • Texto fijo: locución pre-establecida (clave de acceso) • Texto variable (vocabulario fijo): se pide que el locutor pronuncie una clave generada aleatoriamente (text prompted); objetivos: evitar grabaciones y “clave en voz alta” • Independiente de Texto: el locutor puede emplear cualquier locución, sin restricciones (duración, riqueza fonética ? Imaginación ? => tipo de aplicación: Acústica Forense) • Importancia de la estrategia de diálogo (factores humanos): preguntas sucesivas (nombre, apellidos, fecha de nacimiento, ...) • Reconocimiento de Locutor Sistemas de Verificación de Información Verbal (complementarios? Fases diferentes ?)

  12. Reconocimiento de Voz • Principios de Reconocimiento de Habla y de Locutor • Reconocimiento de Locutor: Población cerrada/abierta • Población cerrada: reconocimiento entre un conjunto cerrado de usuarios; “el impostor está en casa”. • Población abierta: reconocimiento “abierto” a impostores externos a los “locutores reconocibles”

  13. Reconocimiento de Voz • Principios de Reconocimiento de Habla y de Locutor • Reconocimiento de Locutor: Modos de funcionamiento • VERIFICACIÓN: decidir si una persona es quien dice ser utilizando su “huella vocal” (ej.: tecleo mi password y el sistema me pide que hable para comprobar que soy yo: se contrasta la voz dubitada contra una sola “huella vocal” –la del password-) • IDENTIFICACIÓN: decidir si la voz de una persona pertenece a algun locutor de una población de locutores identificados. (se compara la voz dubitada con todas las huellas vocales de la población “indubitada”) • (DETECCIÓN: localización de un locutor en una grabación de audio – AUTENTICACIÓN: mediante verificación/identificación)

  14. Reconocimiento de Voz • Principios de Reconocimiento de Habla y de Locutor • Reconocimiento de Locutor: Prestaciones • Otros: • Entorno de Ruido... Sistema de comunicación... • VARIABILIDAD ENTRE SESIONES • Errores de Reconocimiento: tasas de: • Falsa Aceptación FA: un impostor vulnera el sistema • Falso Rechazo FR: un usuario no es reconocido • “Aciertos” de Reconocimiento: • Rechazo correcta: un impostor es rechazado • Aceptación correcta: un usuario es reconocido El coste de cada tipo de error depende de la aplicación (por ejemplo: mayor, menor seguridad) • TAMBIÉN en aplicaciones reales: FTE Fail-to-enroll; imposibilidad de entrenarse en el sistema

  15. 0012-09 Four conditional probabilitiesin speaker verification

  16. 0012-10 FR= P (N | s) 1 FA= P (S | n) Error rate 0 Decision criterion (Threshold) a c b Relationship between error rate and decision criterion (threshold) in speaker verification Equal Error Rate EER

  17. 0012-11 1 B b A a D P (S| s) 0 P (S| n) 1 Receiver operating characteristic (ROC) curves; performance examples of three speaker verification systems: A, B, and D

  18. Reconocimiento de Voz • Reconocimiento de Locutor: Prestaciones (http://www.nist.gov/speech) Curvas ROC Curvas DEC

  19. Reconocimiento de Voz • Reconocimiento de Locutor: Prestaciones (http://www.nist.gov/speech) We have found it useful in speech applications to use a variant of this which we call the DET (Detection Error Tradeoff) Curve, described below. In the DET curve we plot error rates on both axes, giving uniform treatment to both types of error, and use a scale for both axes which spreads out the plot and better distinguishes different well performing systems and usually produces plots that are close to linear.

  20. 0103-23 20 10 5 2 1 0.5 0.2 0.1 Male Female Identification Verification Recognition error rate (%) 2    5   10  20  50  100 Size of population Recognition error rates as a function of population size in speaker identification and verification

  21. Reconocimiento de Voz • Reconocimiento de Locutor: Prestaciones (La Granja) SHEEP, GOATS, LAMBS and WOLVES A Statistical Analysis of Speaker Performance in the NIST 1998 Speaker Recognition Evaluation George Doddington 1,2,3,5, Walter Liggett1, Alvin Martin1, Mark Przybocki1, Douglas Reynolds 3,4, 1 National Institute of Standards and Technology, 2 The Johns Hopkins University 3 U.S. Department of Defense, 4 MIT Lincoln Laboratory, 5 SRI International

  22. Reconocimiento de Voz • Reconocimiento de Locutor: Prestaciones (La Granja) • Sheep (ovejas) – Sheep comprise our default speaker type. In our model, sheep dominate the population and systems perform nominally well for them. • Goats (cabras) – Goats, in our model, are those speakers who are particularly difficult to recognize. Goats tend to adversely affect the performance of systems by accounting for a disproportionate share of the missed detections. The goat population can be an especially important problem for entry control systems, where it is important that all users be reliably accepted.

  23. Reconocimiento de Voz • Lambs (corderos) – Lambs, in our model, are those speakers who are particularly easy to imitate. That is, a randomly chosen speaker is exceptionally likely to be accepted as a lamb. Lambs tend to adversely affect the performance of systems by accounting for a disproportionate share of the false alarms. This represents a potential system weakness, if lambs can be identified, either through trial and error or through correlation with other directly observable characteristics. • Wolves (lobos) – Wolves, in our model, are those speakers who are particularly successful at imitating other speakers. That is, their speech is exceptionally likely to be accepted as that of another speaker. Wolves tend to adversely affect the performance of systems by accounting for a disproportionate share of the false alarms. This represents a potential system weakness, if wolves can be identified and recruited to defeat systems.

  24. Entrenamiento Modelos/Patrones de referencia para cada Locutor Extracción De Características Señal de Voz Resultado Reconocimiento Comparación (Distancia) Reconocimiento Tratamiento Digital de Voz • Tecnología de Reconocimiento de Locutor • Estructura de un Sistema de Reconocimiento de Locutor Speech Recognition Technology in theUbiquitous/Wearable Computing EnvironmentSadaoki Furui http://www.furui.cs.titech.ac.jp/

  25. Tratamiento Digital de Voz • Tecnología de Reconocimiento de Locutor • Otros aspectos importantes: Modelos/Patrones de referencia para cada Locutor Cancelador De Ecos Detector de Actividad Extracción De Características Comparación (Distancia) Señal de Voz “Compensación” De Ruido Resultado Reconocimiento

  26. Similarity Reference template or model (Speaker #1) Similarity Maximum selection Identification result (Speaker ID) Feature extraction Speech wave Reference template or model (Speaker #2) • • • Similarity Reference template or model (Speaker #N) Tecnología de Reconocimiento de Locutor • Identificación

  27. Identification result (Accept / Reject) Feature extraction Similarity Decision Speech wave Reference template or model (Speaker #M) Threshold Speaker ID (#M) Tecnología de Reconocimiento de Locutor • Verificación

  28. Intra-speaker distance s DB Distribution Inter-speaker distance Distance m DB Tecnología de Reconocimiento de Locutor • Decisión

  29. Tecnología de Reconocimiento de Locutor • Objetivo: obtener un modelo del locutor • Para discriminación, no para codificación ni síntesis • Marco de Trabajo: Reconocimiento de Patrones • El clasificador óptimo es el clasificador de Bayes

  30. O Rechazo Clase 1 Clase 2 Clase 3 Clase 2 Rechazo Tecnología de Reconocimiento de Locutor • “Todo” lo necesario es conocer la función de probabilidad

  31. Tecnología de Reconocimiento de Locutor • “Todo” lo necesario es conocer la función de probabilidad Max Rechazo . . . O . . .

  32. Max Rechazo . . . O . . . Tecnología de Reconocimiento de Locutor • PERO: la función de probabilidad “nunca” se conoce: forma paramétrica desconocida y cantidad de datos de estima (entrenamiento) limitados NO UN CLASIFICADOR ÚNICO Funciones de Discriminación

  33. Tecnología de Reconocimiento de Locutor • De una forma simplificada podemos considerar: Por la técnica de clasificación: • Clasificadores no-paramétricos • Clasificadores paramétricos • (Discriminativos) Atendiendo al tipo de información empleada: • Clasificadores a partir de información a largo plazo • Clasificadores a partir de información a corto plazo

  34. 0012-13 Feature extraction Long-term statistics Decision Distance or similarity Input speech Speaker identity Average, variance, correlation, MAR Reference templates or models (a) Long-term-statistics-based method Feature extraction Parametric or Non-Parametric Decision Accumulation Speaker identity Input speech Paterns (b) short-term information based method

  35. Tecnología de Reconocimiento de Locutor Por la técnica de clasificación... • Clasificadores no-paramétricos: • No hacen ninguna hipótesis sobre el modelo de distribución de la voz del locutor • Se basan completamente en los datos de entrenamiento Un ejemplo típico serían los sistemas de Reconocimiento Independientes del Locutor basados en Cuantificación Vectorial

  36. 0103-19 Speaker-specific codebook Spectral envelopes Vector quantization (VQ)-based text-independent speaker recognition

  37. Tecnología de Reconocimiento de Locutor • Cuantificador Vectorial • Representa el conjunto de vectores de ENTRENAMIENTO X={x1,x2, ... xN} por un número pequeño de representantes (centroides) Y={y1, y2, ... yM} (M<N) • Fase 1. Determinación de los representantes • Medida de distanciad(xi, yj) • Entrenamiento: CodebookY • Fase 2. Asignación del centroide más próximo • Cuantificación de una observación o

  38. Primer centroide Duplicación Asignación de vectores Cálculo de centroides NO N? D? SI NO SI Tecnología de Reconocimiento de Locutor • Entrenamiento CV algoritmo LBG

  39. Cuantificación Asunción Moreno Universidad Politécnica de Cataluña

  40. Entrenamiento y x

  41. Entrenamiento y x

  42. Entrenamiento y x

  43. Entrenamiento y x

  44. Entrenamiento y x

  45. Entrenamiento y x

  46. Entrenamiento y x

  47. Entrenamiento y x

  48. Entrenamiento y x

  49. Entrenamiento y x

  50. Entrenamiento y x

More Related