1 / 43

EVALUACIÓN DE SISTEMAS BASADOS EN VOZ

EVALUACIÓN DE SISTEMAS BASADOS EN VOZ. David Escudero Universidad de Valladolid. Índice. Evaluación de sistemas de reconocimiento de voz Evaluación en sistemas de reconocimiento de locutor Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo

bedros
Download Presentation

EVALUACIÓN DE SISTEMAS BASADOS EN VOZ

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. EVALUACIÓN DE SISTEMAS BASADOS EN VOZ David Escudero Universidad de Valladolid

  2. Índice • Evaluación de sistemas de reconocimiento de voz • Evaluación en sistemas de reconocimiento de locutor • Evaluación en sistemas de síntesis de voz • Evaluación de sistemas de diálogo • Evaluación de sistemas animación facial

  3. Índice • Evaluación de sistemas de reconocimiento de voz • Evaluación en sistemas de reconocimiento de locutor • Evaluación en sistemas de síntesis de voz • Evaluación de sistemas de diálogo • Evaluación de sistemas animación facial

  4. Evaluación de sistemas de reconocimiento de voz

  5. Evaluación de sistemas de reconocimiento de voz

  6. Evaluación de sistemas de reconocimiento de voz Modelo acústico Modelo de lenguaje

  7. Evaluación de sistemas de reconocimiento de voz Reconocimiento de palabras aisladas: • La tasa de error se define como la proporción media de items reconocidos incorrectamente. Un item puede ser una palabra, un fonema… • E=Ne/N; N es el número de palabras en el test y Ne los palabras incorrectamente reconocidas. • Ne=Ns+Nd; Ns son sustituciones y Nd son omisiones • C=1-E es la corrección • La matriz de confusión con Cij definida como la probabilidad de que la palabra i sea reconocida como la palabra j y Cii la proporción de veces que la palabra i es correctamente reconocida

  8. Evaluación de sistemas de reconocimiento de voz Reconocimiento continuo de palabras: • Ne=Ns+Ni+Nd ; Ni son inserciones de palabras no existentes. • La tasa de error es E=Ne/N • Y la precisión del sistema A=1-E • NIST ofrece software para evaluar sistemas. Dependencia del locutor • Cabras (tasas de reconocimiento bajas) • Obejas (altas tasas de reconocimiento)

  9. Evaluación de sistemas de reconocimiento de voz En sistemas de dictado • Precisión del reconocimiento • Velocidad de dictado: número de palabras por minuto que pueden ser procesadas • Estrategias de corrección de errores. En sistemas de diálogo • Precisión del reconocimiento • Rechazo OOV (out of vocabulary): un buen sistema debería rechazar OOVs y pedir al usuario que diga las cosas de otra manera para que utilice palabras que pueda reconocer.

  10. Evaluación de sistemas de reconocimiento de voz • Recuperación ante errores: Tanto el sistema como el usuario pueden equivocarse. Un buen sistema debería permitir al usuario deshacer acciones. • Tiempo de respuesta: Tiempo desde que termina una orden hasta que comienza la acción asociada. • Conocimiento de la situación: el usuario debería ser consciente de lo que puede decir en cada momento porque el vocabulario de reconocimiento depende de la situación. Puede expresarse como el número de veces que el usuario envió un comando en un contexto en el que no estaba permitido. Para evaluarlo se emplean preguntas subjetivas del tipo: • La lista de órdenes estaba clara? • Hacen falta capacidades especiales para usar el sistema? • La ayuda online fue útil?

  11. Índice • Evaluación de sistemas de reconocimiento de voz • Evaluación en sistemas de reconocimiento de locutor • Evaluación en sistemas de síntesis de voz • Evaluación de sistemas de diálogo • Evaluación de sistemas animación facial

  12. Evaluación de sistemas de reconocimiento de locutor • Categorías: • Verificación de locutor: es el proceso de aceptación o de rechazo de la identidad de un hablante comparando un conjunto de medidas de una serie de locuciones con respecto a las mismas medidas en una serie de locuciones del hablante a verificar. • Identificación de locutor: es el proceso de determinar a quien de un conjunto de hablantes registrados corresponde una locución dada.

  13. Evaluación de sistemas de reconocimiento de locutor • Evaluación basada en curvas ROC (Receiver Operating Characteristics): • En verificación de locutor se pueden dar dos condiciones para una locución de entrada: • s, la condición de que la locución es del locutor registrado. • n, lo contrario. • También hay dos decisiones • S aceptar la locución como perteneciente al locutor • N rechazar la locución • Se dan cuatro casos P(S|s) aceptación correcta P(S|n) falsa aceptación P(N|s) falso rechazo P(N|n) rechazo correcto. • Se dan las relaciones P(S|s)+P(N|s)=1; P(S|n)+P(N|n)=1 • Las curvas ROC representan en una P(S|s) frente a P(S|n)

  14. Evaluación de sistemas de reconocimiento de locutor • El sistema B tiene un rendimiento superior al sistema A. • El sistema C se corresponde con una decisión al azar.

  15. Evaluación de sistemas de reconocimiento de locutor • La figura muestra la relación entre los dos tipos de error y los criterios de decisión. • Un criterio de decisión rígido hace difícil para el impostor ser falsamente reconocido. También se incrementan las posibilidades de rechazar al locutor. (punto a) • Un criterio de decisión suave facilita que el locutor sea reconocido pero también es fácil para el impostor ser reconocido (punto b) • El punto c es el valor óptimo conocido como la tasa de equierror EER.

  16. Índice • Evaluación de sistemas de reconocimiento de voz • Evaluación en sistemas de reconocimiento de locutor • Evaluación en sistemas de síntesis de voz • Evaluación de sistemas de diálogo • Evaluación de sistemas animación facial

  17. Evaluación en sistemas de síntesis de voz • Tres etapas en un sistema TTS: • Módulo de preproceso del texto. • Módulo de generación prosódica. • Módulo de generación de señal.

  18. Evaluación en sistemas de síntesis de voz • Módulo de proceso del texto: • La función de este módulo es producir una representación leíble por la máquina de manera que genere tanto la secuencia de palabras pronunciables como la relación entre ellas. • La entrada suele ser texto plano introducido por el usuario o texto generado en un sistema de diálogo. • Se admite SSML tags • El objetivo es reducir ambigüedades. • Siglas: Dr. Doctor o Drive • “Que salgan primero las señoras y señores mayores”. • La interpretación semántica no es obvia y por esto es necesario anotar.

  19. Evaluación en sistemas de síntesis de voz • Módulo de predicción prosódica: • La función de este módulo es convertir la representación abstracta del habla en una secuencia de parámetros que representan F0, energía, duración y cualidad del habla. • Suele faltar información siempre porque hay muchos factores que influyen: humor, carácter, situación… • Se ha dado más importancia a F0 pero el resto son todas muy importantes. • Variabilidad aceptable: • Grandes diferencias en los parámetros se perciben como iguales. • Pequeños cambios pueden ser relevantes.

  20. Evaluación en sistemas de síntesis de voz • Módulo de generación de forma de onda: • Toma los parámetros de los módulos anteriores y los convierte en una forma de onda que puede ser enviada al altavoz. • Se apoya en la concatenación de segmentos: • Parámetros de los fonemas o de los difonemas. • Grabaciones • Compromiso tamaño-calidad. • Paradójicamente los más pequeños ofrecen más flexibilidad

  21. Evaluación en sistemas de síntesis de voz • Evaluación: • Inteligibilidad • Naturalidad • Likeabilidad La realidad está bien, pero en algunas aplicaciones lo que importa es que sea divertido. • Evaluación por módulos y evaluación conjunta

  22. Evaluación en sistemas de síntesis de voz • Evaluación del módulo de preproceso de texto: • Es el más fácil de evaluar porque sabemos lo qué debería decir y por tanto medir el error. • La dificultad está en los contextos $N: N dólares o la variable N. • Desafíos actuales en la pronunciación arbitraria por ejemplo a la hora de leer extranjerismos.

  23. Evaluación en sistemas de síntesis de voz • Evaluación del módulo prosódico: • Es el más difícil de evaluar: no sabemos cual es la salida perfecta. • Hay una gran variabilidad de formas que pueden tener el mismo significado. • Difícil que un locutor diga lo mismo dos veces con los mismos parámetros prosódicos. • La palabra “si” se puede entonar con decenas de variaciones. • Para los locutores es fácil distinguir la intención… para las máquinas es difícil generarla. • Se requiere a test perceptuales: • MOS Mean opinion score (se recomienda emplear 30 oyentes) • ABX comparar dos versiones con el objetivo. • La tendencia debería ser emplear evaluaciones diagnósticas.

  24. Evaluación en sistemas de síntesis de voz • Evaluación del módulo de generación de audio: • Se ha pasado de evaluar la inteligibilidad a evaluar la expresividad. • La calidad en términos de calidad del sonido influye también. • Los usuarios tienen expectativas muy altas. • Se emplean medidas de distancia de la forma de onda entre la voz sintética y la original. • También evaluaciones MOS.

  25. Evaluación en sistemas de síntesis de voz • Evaluación del sistema completo • La primera impresión se ha mostrado definitiva. • Inteligibilidad: • Se hace emitir una secuencia de palabras sin sentido. • Evaluación basada en una tarea: tiempo de respuesta. • Se somete también a pruebas de resistencia ante habla acelerada y ralentizada. • Naturalidad: • Mejor emplear el término credibilidad: Walt Disney no es natural pero es creíble. • La selección de la voz se ha mostrado definitivo: ajustarse al contexto. • Likeability: • La selección de la voz en la situación de nuevo es definitivo. • Este concepto es determinante para la aceptación y uso del sistema. • Existe un estándar UIT-T P.85

  26. Índice • Evaluación de sistemas de reconocimiento de voz • Evaluación en sistemas de reconocimiento de locutor • Evaluación en sistemas de síntesis de voz • Evaluación de sistemas de diálogo • Evaluación de sistemas animación facial

  27. Evaluación en sistemas de diálogo • Cada uno de estos componentes tiene sus métodos de evaluación. • Aquí se trata como un conjunto. Como producto SW.

  28. Evaluación en sistemas de diálogo El estándar ITU_T P.851 • Eficacia: precisión y perfección con la que algunos usuarios especificados pueden lograr objetivos específicos en entornos particulares. P.e. el éxito de la tarea. • Eficiencia: relación entre los recursos dedicados y la precisión y perfección de los objetivos logrados. P.e. la duración del diálogo.. • Capacidad de uso describe la capacidad en la que un servicio puede ser comprendido, aprendido y utilizado por usuarios especificados bajo condiciones específicas. • La satisfacción del usuario es un indicador de la utilidad y la capacidad de uso que se percibe por el grupo destinado de usuarios del servicio.

  29. Evaluación en sistemas de diálogo • Evaluación subjetiva basada en usuarios. • Dos fuentes de información principales: • Durante la interacción, se recopilan parámetros del sistema, y se registran las palabras del sistema y del usuario. Los ficheros de registro se envían a la evaluación de un experto. • Después de la interacción, los agentes de prueba reciben un cuestionario que persigue recopilar información. • Se admite el uso del mago de oz • Los casos de prueba se basan en hipótesis de situaciones reales. • La elección de los usuarios de prueba debe guiarse por la finalidad de la prueba.

  30. Evaluación en sistemas de diálogo • Cuestionarios rellenados por los usuarios: • Preguntas relativas a los antecedentes de los usuarios. • Preguntas relativas a la interacción individual. • Preguntas relativas a la impresión general del usuario en relación con el sistema. (ver el estándar) • Evaluación de capacidades de uso • Realizado sobre los usuarios o por expertos. • Análisis e interpretación de la información recopilada. • Valores medios con intervalos de confianza. • Pruebas de relevancia con análisis de varianza ANOVA • En caso de que una de las variables estadísticas tenga un efecto significativo estadísticamente, podrá utilizarse una prueba post-hoc para realizar comparaciones por pares entre las medias, y para determinar las fuentes de las diferencias.

  31. Índice • Evaluación de sistemas de reconocimiento de voz • Evaluación en sistemas de reconocimiento de locutor • Evaluación en sistemas de síntesis de voz • Evaluación de sistemas de diálogo • Evaluación de sistemas animación facial

  32. Evaluación de sistemas animación facial • Los sistemas del KTH (Royal Institute of Technology Sweden) • http://www.speech.kth.se/multimodal/

  33. Evaluación de sistemas animación facial • Uno de sus proyectos presenta un interfaz de telefonía para sordos. • Los sordos asumen que no todas las personas son igual de fáciles de interpretar en sus movimientos labios. • Oportunidad para la síntesis facial. • Acentuación de movimientos • Parametros: Jaw rotation, lip protrusion, mouth spread, tongue tip elevation. • Estos parámetros se acentuaron en grado desde el 25% al 200% sobre lo normal. • Evaluación: • Los test consisten en la emisión de frases y preguntas ABX • El 24% de usuarios prefiere la hipearticulación con grados entre el 150% y el 90%

  34. Evaluación de sistemas animación facial • Prominencia: • Importancia del movimiento de cabeza y cejas en la prominencia. • Se incluyen movimientos en locuciones. • La percepción de prominencia se incrementa hasta en un 24%. • Prosodia e interacción: • Uso de gestos para expresar el estado del diálogo. • Sonrisa, Movimiento de cabeza, cejas, cierre de ojos, contorno de F0, retardo • Cada gesto tiene un valor positivo y otro negativo. • Se plantea el diálogo: Humano: Qiero ir a la estación de Valladolid desde Madrid Maquina: Valladolid. • Y hay que decir si cree que la máquina ha entendido y acepta la presguna o no (1-5) • Los resultados demuestran que los usuarios son sensibles a estítulos acústicos y también visuales.

  35. Evaluación de sistemas animación facial • Expresividad facial • La cabeza hace de profesor de idiomas que quiere que el alumno mejore su pronunciación. • El profesor corrige cuando el alumno se equivoca. • Los probadores deben reconocer la expresión del avatar: neutral, happy, sad, angry. • Tasas de hasta el 93%

  36. Índice • Evaluación de sistemas de reconocimiento de voz • Evaluación en sistemas de reconocimiento de locutor • Evaluación en sistemas de síntesis de voz • Evaluación de sistemas de diálogo • Evaluación de sistemas animación facial • Evaluación de sistemas multimodales

  37. Evaluación de sistemas multimodales • Terminología • Evaluación técnica: relativa exclusivamente a aspectos técnicos del sistema. • Evaluación objetiva: independiente de juicios humanos. • Evaluación de usabilidad. • Evaluación subjetiva: Juicios de usuarios. • Evaluación cuantitativa: basada en métricas. • Evaluación cualitativa: basada en estimaciones o juicios sobre alguna cualidad.

  38. Evaluación de sistemas multimodales Métodos de evaluación • Proceso de desarrollo: • Test unitario: aplicado a una parte pequeña o componente del sistema. • Test de integración: Aplicado sobre varios módulos de cooperan. • Function test: Realizado para comprobar que determinada funcionalidad está bien resuelta. • Caja blanca y caja negra: aplicados a nivel de módulo.

  39. Evaluación de sistemas multimodales Métodos de evaluación • Ciclo de vida: necesitan usuarios representativos: • Mock-ups y walkthroughs: son borradores de los diálogos. La diferencia entre ambos es que los mock-ups necesitan usuarios. • Guideline-based Necesita un modelo del sistema y unas guías para confrontar. Puede ser una llamada a un consultor experto. • Mago de Oz que son diálogos simulados por personas. • Prototipo: Interfaz similar a la del sistema final. No necesita toda la funcionalidad pero los usuarios pueden interactuar. • Test de campo: se utiliza en su escenario final. • Think aloud Los usuarios hablan mientras desarrollan. • Cuestionarios y entrevistas

  40. Evaluación de sistemas multimodales Criterios de evaluación • Los criterios deben abarcar aspectos técnicos y de usabilidad. • Estarán en función del objetivo del sistema. • Revisión handout adjunto sobre evaluación del sistema multimodal de NICE Hans Christian Andersen Prototype

  41. Índice • Evaluación de sistemas de reconocimiento de voz • Evaluación en sistemas de reconocimiento de locutor • Evaluación en sistemas de síntesis de voz • Evaluación de sistemas de diálogo • Evaluación de sistemas animación facial • Evaluación de sistemas multimodales

  42. Referencias • Evaluation of Text and Speech Systems. Springer; (May 4, 2007) Laila Dybkjær (Editor), Holmer Hemsen (Editor), Wolfgang Minker (Editor) • ITU-T P.85 Método para la evaluación subjetiva de la calidad vocal de los dispositivos generadores de voz (06/94) • ITU-T P.851 Evaluación de la calidad subjetiva de los servicios telefónicos basados en sistemas Conversacionales (11/2003)

More Related