170 likes | 433 Views
Reconocimiento Automático del Habla. Eduardo Lleida Solano Dpt. de Ingeniería Electrónica y Comunicaciones Universidad de Zaragoza. Reconocimiento Automático del Habla. Reconocimiento Automático del Habla: una historia reciente. Dificultades en el RAH. ¿Cómo funciona? , las bases.
E N D
Reconocimiento Automático del Habla Eduardo Lleida Solano Dpt. de Ingeniería Electrónica y Comunicaciones Universidad de Zaragoza
Reconocimiento Automático del Habla • Reconocimiento Automático del Habla: una historia reciente • Dificultades en el RAH • ¿Cómo funciona? , las bases • ¿Dónde estamos?, ¿a dónde vamos? • Consejos: ¿Dónde utilizar RAH?
Libros genéricos: • John R. Deller, John G. Proakis, John H.L. Hansen “Discrete-Time Processing of Speech Signals” Macmillan Publishing Company, 1993 • Douglas O’Shaughnessy “Speech Communications, Human and Machine” IEEE Press, 2000 Libros avanzados: • Frederick Jelinek “Statistical Methods for Speech Recognition” MIT Press, 1997 • Steve Young, Gerrit Bloothooft “Corpus-Based Methods in Language and Speech Processing” Kluwer Academic Publishers,1997 Internet: http://svr-www.eng.cam.ac.uk/comp.speech Socrates/Erasmus Thematic Network: Speech Communication Sciences http://tn-speech.essex.ac.uk/tn-speech Algunas Referencias Interesantes
Reconocimiento Automático del Habla: una historia reciente • Los inicios: años 50 • Bell Labs .... Reconocimiento de dígitos aislados monolocutor • RCA Labs .... Reconocimiento de 10 sílabas monolocutor • University College in England .... Reconocedor fonético • MIT Lincoln Lab .... Reconocedor de vocales independiente del hablante • Los fundamentos: años 60 • Comienzo en Japón (NEC labs) • Dynamic time warping .... Vintsyuk (Soviet Union) • CMU ... Reconocimiento del Habla Continua .... HAL 9000 • Las primeras soluciones: años 70, el mundo probabilístico • Reconocimiento de palabras aisladas • LPC, programación dinámica • IBM: inicio proyecto reconocimiento de grandes vocabularios • Gran inversión en los USA: proyectos DARPA • Sistema HARPY (CMU) primer sistema con exito
una historia reciente • Reconocimiento del Habla Continua: años 80, expansión • Algoritmos para el habla continua y grandes vocabularios • Explosión de los métodos estadísticos: Modelos Ocultos de Markov • utilizados inicialmente por IBM y Dragon Systems • popularizados por Bell Labs • Introducción de las Redes Neuronales en el reconocimiento de voz • Sistema SPHINX • Empieza el negocio: años 90, primeras aplicaciones • Ordenadores y procesadores baratos y rápidos • Sistemas de dictado • Integración entre reconocimiento de voz y procesado del lenguaje natural. • ¿Una realidad?: años 00, integración en el S.O. • Integración teléfono y Voice Web browsers VoiceXML estandard
Dificultades: 1. ¿El sistema de RAH tiene que reconocer la voz de una persona o varias personas (incluyendo, quizas, cualquier persona)? 2. ¿Cual es el tamaño del vocabulario a reconocer? 3. Sobre el modo de dirigirse al sistema de RAH, ¿nos dirigiremos con palabras incluyendo pausas entre ellas o hablaremos de forma continua? 4. Variabilidad acústica y confusión acústica del vocabulario 5. Entorno acústico en el que se utilizará el sistema de RAH 6.¿Cómo activar o se activa el sistema de RAH? 7. ¿Qué conocimientos lingüísticos son necesarios incorporar en el sistema de RAH?
¿Cómo funciona?, Las bases Formulación matemática simple: teoría probabilística Sea O una secuencia de T medidas acústicas de la voz Sea W una secuencia of N palabras pertenecientes a un vocabulario fijo y conocido. P(W|O) es la probabilidad de que la secuencia de palabras W haya sido pronunciada, dado que la secuencia O de medidas acústicas ha sido observada El reconocedor decidirá a favor de la secuencia de palabras W que satisfaga W = arg maxW P(W|O) Es decir, el reconocedor dará como resultado la secuencia mas probable de palabras dadas la medidas acústicas obtenidas.
Modelo Acústico Modelo de Lenguaje Las Bases Utilizando la fórmula de Bayes P(W) ... Probabilidad de que la secuencia de palabras W sea pronunciada P(O|W) ... Probabilidad de que cuando una persona pronuncia la secuencia de palabras W obtengamos la secuencia de medidas acústicas O P(O) ... Probabilidad de la secuencia de medidas acústicas O Fórmula del Reconocedor
Procesado Acústico transcripción Análisis Gramatical Análisis Léxico Aprendizaje modelos acústicos Modelado Acústico Modelado Lenguaje Procesado Acústico Voz P(O|W) P(W) Hz Algoritmo de Reconocimiento Secuencia de Palabras Componentes de un sistema de Reconocimiento voz texto Entrenamiento Reconocimiento
Componentes de un sistema de Reconocimiento Procesado Acústico transcripción Análisis Gramatical Análisis Léxico Aprendizaje modelos acústicos Procesado Acústico voz voz texto Entrenamiento P(O|W) P(W) Modelado Acústico Modelado Lenguaje Reconocimiento Algoritmo de Reconocimiento Secuencia de Palabras
¿Dónde estamos? • Sistemas de Dictado Adaptado al locutor Gran vocabulario y ampliable Habla continua • Servicios Telefónicos Acceso a información Encuestas Transacciones comerciales Centralitas manos libres
Y para ir terminando .... Consejos: ¿Dónde y cuando utilizar RAH? Premisa: Las aplicaciones con RAH tienen éxito cuando el usuario está motivado en su uso Limitaciones: 1. Los sistemas de RAH no transcriben voz sin restricciones 2. Los sistema de RAH comenten muchos errores Necesidad: Verificar el resultado del reconocedor: confianza acústica
¿Dónde y cuando utilizar la voz? Utilizar cuando ... Evitar cuando ... La tarea requiera que el usuario hable con otras personas mientras utiliza la aplicación No se dispone de un teclado,p.e, sobre la red telefónica Tareas que requieran la utilización de las manos del usuario, p.e. editores gráficos El usuario trabaja en condiciones malas de ruido ambiental Las tareas se pueden realizar de una forma mas sencilla y eficiente con un ratón y teclado Usuarios que no pueden teclear o no están acostrumbrados al uso de un teclado Usuarios con discapacidades físicas que limitan el uso de las manos
tipos de errores Rechazos: el usuario habla pero el RAH no entiende lo que dice Sustituciones: el RAH reconoce palabras que son distintas a las que el usuario pronuncia Falsas Alarmas: el usuario no dice nada y el RAH devuelve una palabra reconocida
Causas problema causa El usuario pronuncia una o mas palabras no contenidas en el vocabulario La frase pronunciada no se adapta a ninguna gramática activa El usuario habla antes de que el sistema esté listo para reconocer Palabras muy parecidas que producen confusión Pausas muy largas en el medio de frases El usuario habla con disfluencias (falsos comienzos,”umm”,”ehh”) El usuario tiene un acento muy marcado o está resfriado La voz del usuario difiere considerablemente del aprendizaje El micrófono no está bien ajustado Rechazo o Sustituciones Sonidos como risas, toses, etc. Voces lejanas El usuario está hablando con otra persona Falsas Alarmas