940 likes | 1.16k Views
INSTITUTO POLITÉCNICO NACIONAL. CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN. ALGORITMOS Y MÉTODOS PARA EL RECONOCIMIENTO. DE VOZ EN ESPAÑOL MEDIANTE SÃLABAS. Sustentante:. José Luis Oropeza RodrÃguez. Director de Tesis:. Dr. Sergio Suaréz Guerra. SISTEMAS AUTOMÃTICOS DE RECONOCIMIENTO.
E N D
INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN ALGORITMOS Y MÉTODOS PARA EL RECONOCIMIENTO DE VOZ EN ESPAÑOL MEDIANTE SÍLABAS Sustentante: José Luis Oropeza Rodríguez Director de Tesis: Dr. Sergio Suaréz Guerra
SISTEMAS AUTOMÁTICOS DE RECONOCIMIENTO DEL HABLA (INTRODUCCIÓN) Los SARH (Sistemas Automáticos de Reconocimiento del Habla) conforman en la actualidad una enorme necesidad dentro de la industria de la informática, pues su alcance resulta prometedor. La gran mayoría de ellos usa como unidades elementales de reconocimiento a los fonemas, sin embargo, su uso aún no es satisfactorio.
FASES DE UN SISTEMA DE RECONOCIMIENTO DEL HABLA. Los sistemas automáticos de reconocimiento de voz utilizan diferentes técnicas para llevar a cabo las tareas que se les adjudican. Dentro de éstas se encuentran las que se ilustran del lado derecho: FASES DE LOS SISTEMAS DE RECONOCIMIENTO ENTRENAMIENTO RECONOCIMIENTO
ESTRUCTURAS LINGÚISTICAS EMPLEADAS EN LA TAREA DEL RECONOCIMIENTO DE VOZ Como se observa, la señal de voz ha sido analizada desde distintos puntos de vista. Se han hecho análisis desde fonemas, hasta la palabra misma. Esto ha dado como origen una gran cantidad de resultados e implementación de algunas técnicas adyacentes. El presente trabajo se enfoca al área de la sílaba y se analiza su alta sensibilidad al contexto, tal y como se muestra en la figura.
OBJETIVO GENERAL. Desarrollar el estudio y análisis del efecto que tiene introducir unidades silábicas en esquemas de reconocimiento de voz dentro del Español, apoyándose en la técnica de Cadenas Ocultas de Markov, con el fin de lograr incrementar los índices de reconocimiento que prevalecen en la actualidad y analizar su comportamiento.
OBJETIVOS PARTICULARES • Realizar un estudio de las características que tienen las sílabas dentro del Español, analizando su estructura interna, sus elementos y la relación que guarda con otros lenguajes, donde la sílaba resulta bastante útil en esquemas de reconocimiento ya implantados. • ·Demostrar la factibilidad que tiene la sílaba como elemento básico de reconocimiento, en esquemas regulados bajo la dependencia de contexto. • Aplicar la técnica de Cadenas Ocultas de Markov para demostrar la utilidad de la sílaba en los sistemas de reconocimiento de voz dentro del Español. Realizando estrategias de caracterización basadas en esta unidad del habla. • Crear variantes de investigación dentro del Español, con lo que el estado del arte actual en esta área se verá beneficiado y la contribución del presente trabajo, sirva como una vista alternante a los elementos actuales.
HIPÓTESIS • La inclusión de sílabas en los esquemas de reconocimiento de voz dentro del Español puede permitir el incremento en los índices de reconocimiento que se manejan en la actualidad, sobre todo para cuestiones donde las aplicaciones son totalmente dependientes del contexto.
SISTEMAS DE RECONOCIMIENTO DEL HABLA. UNA HISTORIA RECIENTE • Los inicios: años 50 • Bell Labs .... Reconocimiento de dígitos aislados monolocutor • RCA Labs .... Reconocimiento de 10 sílabas monolocutor • University College in England .... Reconocedor fonético • MIT Lincoln Lab .... Reconocedor de vocales independiente del hablante • Los fundamentos: años 60 • Comienzo en Japón (NEC labs) • Dynamic time warping .... Vintsyuk (Soviet Union) • CMU ... Reconocimiento del Habla Continua .... HAL 9000 • Las primeras soluciones: años 70, el mundo probabilístico • Reconocimiento de palabras aisladas • LPC, programación dinámica • IBM: inicio proyecto reconocimiento de grandes vocabularios • Gran inversión en los USA: proyectos DARPA • Sistema HARPY (CMU) primer sistema con exito
UNA HISTORIA RECIENTE • Reconocimiento del Habla Continua: años 80, expansión • Algoritmos para el habla continua y grandes vocabularios • Explosión de los métodos estadísticos: Modelos Ocultos de Markov • utilizados inicialmente por IBM y Dragon Systems • popularizados por Bell Labs • Introducción de las Redes Neuronales en el reconocimiento de voz • Sistema SPHINX • Empieza el negocio: años 90, primeras aplicaciones • Ordenadores y procesadores baratos y rápidos • Sistemas de dictado • Integración entre reconocimiento de voz y procesado del lenguaje natural. • ¿Una realidad?: años 00, integración en el S.O. • Integración teléfono y Voice Web browsers VoiceXML estandard
ESQUEMA DE RECONOCIMIENTO EN LOS SERES HUMANOS Los sistemas de reconocimiento de voz intentan asimilar las actividades que desarrolla un individuo en sus etapas de habla y escucha. El esquema se ilustra en la figura del lado derecho.
ASPECTOS FISIOLÓGICOS SISTEMA FISIOLÓGICO REPRESENTACIÓN FÍSICA
EL OÍDO INTERNO El oído interno del ser humano es el encargado de realizar la separación en frecuencias de la señal de entrada, el caracol realiza esta tarea de manera aún no bien definida.
Mono vs. Independiente del locutor • Monolocutor • el sistema aprende utilizando la voz de una única persona • resultados altos en tasas de reconocimiento • modalidad necesaria para personas con problemas de dicción • Independiente del locutor • aprendizaje con grandes bases de datos de voz de muchas personas • se reduce la tasa de reconocimiento • necesario para aplicaciones telefónicas • Adaptación al locutor • aprendizaje inicial con multiples locutores • aprendizaje posterior con el uso de una persona • después de la adaptación comportamiento como monolocutor
Tamaño del Vocabulario • Incremento de la dificultad de reconocimiento con el tamaño del vocabulario: p.e. El usuario no conoce todas las palabras que el sistema es capaz de reconocer • Incremento en la complejidad con el tamaño del vocabulario: memoria, cálculo y algoritmos de búsqueda. • Clasificación: • pequeño vocabulario (1-99) • vocabulario medio (100-999) • grandes vocabularios (> 1000)
Palabras Aisladas vs. Habla Continua • Reconocimiento de palabras aisladas • las frases se pronuncian con pausas entre palabras • pausas suficientemente largas • facilidad en la localización del inicio y final de palabra • se simplifican los algoritmos de reconocimiento • modo no natural de comunicación • Reconocimiento de habla continua • las frases se pronuncian sin ningún tipo de restricción • presencia de coarticulación entre palabras • no hay conocimiento a priori de las fronteras entre palabras • modo natural de comunicación • fenómenos de habla espontanea
Variabilidad y Confusión Acústica • Variabilidad acústica • Diferencias en las pronunciaciones de sonidos una misma persona, entre personas coarticulación • Unidad básica de reconocimiento fonemas, difonemas, trifonemas, semisílabas, sílabas, palabras • Confusión acústica • similitud acústica entre palabras del vocabulario estalagmita, estalagtita
Entorno Acústico • Condiciones de laboratorio: voz de alta calidad sin ruidos, sin reverberación o ecos • Condiciones reales • ruido ambiental otras personas, equipos de sonido, aire acondicionado, ... • Distorsiones del canal variaciones en los micrófonos, canal telefónico, salas, ... • Ruidos de respiración, toses, labios, ....
Restricciones Lingüísticas • Léxico: • ¿Cómo se construyen las palabras a partir de las unidades de reconocimiento? fonemas, difonemas, trifonemas • Sintáctico: • ¿Cómo están relacionadas unas palabras con otras para formar una frase? • Nivel de reconocimiento automático del habla • Semántico: • ¿Cúal es el significado de las palabras?, • Necesario para mantener un diálogo • Nivel de comprensión • Pragmático • Relaciones entre las palabras y sus usos a lo largo del diálogo “Me gusta” ---> hace referencia a algo ocurrido en el diálogo • Nivel de diálogo
Señal de voz División silábica PDS Entrenamiento Reconocimiento Libro Código Generación del Libro Código Generación de Observaciones HMM’s Generación de Modelos Reconocimiento Concatenación de sílabas reconocidas Palabra Reconocida
El procesamiento digital es el tratamiento realizado a la señal de voz para que sea más fácil manejarla y realizar operaciones programables, además, de que es más sencillo realizar tales tareas una vez digitalizada la señal de voz, que si se realizarán desde el punto de vista analógico. Sobre la base de los vectores de autocorrelación determinados en el procesamiento digital de señales (PDS) y el libro código global obtenido en el entrenamiento, se generan los vectores de observación.
Existen 3 etapas críticas para un adecuado reconocimiento del sistema, la primera de ellas corresponde a la adecuación de la señal, en donde se comprende a la captura de la señal y al procesamiento digital de la misma. La siguiente etapa es la del procesamiento digital de la señal, en donde se extraen los elementos característicos de la misma, los cuales pueden ser vectores LPC (Codificación Predictiva Lineal) o bien Cepstrales (CLPC). La siguiente etapa es la de la generación de los modelos de cada uno de los elementos del corpus, para el caso especial de las Cadenas Ocultas de Markov aplicadas a las sílabas, es posible generar el conjunto definido de modelos que serán un total de tantos como de sílabas existan.
PROCEDIMIENTO USADO PARA LA EXTRACCIÓN DE CARÁCTERÍSTICAS DE LA SEÑAL DE VOZ [Furui 2000] Filtro pasa-bajas Ventaneo (Hanning, etc.) (muestreo y Cuantización) Anális espectral Extracción de la Trama de análisis Extracción de características
PROCEDIMIENTO USADO PARA LA EXTRACCIÓN DE CARÁCTERÍSTICAS DE LA SEÑAL DE VOZ POR SÍLABAS ETAPA DE ENTRENAMIENTO[2004] Filtro pasa-bajas (muestreo y cuantización) Ventaneo (Hanning, etc.) Extracción de la Trama de análisis USO DEL CONOCIMIENTO A PRIORI SISTEMA EXPERTO BASE DE CONOCIMIENTOS (Corpus a analizar) Determinación de la energía Anális espectral Filtro Digital FIR pasa altas fc>4KHz Motor de inferencia (Reglas de división Silábica) Extracción de características
Procesado Acústico transcripción Análisis Gramatical Análisis Léxico Aprendizaje modelos acústicos Modelado Acústico Modelado Lenguaje Procesado Acústico Voz P(O|W) P(W) Hz Algoritmo de Reconocimiento Secuencia de Palabras voz texto Componentes de un sistema de Reconocimiento Entrenamiento Reconocimiento
Componentes de un sistema de Reconocimiento Procesado Acústico transcripción Análisis Gramatical Análisis Léxico Aprendizaje modelos acústicos Procesado Acústico voz voz texto Entrenamiento P(O|W) P(W) Modelado Acústico Modelado Lenguaje Reconocimiento Algoritmo de Reconocimiento Secuencia de Palabras
Toda la serie de experimentos relacionados a la longitud de la sílaba implican que ésta juega un papel muy importante. De los resultados anteriores, se encontró que el promedio de la sílaba resultó ser de 0.33503913 segundos, lo que explica el porque se toma en cuenta, que el tiempo promedio de duración de estos elementos es de este valor.
NÚMERO DE ELEMENTOS SILÁBICOS EMPLEADOS EN EL HABLA CONTINUA Y EN TEXTOS. La gráfica demuestra un incremento exponencial del número de sílabas como un porcentaje de aparición tanto en el habla continua como en textos del Español Mexicano, dichas características se conservan en lenguajes como el Inglés, el Francés, el Japonés, etc.
CLASIFICACIÓN DE LAS SÍLABAS DE ACUERDO A NÚMERO DE ELEMENTOS. Palabras monosilábicas:Son las que están formadas por una sílaba: Luz, mar. Palabras bisilábicas:Son las que están formadas por dos sílabas: Silla, mesa. Palabras trisilábicas:Son las que están formadas por tres sílabas: Ventana, cabeza. Palabras polisilábicas:Son las que están formadas por cuatro o más sílabas: Argentina, Polideportivo.
REGLAS DE LAS SÍLABAS. En el idioma Español existen once reglas, las cuales determinan la separación de las sílabas de una palabra. Estas reglas son listadas a continuación[Díaz, 1970], [Cabral, 1978], mostrando enseguida de la regla ejemplos de la misma, así como excepciones. REGLA 1.- En las sílabas, por lo menos, siempre tiene que haber una vocal. Sin vocal no hay sílaba. REGLA 2.- Cada elemento del grupo de consonantes inseparables, mostrado en la figura, no puede ser separado al dividir una palabra en sílabas. REGLA 3.- Cuando una consonante se encuentra entre dos vocales, se une a la segunda vocal. REGLA 4.- Cuando hay dos consonantes entre dos vocales, cada vocal se une a una consonante
REGLAS DE LAS SÍLABAS. REGLA 5.- Si son tres las consonantes colocadas entre dos vocales, las dos primeras consonantes se asociarán con la primera vocal y la tercer consonante con la segunda vocal. Excepción.- Esta regla no se cumple cuando la segunda y tercera consonante forman parte del grupo de consonantes inseparables. REGLA 6.- Las palabras que contienen una h precedida o seguida de otra consonante, se dividen separando ambas letras. REGLA 7.- El diptongo es la unión inseparable de dos vocales. Se pueden presentar tres tipos de diptongos posibles: Son diptongos sólo las siguientes parejas de vocales: ai, au, ei, eu, io, ou, ia, ua, ie, ue, oi, uo, ui, iu, ay, ey, oy. Ejemplo La unión de dos vocales abiertas o semiabiertas no forman diptongo, es decir, deben separarse en la segmentación silábica. Pueden quedar solas o unidas a una consonante. Ejemplo
REGLA 8 La h entre dos vocales, no destruye un diptongo. Ejemplo: REGLA 9 La acentuación sobre la vocal cerrada de un diptongo provoca su destrucción. REGLA 10 La unión de tres vocales forma un triptongo. La única disposición posible para la formación de triptongos es la siguiente: Vocal cerrada + ( vocal abierta | vocal semiabierta ) + vocal cerrada Sólo las siguientes combinaciones de vocales, forman un triptongo: iai, iei, uai, uei, uau, iau, uay, uey.
Combinación Ejemplo Número de regla aplicada V A 1 VC Ár + bol 4 VV Au + tomóvil 7 VVC Aun + que 7, 4 INICIO DE SÍLABA VOCAL. En la tabla se muestran las posibles combinaciones de este caso, un ejemplo de cada combinación y el número de regla aplicada para la separación en sílabas de esa palabra. Inicio de sílaba: Vocal Nótese que se excluyeron los casos VVV y VVVC, debido a que en 9000 palabras que fueron analizadas no se encontró ninguna coincidencia[Camacho, 1978].
DATOS ESTADÍSTICOS DE LA SÍLABA EN EL ESPAÑOL MEXICANO. Esta tabla nos muestra datos estadísticos que se han encontrado al analizar a la sílaba dentro del Español Mexicano y denotan la frecuencia en la que comunmente se usan dichas sílabas dentro del lenguaje, como es de esperarse, los sonidos vocálicos (sílabas atómicas por carácterística propia), contienen una alta frecuencia de aparición en los esquemas de habla continua.
LA CODIFICACIÓN PREDICITIVA LINEAL Y EL FILTRO FIR. Una de las tareas importantes dentro del preprocesamiento de la señal de voz es sin lugar a dudas la codificación predictiva lineal; su tarea es modelar las actividades que se manifiestan dentro del tracto vocal y en un análisis retrospectivo encontrar el valor de la señal en tn a partir de tn-x,.....,tn-5,.....,tn-1 muestras anteriores de la señal de voz.
LOS ELEMENTOS DE UNA CADENA DE MARKOV q5 q6 q1 q2 q3 q4 1.- ESTADOS. 2. SIMBOLOS. 3. TRANSICIONES. 4. OBSERVACIONES. 5. PROBABILIDAD INICIAL.
LOS 3 PROBLEMAS DE LAS CADENAS OCULTAS DE MARKOV PROBLEMA 1. Dada una secuencia de observación O=(o1,o2,....,oT), y un modelo lamda=(A,B,¶), cómo podemos calcular eficientemente P(O/lamda), esto es, determinar la probabilidad de la secuencia de observación, dado el modelo. PROBLEMA 2. Dada la secuencia de observación O=(o1,o2,....,oT), y el modelo, cómo seleccionamos una secuencia de estados correspondiente q=(q1q2....qT) que es óptima en algún sentido (por ejemplo las mejores "explicaciones" de las observaciones. PROBLEMA 3. Cómo ajustar los modelos de los parámetros lamda=(A,B,¶) para maximizar P(O|lamda).
EL PROCESAMIENTO HACIA DELANTE
Modelos Ocultos de Markov • Reconocimiento Dado un Modelo Oculto de Markov (HMM) l Calcular la probabilidad de que dicho modelo genere la secuencia de medidas acústicas O={O1, O2, O3,.... OT}
transition probabilities satisfy the stochastic constraint N number of states HMM state duration: exponential distribution, weak point because: Speech: gamma distribution Hidden Markov Models • Output probability distribution The acoustic measurements take values from a finite set Discrete probability densities Continuos probability densities Mixture of Gaussian probability density function
Hidden Markov Models • Mixture Gaussian Output Distributions
MODELOS ESTOCÁSTICOS EN SISTEMAS DE RECONOCIMIENTO DEL HABLA USANDO ESTRUCTURAS SILÁBICAS. Al segmentar la señal de voz en unidades básicas, se hace necesario el análisis individual de cada una de ellas, al final, la inclusión de características de lenguage natural (cadenas de formación dependientes del contexto), permiten conformar el vocabulario suministrado al sistema, la sílaba es altamente dependiente del contexto. La figura muesta la forma de unir cadenas ocultas de Markov para este caso.
ENTRENAMIENTO Estimación de la máxima probabilidad (MLE). Se basa en la maximización de la probabilidad de los datos de entrenamiento. Procedimientos de entrenamiento Estimación del máximo a posteriori (MAP). Las densidades a priori de los parámetros del modelo son tomados en cuenta en el proceso de maximización. El desarrollo teórico de las fórmulas iterativas de estos algoritmos se basa en la desigualdad de Baum [Baum 67]. Las aplicaciones de ambos métodos son distintas, MLE suele usarse para entrenamiento de grandes bases de datos, mientras que MAP es útil cuando el número de datos de entrenamiento es pequeño. MAP alcanza el mismo rendimiento cuando se aplica a grandes bases de datos.
ENTRENAMIENTO Considere la variable regresiva definida como se muestra en la ecuación siguiente: esto es, la probabilidad de la secuencia de observación parcial, O1O2...Ot, (mientras el tiempo t) y el estado i al tiempo t, dado el modelo . En [9] se menciona que podemos resolver para inductivamente, como se muestra en las ecuaciones siguientes. 1.Inicialización 1 i N 2.Inducción 1 j N, 1 t T-1 3. Finalización
ENTRENAMIENTO 1.Inicialización 2.Inducción 3. Finalización