E N D
CADENAS OCULTAS DE MARKOV Por mucho tiempo, las técnicas estadísticas se han utilizado en la clusterización para la creación de patrones. Las Cadenas Ocultas de Markov o cualquier otro tipo de modelado estadístico consideran que la señal de voz se puede caracterizar de manera apropiada mediante un proceso aleatorio parámetrico, y que los parámetros del proceso estocástico puede ser determinado (estimado) de manera precisa y de manera bien definida. La teoría básica de las HMM fue publicada en una serie de artículos clásicos por Baum y sus colegas a finales de los 60’s e inicios de los 70’s [1]-[5] y se utilizó por primera ocasión para el reconocimiento de voz por Baker [6] en CMU, y por Jelinek y colegas en IBM [7]-[13] en los años 70’s. Andrey (Andrei) Andreyevich Markov (Russian:Андрей Андреевич Марков)
PROCESOS DE MARKOV DISCRETOS EN EL DOMINIO DEL TIEMPO Considerar un sistema que puede estar oscilando entre un conjunto de estados determinado de un conjunto de N estados distintos indexados de la forma {1, 2, 3, ……. , N}, tal y como de ilustra en las figuras anteriores, donde N=3 para ambos casos. Se indican los instantes de tiempo asociados con cambios de estados como t=1,2,…., y se denota el estado actual en el tiempo t de la forma qt.
PROCESOS DE MARKOV DISCRETOS EN EL DOMINIO DEL TIEMPO Una descripción probabilística completa del sistema anterior de manera general requiere la especificación del estado actual (al tiempo t), también como los estados anteriores. Para el caso específico de una cadena de Markov de primer orden y discreta en tiempo, la dependencia probabilística es truncada exactamente al estado anterior. Además, se considerarán solo aquellos procesos en los cuales la secuencia es de izquierda a derecha y que son independiente del tiempo, de tal forma que el conjunto de transiciones se puede escribir de la forma:
PROCESOS DE MARKOV DISCRETOS EN EL DOMINIO DEL TIEMPO Con las siguientes propiedades: Por lo que los datos anteriores obedecen las condiciones estocásticas. El proceso estocástico antes descrito recibe el nombre de un modelo de Markov observable dado que la salida del proceso es el conjunto de estados en cada instante de tiempo, en donde cada estado corresponde a un evento observable. El conjunto de ideas, consideran un modelo de Markov de tres estados simples, esto es el modelo que se muestra en la siguiente figura que simula el clima en una cierta ciudad. Se considera que en un instante del día (por ejemplo en la noche), el clima se observa y se registra de la siguiente forma:
PROCESOS DE MARKOV DISCRETOS EN EL DOMINIO DEL TIEMPO Estado 1 (S1): precipitación (de lluvia o de nieve) Estado 2 (S2): nublado Estado 3 (S3): soleado
PROCESOS DE MARKOV DISCRETOS EN EL DOMINIO DEL TIEMPO Dado el modelo de la figura anterior pueden surgir muchas preguntas interesantes acerca de los patrones del clima a lo largo del tiempo y se puede analizar el siguiente problema: ¿Cuál es la probabilidad (de acuerdo al modelo) de que el clima por 8 días consecutivos sea de la forma “soleado, soleado, soleado, lluvioso, lluvioso, soleado, nublado, soleado”?
PROCESOS DE MARKOV DISCRETOS EN EL DOMINIO DEL TIEMPO Correspondiendo al conjunto de postulados de las condiciones del clima a lo largo de un periodo de ocho días y deseando calcular P(O/modelo), la probabilidad de que la secuencia de observación O, dado el modelo. Se puede determinar de manera directa de la forma:
PROCESOS DE MARKOV DISCRETOS EN EL DOMINIO DEL TIEMPO Otra pregunta interesante es la que se plantea como siguiente problema: ¿Debido a que el sistema está en un estado conocido, cuál es la probabilidad de que permanezca en ese estado? Dado el modelo, el cual es:
EXTENSIONES A LOS MODELOS OCULTOS DE MARKOV Los modelos Markovianos anteriormente analizados en los cuales cada estado corresponde a un evento observable de forma determinista. Así, la salida de tales fuentes en un estado determinado no es aleatorio. Este modelo está restringido a ser utilizado en muchos modelos de interés. Por lo que es necesario extender los conceptos de los modelos de Markov para incluir los casos en los que la observación es una función probabilística del estado –esto es, el modelo resultante (al cual se le denomina Modelo Oculto de Markov) es un proceso estocástico doblemente embebido con un proceso estocástico que no se encuentra directamente observable (es decir, oculto) pero puede ser observado solamente por medio de otro conjunto de procesos estocásticos que producen las secuencias de observaciones. Para ilustrar el concepto básico de los Modelos Ocultos de Markov, se ejemplificará de la siguiente manera en donde se colocan ejemplos con monedas.
EXTENSIONES A LOS MODELOS OCULTOS DE MARKOV • Ejercicio. Dada una simple moneda, con P(cara)=P(cruz)=0.5. Determinar: • ¿Cuál es la probabilidad de que en los siguientes 10 lanzamientos se obtenga la secuencia (HHTHTTHTTH)? • ¿Cuál es la probabilidad de que en los siguientes 10 lanzamientos se produzca la secuencia (HHHHHHHHHH)? • ¿Cuál es la probabilidad de que en 5 de los próximos 10 lanzamientos sean cruces?, y asimismo, ¿Cuál es el número esperado de cruces en los próximos 10 lanzamientos? • Solución • (1) Para una moneda simple, con lanzamientos de monedas independientes, la probabilidad de que alguna secuencia de observación específica de longitud 10 (10 lanzamientos) es (1/2)10 debido a que existen 210 de tales secuencias y todas son igualmente probables.
EXTENSIONES A LOS MODELOS OCULTOS DE MARKOV El resultado es similar al primero La probabilidad de 5 cruces coincide con el número de secuencias de observación de 5 caras y 5 cruces. Debido a que existen (10 5) formas de obtener 5H y 5T en 10 lanzamientos y cada secuencia tiene la probabilidad de (1/2)10. El número esperado de caras en 10 lanzamientos es:
EL MODELO DE LA URNA Y LA PELOTA Considere que hay N urnas de vidrio en un cuarto como se muestra en la figura, dentro de cada una existen una gran cantidad de pelotas de M distintos colores, el proceso físico para obtener las observaciones es como sigue: ESTADOS Una persona está en un cuarto, de acuerdo a un procedimiento aleatorio, elige una urna inicial; de esta urna, una pelota es seleccionada al azar, y su color es registrado como una observación. La pelota entonces se reemplaza en la urna de la que fue seleccionada. Se escoge una nueva urna de acuerdo al proceso aleatorio, y el proceso de selección de pelota se repite, de esta forma se genera una secuencia de observaciones finitas de colores, la cual podríamos modelar como la salida observable de una HMM.
ELEMENTOS DE UNA HMM Número de estados en el modelo (N) Debido a que los estados se encuentran ocultos, para muchas aplicaciones prácticas existe algún significado relacionado a los estados o conjuntos de estados del modelo. En el modelo de la urna y las pelotas, cada estado corresponde a las urnas. Generalmente, los estados están interconectados de tal forma que cualquier estado puede alcanzar a otro; como veremos, existen una gran cantidad de interconexiones entre estados de interés y esto se puede trasladar a aplicaciones de reconocimiento de voz. Se etiquetan los estados individuales como {1,2,....,N}, y denotan el estado al tiempo t como qt.
ELEMENTOS DE UNA HMM Número de diferentes observaciones de cada símbolo por estado (M) Los símbolos de observación corresponden a la salida física del sistema que está siendo modelado. Para el caso del experimento con las monedas son la cara y la cruz. Para el modelo de la urna con las pelotas son los colores de las pelotas seleccionadas de las urnas. Se denotan los símbolos individuales como:
ELEMENTOS DE UNA HMM Distribución de probabilidad de cada estado de trancisición (A) La distribución de probabilidad de cada estado de transición es A={aij}, donde aij se define como se muestra en la ecuación. para el caso especial en el cual un estado puede alcanzar a otro estado en un paso sencillo, tenemos para todos los i, j. Para otros tipos de HMM, podríamos tener para uno o más pares de (i, j).
ELEMENTOS DE UNA HMM Observación de los símbolos de la distribución de probabilidad (B) La observación de los símbolos de la distribución de probabilidad, , en la cual se define por la ecuación, donde se definen los símbolos de distribución en el estado j, j=1,2,...,N.
ELEMENTOS DE UNA HMM Distribución del estado inicial () La distribución del estado inicial la cual está definida por la ecuación se puede observar que un modelo de un HMM requiere la especificación de dos parámetros para él número de estados (N) y número de diferentes observaciones de cada símbolo por estado (M), la especificación de los símbolos de observación, y la especificación de los tres estados de probabilidad medidos A, B y Por conveniencia, usamos la notación compacta: para indicar el conjunto de parámetros completos del modelo. Este conjunto de parámetros, por supuesto, definen una medida de probabilidad para O, por ejemplo,
GENERADOR HMM DE OBSERVACIONES Dados los valores apropiados de N, M, A, B y el HMM puede ser usado como un generador para dar una secuencia de observación • en la cual cada observación Ot es una de los símbolos de V, y T es el número de observaciones en la secuencia como sigue: • Selecciona un estado inicial de acuerdo a la distribución de estado inicial. 2. Establecer 3. Seleccionar de acuerdo al símbolo de distribución de probabilidad en estado i, por ejemplo de acuerdo a la distribución de probabilidad del 4. La transición a un nuevo estado estado de transición par el estado i por ejemplo
GENERADOR HMM DE OBSERVACIONES ; regresar al paso 3 sí ; de otra forma termina el procedimiento. 5. Establecer La siguiente tabla muestra la secuencia de estados y observaciones generadas por el procedimiento de arriba: El procedimiento de arriba puede ser usado tanto para un generador de observaciones y como un modelo para simular como una secuencia de observación dada que se genera por una HMM apropiada.
GENERADOR HMM DE OBSERVACIONES Considerar una representación (parametrizada por ) de un experimento de lanzamiento de monedas. Considerar el modelo de tres estados (correspondiente a las tres monedas diferentes), con probabilidades: Con todas las probabilidades de transición entre estados igual a 1/3. (considerar las probabilidades de estados iniciales igual a 1/3. 1. Tu observarás la secuencia O=(HHHHTHTTTT). ¿Cuál secuencia de estados es la más adecuada?. ¿Cuál es la probabilidad de la secuencia de observaciones y su secuencia de estados se parezca?.
GENERADOR HMM DE OBSERVACIONES 2. ¿Cuál es la probabilidad de que la secuencia de observación venga completamente del estado 1? 3. Considerar la secuencia de observaciones 4. Si las probabilidades de transición fueron: Esto es, un nuevo modelo , ¿Cuáles serían las respuestas a los incisos 1-3?. ¿Qué es lo que se sugiere acerca de los tipos de secuencias generadas por los modelos?
GENERADOR HMM DE OBSERVACIONES 1. Dada y que todas las transiciones son igualmente probables, la secuencia de estados más parecida es aquella en la cual la probabilidad de cada observación individual sea máxima. Así para cada H, el estado más cercano es 2 y para cada T lo es el estado 3. Así la secuencia de estados más parecida es: La probabilidad de y (dado el modelo) es
GENERADOR HMM DE OBSERVACIONES 1. Dada la probabilidad de dado es: es La razón de es: La cual muestra que, como se esperaba, que es más cercana a
GENERADOR HMM DE OBSERVACIONES La nueva probabilidad de dado es: La nueva probabilidad de dado es: La razón es
GENERADOR HMM DE OBSERVACIONES En otras palabras, debido a la probabilidades de transmisión no uniformes, es más cercana a . Ahora la probabilidad de y no es la misma que la probabilidad de y . Se tiene: con razón de Claramente es más parecida.
MODELOS OCULTOS DE MARKOV APLICADOS AL RECONOCIMIENTO DE VOZ Para tener un mejor entendimiento, considerar el siguiente reconocedor simple de palabras aisladas. Para cada palabra de un vocabulario W, se desea diseñar una HMM independiente de N-estados. Se representará a una señal de voz de una palabra determinada como una secuencia en tiempo de vectores espectrales codificados. Consideraremos que la codificación se realiza utilizando un libro código espectral en M vectores espectrales únicos; de aquí se considerará que las observaciones son los índices de los vectores espectrales más próximos (tomando en consideración alguna medida de distorsión espectral determinada) con respecto a la señal de voz original. Así, para cada palabra del vocabulario, se tiene una secuencia de entrenamiento consistente del número de repticiones d elas secuencias de los índices del libro código de la palabra (por un o o más locutores). La primer tarea es construir modelos de palabras individuales. Esta tarea se realiza pero utilizando la solución al problema 3 para la estimación adecuada de los parámetros del modelo para cada palabra del modelo. Para realizar un entendimiento de los medios físicos de los modelos de estados, se utilizará la solución al problema 2 para realizar la segmentación de cada una de las secuencias de palabras de entrenamiento en forma de estados, y por consiguiente realizar el estudio de las propiedades de los vectores espectrales que tratan a las observaciones que ocurren en cada estado.
MODELOS OCULTOS DE MARKOV APLICADOS AL RECONOCIMIENTO DE VOZ La meta es realizar refinaciones al modelo (por ejemplo, más estados, diferentes tamaños del libro código, etc.) para otorgar la capacidad del modelado de secuencias de palabras habladas. Finalmente, una vez que se el conjunto de HMM del total de las palabras que conforman al vocabulario W ha sido diseñado y optimizado, el reconocimiento de una muestra desconocida utilizando la solución al problema 1 para determinar valores por cada modelo de palabra basada en la secuencia de observaciones dada, y se seleccionará la palabra en la cual la probabilidad más alta ocurra.
MODELOS OCULTOS DE MARKOV Deseamos calcular la probabilidad de la secuencia de observaciones, O=(o1,o2,....,oT), dado el modelo , por ejemplo, P(O| ). La forma mas adecuada de hacer esto es a través de la enumeración de cada secuencia de estados posibles de longitud T (el numero de observaciones), hay NT de tales secuencias de estados. Considerar una de las siguientes secuencias mezcladas[32]. q=(q1q2....qT) en donde q1 es el estado inicial; la probabilidad de la secuencia de observación dado la secuencia de estado de la ecuación anterior es, en donde hemos asumido la independencia estadística de observaciones, por lo que tenemos:
MODELOS OCULTOS DE MARKOV La probabilidad de tales secuencia de estados q puede ser escrita como: La probabilidad conjunta de O y q, esto es, la probabilidad que O y q antes descritos, esto es: La probabilidad de O (dado el modelo) es obtenida, pero sumando esta probabilidad conjunta a través de todas las posibles secuencias q, dadas
MODELOS OCULTOS DE MARKOV La interpretación del cálculo en la ecuación anterior es la siguiente: inicialmente (al tiempo t=1) estamos en el estado q1 con una probabilidad igual a ¶q1, y genera los símbolos O1 (en este estado) con la probabilidad bq1(O1). El reloj cambia del tiempo t a t+1 (tiempo=2) y realizamos una transición al estado q2 desde el estado q1 con la probabilidad aq1q2, que genera el símbolo O2 con la probabilidad bq2(O2). Este proceso continúa de esta manera, mientras que se hace, se lleva a cabo la traslación anterior (al tiempo T) del estado qT-1 al estado qT con probabilidad aqT-1qT y genera el símbolo OT con probabilidad bqT(OT). Un pequeño análisis permite verificar que él calculo de P(O| ), de acuerdo a su definición en la ecuación de la diapositiva anterior involucra el orden de 2T*NT cálculos, dado que en cada t=1,2,...,T, hay N posibles secuencias de estados, y para cada secuencia de estado aproximadamente 2T cálculos son requeridos por cada término en la suma de la ecuación. Para ser precisos, se necesitarían (2T-1)NT multiplicaciones, y NT-1 sumas, este cálculo es computacionalmente irrealizable, dado que para valores pequeños de N y T, por ejemplo N=5, T=100 (observaciones), hay alrededor de 1072 cálculos. Claramente un procedimiento más eficiente se requiere para resolver el problema 1, afortunadamente tal procedimiento existe y se llama el procedimiento hacia adelante.
PROCEDIMIENTO HACIA DELANTE Problemas para los Modelos Ocultos de Markov Problema 1. Dada una secuencia de observación O=(o1, o2, ..., oT) y un modelo =(A,B,), como podemos calcular eficientemente la probabilidad de la secuencia de observación P(O/ ). Algoritmo hacia adelante • Inicialización 1 i N • Inducción 1 j N1 t T-1 • Terminación
PROBLEMA 1 El paso 1 inicializa la probabilidad hacia delante en conjunto con la probabilidad de estar en el estado i y tener la observación o1. El paso de inducción, el cual es el corazón del cálculo hacia delante, se muestra en tres diapositivas adelante. Esta diapositiva muestra como el estado j puede ser alcanzado al tiempo t+1 de los N posibles estados, i, , al tiempo t. Dado que es la probabilidad de que los eventos o1,o2,……,ot sean observados, y el estado al tiempo t es i, el producto es entonces la probabilidad de que el conjunto de observaciones conjuntas o1,o2,……,ot sea observado, y el estado j es alcanzado al tiempo t+1 por medio de i al tiempo t. Considerando este producto a lo largo de todos los N posibles estados, i, al tiempo t resulta ser la probabilidad de j al tiempo t+1 con todas las observaciones que con antelación y de manera parcial la acompañan. Una vez que es hecho esto y j es conocido, es fácil observar que se obtiene por la observación en el estado j, esto es, que multiplicando la cantidad sumada por la probabilidad . El cómputo se realiza para todos los estados j, , para alguna t dada; el cálculo es entonces iterado para t=1,2,….,T-1. Finalmente, el paso 3 nos entrega el cálculo de la probabilidad deseada como la suma de las variables hacia delante terminales . Este es el caso que por definición se convierte en :
PROBLEMA 1 Y por lo tanto, es la suma de Si se examina el cómputo involucrado en el cálculo de , vemos que éste requiere un orden de N2T cálculos, en lugar de 2TNT que se necesitan el cálculo de forma directa. (Nuevamente, para ser precisos, se requieren N(N+1)(T-1)+N multiplicaciones y N(N-1)(T-1) sumas. Para N=5, T=100, se requieren de 3000 cálculos para el método hacia delante, contra 1072 cálculos para el cómputo directo, lo que significa un ahorro total en un orden de 69. El cálculo de la probabilidad hacia delante está, basada en la estructura Trellis de la diapositiva siguiente, La clave de esto es que, debido a que son sólo N estados (nodos por cada tiempo), todas las posibles secuencias de estados aparecen dentro de esos N nodos, no importando que tan grande sea la secuencia de observación. Al tiempo t=1 (el primer tiempo de observación), se requieren calcular los valores para . En los instantes de tiempo t=2,3,…..,T, se requieren calcular valores sólo de , en donde cada cálculo involucra sólo los N valores previos de debido a que cada uno de N puntos de la malla pueden ser alcanzados a través de los N puntos previos de la malla.
PROCEDIMIENTO HACIA ATRÁS Problemas para los Modelos Ocultos de Markov Problema 1. Dada una secuencia de observación O=(o1, o2, ..., oT) y un modelo =(A,B,), como podemos calcular eficientemente la probabilidad de la secuencia de observación P(O/ ). Algoritmo hacia atrás • Inicialización 1 i N • Inducción
EL ALGORITMO DE VITERBI A diferencia del problema 1, para el cual una solución exacta puede ser dada, existen muchas formas de resolver el problema dos – denominado, el problema de encontrar la secuencia de estados óptima asociada con una secuencia de observación dada. La dificultad encontrada con esta definición de la secuencia de estado óptimo – esto es, existen muchos criterios de optimización posible. Por ejemplo, un criterio de optimización posible es seleccionar los estados qt que son individualmente más parecidos en un tiempo t. Este criterio de optimización maximiza el número esperado de estados individuales correctos. Para implementar esta solución al problema 2, se define la variable de probabilidad a posteriori. Esto es, la probabilidad de estar en el estado i al tiempo t, dada la secuencia de observación O, y el modelo . Podemos expresar de muchas formas, incluyendo:
EL ALGORITMO DE VITERBI Donde se puede ver que cuenta para la secuencia de observaciones parciales y el estado i en t, mientras que cuenta para el resto de la secuencia de observaciones esta dado por: Utilizando , podemos resolver para el estado más parecido individualmente al tiempo t, de la forma: Esto es, la ecuación anterior maximiza el número esperado de estados correctos (pero seleccionando el estado más probable para cada t), esto podría tener algunos problemas con la secuencia de estados resultante. Por ejemplo, cuando las HMM tienen transiciones de estados, las cuales tienen probabilidad cero o para alguna i y j), la secuencia de estados óptima puede no ser una secuencia de estados válida. Esto es debido a que la solución de la ecuación anterior solamente determina el estado más probable en cada instante, sin preocuparse de la probabilidad de ocurrencia de la secuencia de estados.
Problema 2. Dada una secuencia de observación O=(o1, o2, ..., oT) y un modelo =(A,B,), como seleccionamos la secuencia de estados correspondiente Q=(q1, q2, ...,qT) que sea óptima en algún sentido. Algoritmo de Viterbi • Inicialización 1 i N • Recursión 1 j N1 t T-1 • Terminación 1 i N 1 i N
EL ALGORITMO DE VITERBI Dado el modelo del experimento del lanzamiento de monedas utilizado con anterioridad, con las probabilidades: Y con todas las probabilidades de transición entre estados igual a 1/3, y con igualdad en las probabilidades iniciales a 1/3, para la secuencia de observaciones: O=(H H H H T H T T T ) Encontrar la mejor trayectoria haciendo uso del Algoritmo de Viterbi
EL ALGORITMO DE VITERBI Dados que todos los términos de son igual a 1/3, se pueden omitir éstos. Así como el término de la probabilidad inicial del estado), quedando entonces:
3 2 1 EL ALGORITMO DE VITERBI
Problema 3. Como ajustar los modelos de los parámetros =(A,B,) para maximizar P(O/ ). Algoritmo de Baum-Welch aij= número esperado de transiciones del estado si al estado sj número esperado de transiciones del estado si bj(k)= número esperado de veces que estando en j observo el símbolo vk número esperado de veces que estoy en el estado j
PROBLEMA 3 El tercero, pero a su vez el más difícil de los tres problemas, es determinar la manera en que se deben de ajustar los parámetros del modelo (A,B,π) para satisfacer un cierto criterio de optimización. No existe una forma analítica para resolver por medio del conjunto de parámetros del modelo que maximice la probabilidad de la secuencia de observaciones en una forma cerrada. Se puede, sin embargo, seleccionar de tal forma que su probabilidad, se encuentra localmente maximizada utilizando un procedimiento iterativo tal como el método de Baum-Welch (también conocido como el método de la máxima esperanza), o bien utilizando técnicas del gradiente. Para describir el procedimiento de reestimación (actualizaciones iterativas y nuevos datos) de los parámetros de la HMM, primero definiremos , como la probabilidad de estar en el estado i al tiempo t, y el estado j al tiempo t+1, dado el modelo y la secuencia de observaciones, esto es:
PROBLEMA 3 Las trayectorias que satisfacen las condiciones requeridas por la expresión anterior. De la definición de las ecuaciones hacia delante y hacia atrás, se puede escribir de la forma:
PROBLEMA 3 Se ha definido previamente como la probabilidad de estar en el estado i al tiempo t, dado que la secuencia de observación integra y el modelo; por tanto, se puede relacionar a con pero sumando a lo largo de j, lo cual da: Si se suma a lo largo de todo el índice t, se obtiene una cantidad que se puede interpretar como el número de veces esperado que el estado i es visitado, o de forma equivalente, el número esperado de transiciones realizadas del estado i (si se excluye el slot de tiempo t=T de la sumatoria). De forma similar, la suma de a lo largo de t (de t=1 a t=T-1) se puede interpretar como el número esperado de transiciones del estado i al estado j. Esto es:
PROBLEMA 3 Utilizando las fórmulas de arriba (y el concepto de conteo de ocurrencias de eventos), podemos tener un método de reestimación de los parámetros de una HMM. Un conjunto de fórmulas de reestimación razonable para π, A, y B es:
DERIVACIÓN DE LAS FÓRMULAS DE REESTIMACIÓN DE LA FUNCIÓN Q La función auxiliar se define como: En la cual se puede expresar P y el log P (en términos de los parámetros de las HMM como: En estas expresiones las primeras observaciones se encuentran asociadas con el espacio inicial antes de que cualquier tipo de transición se realice. Por lo que se puede escribir: