550 likes | 996 Views
CADENAS DE MARKOV. El conjunto de todos los posibles estados que un proceso puede ocupar en los distintos movimientos se llama espacio de estados. Un espacio de estados puede ser finito, numerable no numerable.
E N D
El conjunto de todos los posibles estados que un proceso puede ocupar en los distintos movimientos se llama espacio de estados. Un espacio de estados puede ser finito, numerable no numerable. Usaremos a1,a2,.....an para representar los (n) estados de un estado ai ‑‑‑‑‑‑> aj para representar que el proceso se mueve del estado (i) al estado (j). Espacio de estados de un proceso:
P(ai ‑‑‑‑‑> aj) es la probabilidad condicional para que el proceso que se encuentra en el estado ai se mueva al estado aj en un sólo paso, y se designa por Pij . Esto recibe el nombre de probabilidad de transición de un sólo paso. Si todas estas probabilidades son conocidas para todos los pares de estados se ordenan en una matriz cuadrada que recibe el nombre de matriz de transición. P = [pij] Ejemplo: Sea una persona sentada en el asiento de en medio de una fila de cinco asientos [marcados con A,B,C,D,E] de izquierda a derecha. Esta persona se mueve por seis veces de una silla a la otra, estando sus movimientos controlados por una moneda que se tira al aire. a) Si no está al final de una fila de asientos se mueve hacia la derecha si sale CARA y hacia la izquierda si sale CRUZ. b) Si está al final se quedará donde está salga lo que salga. Probabilidades de transición de un solo paso
P[A ‑‑‑> A] = P[E ‑‑‑> E] = 1 ya que se queda donde está. P[B ‑‑‑> A] = 1/2 puesto que la probabilidad de que salga CR es 1/2. P[C ‑‑‑> C] = 0 ya que aquí no se puede quedar. La ∑pij = 1 Las matrices que tienen elementos no negativos y a suma de los elementos de sus filas valen la unidad se llaman matrices estocásticas Espacio de Estados: [ A, B, C, D, E ]
Existe un vector probabilidad inicial tal que: a = (a1, a2,....an) en la que los elementos ai son las probabilidades de que el estado inicial del proceso sea Si. En el ejemplo anterior El vector probabilidad inicial sería a = (0, 0,.1, 0, 0) puesto que el proceso comienza en la silla C. Vector probabilidad inicial
Considerar una secuencia Si,Sj,Sk de un experimento cuyo vector y matriz inicial son conocidos. Entonces la secuencia de probabilidad será: P( Si,Sj,Sk ) = P( Si) P( Si‑‑‑>Sj) P( Sj‑‑‑>Sk) P( Si) Podríamos ampliar la regla para cubrir secuencias de cualquier número de pasos. A los procesos a los cuales podemos aplicar esta regla se dicen que tienen la propiedad de Markov. Para tales procesos la probabilidad de la siguiente dirección depende del estado presente del proceso y no depende del estado precedente. Ejemplo: En el problema anterior calcular la probabilidad de la secuencia. P[C,D,C,B,A,A,A] = P[C] P[C ‑‑>D] P[D ‑‑>C] P[C ‑‑>B]. P[B ‑‑>A] P[A ‑‑>A] P[A ‑‑>A] =1.1/2.1/2.1/2.1/2.1.1 =1/16 Propiedad de Markov
Cadena de Markov finita y estacionara. • Una cadena de Markov estacionara y finita queda completamente definida cuando se conoce: • a) Espacio de estados finito. • b) Una matriz [Pij] de probabilidades de transición de un sólo paso estacionara. • c) El vector de probabilidad inicial.
. Cadena ergódica: transición de n pasos • El diagrama es un gráfico de una secuencia de una muestra de una cadena de Markov de cinco estados A ‑‑‑‑> E .En los doce pasos se recorren todos los estados y se sale. Evidentemente el proceso no puede quedarse nunca atrapado. A los estados que pueden atrapar un proceso se les llaman estados absorventes.
La probabilidad de que el proceso pase del estado Si al Sj en (n) pasos se llama probabilidad de transición en n pasos y se simboliza por : P(n)ij La matriz formada por todos los P(n)ijes una matriz cuadrada y se denomina matriz de transición de un (n) pasos. TEOREMA: Si P es la matriz de transición de un paso en una cadena finita de Markov, entonces Pn es la matriz de transición de (n) pasos. Probabilidades de transición superiores
La probabilidad P(n)ij es la probabilidad de pasar de Si a Sj en dos pasos. Suponiendo (m) estados en S. Existen m caminos mutuamente excluyentes Si‑‑‑‑>S1‑‑‑‑>Sj Si‑‑‑‑>S2‑‑‑‑>Sj....... Las probabilidades de esos caminos son: pi1▬►p1j pi2▬► p2j ........ Por lo que por la regla de la cadena la probabilidad del suceso Si‑‑‑‑>Sj en dos pasos será la suma de estas dos probabilidades. Así Pij(n) = ∑ Pir Prj Pero por definición de la multiplicación de matrices, la sumatoria es el elemento ij‑ésimo de la matriz P2. Luego P2 = Pij Por inducción se puede demostrar que Pn = Pij(n)
MATRIZ DE UN SOLO PASO MATRIZ DE DOS PASOS
Estados transitorios: Sea T un subespacio de S y T' su complementario. Si cada estado de T se puede alcanzar desde otro estado de T y es posible moverse de un estado de T a otro T', entonces T es un conjunto transitorio. Un estado transitorio es un elemento de un conjunto transitorio. Estados ergódicos: Sea E un subconjunto de S y E' el complementario de E en S. Si cada estado de E se puede alcanzar desde cualquier otro estado de E, pero ningún estado de E' se puede alcanzar desde E, entonces E recibe el nombre de conjunto ergódico. Un estado ergódico es un elemento de un conjunto ergódico. CADENAS DE MARKOV ABSORVENTES
CADENAS DE MARKOV ABSORVENTES Son cadenas en donde todos los estados transitorios son absorventes. CADENAS ERGODICAS Cadena que está formada por un conjunto ergódico se llama cadena ergódica. Se distinguen dos tipos de cadenas ergódicas: a) Cadena ergódica cíclica: en ella sólo se puede entrar en un estado a intervalos periódicos fijos. b) Cadena ergódica regular: cadena ergódica no‑cíclica.
EJEMPLO Está claro que el sistema completo nunca estará completamente "atrapado" en un estado, así que la cadena es regular.
Siempre es posible moverse de un estado a cualquier otro, en cualquier paso siendo los movimientos no‑cíclicos. Así la cadena y la matriz son regulares.
Después de n pasos la cadena entrará (con probabilidad 1 cuando n tiende a ∞) en S2 o en S3. Una vez situada en uno de estos estados nunca podrá pasar a S1. Por lo tanto S1 es un estado transitorio y así la cadena es no regular y por lo tanto no‑ergódica, aunque el conjunto [ S2, S3 ] sea un conjunto ergódico.
La cadena se mueve con período 3 a través de los conjunto cíclicos [ S1 ] [ S2 ] y [ S3 ]. Es por lo tanto una cadena cíclica ergódica y no una cadena regular.
Fuentes de Markov • Fuentes de MarkovHasta este momento se ha considerado las fuentes de memoria nula, pero en la mayoría de los casos reales los símbolos del alfabeto no tienen probabilidades fijas, sino que dichas probabilidades dependerán en general de los símbolos emitidos. A este tipo de fuentes se les denomina fuentes de Markov.
Fuentes de Markov • Supongamos que un sistema evoluciona con el tiempo. En cada instante t cada parámetro tendrá unos valores determinados. Cada colección de esos valores define lo que llamamos estado del sistema. La evolución es tal que en unos instantes determinados el estado cambia o permanece fijo. Es decir que en cada instante el sistema evoluciona con una transición de un estado a otro, o bien permanece en el anterior.
En cada instante t ( t1 <t< t2) el sistema se encuentra en el estado E1. En t2 existe una transición a E2 y en t3 permanece en este estado. Para conocer el estado del sistema es preciso conocer la probabilidad de transición P(E1‑‑‑>E2). ESTADOS DE UN SISTEMA E3 E2 E1 t1 t2 t3 t4
La fuente de Markov , o fuentes con memoria, es aquella en que la presencia de un determinado símbolo ai depende de un número finito m de símbolos precedentes. Esta fuente se llama fuente de Markov de orden m y viene definida por su alfabeto • A = (a1, a2,....an) • y el conjunto de probabilidades • P( ai/aj1, aj2,....ajm) • Para i = 1,2....n y j = 1, 2....m
Esto nos indica que la probabilidad de un símbolo cualquiera viene determinada por la secuencia de los m símbolos que lo preceden . Definiremos el estado de la fuente de Markov de orden m por los m símbolos precedentes y puesto que el alfabeto de la fuente es de n símbolos, entonces una fuente de Markov de orden m admite nm estados posibles. Al emitir la fuente nuevos símbolos el estado de la fuente cambia.
Sea una fuente de Markov de n símbolos de alfabeto A = (a1, a2,.aj...an). • Se define la probabilidad de aparición del símbolo ai despues de la secuencia (aj1, aj2,....ajm) por • P( ai/aj1, aj2,....ajm)
Como hay nm sucesiones posibles de m símbolos y cada una de estas sucesiones puede considerarse como un estado del sistema. • Xi` = ai2,....aim. ai • o P( ai/ai1, ai2,....aim) • Xi = ai1, ai2,....aim • P( ai/ Xi)
Se dice que una fuente de Markov es ergódica, cuando siendo estacionara las probabilidades de estado tienden a estabilizarse y hacerse constantes cuando t ▬►∞. A esta distribución límite de probabilidades se le denomina régimen permanente de la fuente, o sea que cuando una fuente entra en un estado y queda atrapado en él. La condición necesaria y suficiente para que una fuente sea ergódica es que si Pij es la matriz estocastica de la fuente y p1,p2......pn cantidades desconocidas que representan a las probabilidades de estado, se tiene que cumplir que: Pj = ∑ Pj Pij sea compatible y la distribución estacionara. Fuentes de Markow ergódicas:
Sea una fuente de Markov de alfabeto A = (a1, a2,....an). Para hallar la información media por símbolo procedamos de la siguiente manera: 1.- Determinación de la información absoluta por símbolo emitido en una transición de estado fija. Si nos encontramos en el estado definido por Xj= (aj1, aj2,....ajm), es decir los m símbolos emitidos anteriormente fueron (aj1, aj2,....ajm), la probabilidad condicional de recibir ai es decir de pasar al estado X´j= (aj2, aj3,....ajm, ai) es: P( ai/aj1, aj2,....ajm). Entropía de una fuente de Markov:
Indudablemente la probabilidad del estado actual es igual a la probabilidad del estado anterior por la probabilidad de transición de un estado a otro., esto es : P(X´j) = P(ai/Xi).P(Xi) [I] Utilizaremos la siguiente notación: Probabilidad de aparición del símbolo ai después de la secuencia (aj1, aj2,...ajm): P(ai/aj1,aj2,..ajm).= P(ai/Xj) probabilidad del símbolo emitido en estado anterior. Probabilidad de la secuencia (aj1, aj2,....ajm): P( aj1, aj2,....ajm).= P(Xj) = Probabilidad de Estado anterior.
Al emitir el símbolo ai y se pasa del estado Xj = (aj1, aj2,....ajm) al Xj´= ( aj2,....ajm ai ) . • La cantidad de información correspondiente es: I( ai/aj1, aj2,....ajm) = - log P( ai/aj1, aj2,....ajm) • utilizando la otra notación • I( ai/Xj /) = - log P(ai/Xj)
2.- Si ahora dejamos fijo el estado Xj = (aj1, aj2,....ajm) y recorremos todos los símbolos ai de la fuente y calculamos el promedio obtendremos la información media por símbolo para un estado dado Xj, valor ya independiente de los símbolos. Este valor será: • H [ A/aj1, aj2,....ajm] = • ∑ P( ai/aj1, aj2,....ajm) I ( ai/aj1, aj2,....ajm) • H [ A/aj1, aj2,....ajm] = • - ∑ P( ai/aj1, aj2,....ajm) log P( ai/aj1, aj2,....ajm)
3.- Si ahora promediamos el valor anterior recorriendo los nm estados posibles, tendremos la cantidad media de información o entropía de la fuente de Markov de orden m . Será entonces: • H[A] = - ∑nm H[ A/aj1, aj2,....ajm] P( aj1, aj2,....ajm) • Sustituyendo el valor • H[A] = - ∑nm P( aj1, aj2,....ajm) ∑ P( ai/aj1, aj2,....ajm) log P( ai/aj1, aj2,....ajm)
Ejemplo: • Supongamos una fuente de Markov de cuatro estados cuyo diagrama se presenta en la fig. Demostrar que la fuente es ergódica y calcular la información suministrada por la fuente.
Los estados iniciales son: E1 = (0,0) E2 = (0,1) E3 = (1,0) E4 = (1,1) Las probabilidades de transisición son: P11 = 0.8 P12 = 0.2 P13 = 0 P14 = 0 P21 = 0 P22 = 0 P23 = 0.5 P24 = 0.5 P31 = 0.5 P32 = 0.5 P33 = 0 P34 = 0 P41 = 0 P42 = 0 P43 = 0.2 P44 = 0.8
La matriz de transición sería: Aplicando la condición necesaria y suficiente de ergocidad Pi = ∑ Pi Pij
Resolviendo: p1 = 0.8p1 + 0.5p3 p2 = 0.2p1 + 0.5p3 p3 = 0.5p1 + 0.2p4 p4 = 0.2p3 + 0.8p4 p1 + p2 + p3 + p4 = 1 Compatible y determinado cuya solución es: p1 = p4 = 5/14 p2 = p3 = 2/14 Entonces las probabilidades de estado son: p1 = p(0,0) = 5/14 p2 = p(0,1) = 2/14 p3 = p(1,0) = 2/14 p4 = p(1,1) = 5/14 Luego la fuente es ergódica y las probabilidades de estado son las probabilidades son las anteriores independientes de la distribución inicial.
Recuérdese que la probabilidad del estado actual es la probabilidad del estado anterior por la probabilidad de transición del estado anterior al actual. P(Xj) = P(ai/Xi) P(Xi)
La cantidad de información adquirida cuando se pasa de un estado Xi a un estado Xj es: I(aj/Xi) = ‑ log P(aj/Xi) = Ij I(0/00) = ‑ log p(0/00) =‑log 0.8 = I1 I(1/00) = ‑ log p(1/00) =‑log 0.2 = I2 I(0/01) = ‑ log p(0/01) =‑log 0.5 = I3 ………………………………………………. Para obtener la cantidad media de información por símbolo a partir del estado Xi, dejamos fijo el estado Xi = ai1 ,...ain y recorremos todos los símbolos de la fuente. H[A/Xi] = ∑ p(aj/Xi) Ij H[A/Xi]= ‑ ∑ p(aj/Xi) log p(aj/Xi)
Entonces • H[A/00] = - p(0/00) log p(0/00) - p(1/00) log p(1/00) • H[A/01] = - p(0/01) log p(0/01) - p(1/00) log p(1/01) • H[A/10] = - p(0/10) log p(0/10) - p(1/10) log p(1/10) • H[A/11] = - p(0/11) log p(0/11) - p(1/11) log p(1/11) • La información media suministrada por la fuente independiente de los estados y de los símbolos lo obtenemos promediando [*] recorriendo los Nn estados posibles. • H[A] = ∑i p(Xi) H[A/Xi] • Sustituyendo el valor de [*] en la anterior • H[A]= -∑i p(Xi) ∑ij p(aj/Xi) log p(aj/Xi)
Entonces • H[A] = ∑ip(Xi) H[A/Xi] • H[A] = p(00) H[A/00] + p(01) H[A/01] + p(10) H[A/10] + p(11) H[A/11] • H[A] = 0.8 5/14 log 0.8 + .......... • = ‑ [4/14 log 0.8 +1/14 log 0.2 +1/14 log 0.5 +1/14 log 0.5 +1/14 log 0.2 +4/14 log 0.8 +1/14 log 0.5 +1/14 log 0.5 = 0.81 Bits
Extensión de una fuente de Markov de orden N • Sea una fuente de Markov de orden N y alfabeto A = [a1,a2...an]. La extensión de orden n de la fuente anterior es otra fuente de Markov de alfabeto Nn elementos, estando cada elemento formado por n símbolos de A. La entropía de esta fuente es • H[An] = n H[A]
Fuente afín de una fuente de Markov • Dada una fuente de Markov de orden de orden n y alfabeto [a1,a2...am] y sean [ p(a1), p(a2)......p(am)] las probabilidades absolutas de los símbolos. Se denomina fuente afín de A y la representamos por A* a la fuente de memoria nula que tiene el mismo alfabeto que A e igual juego de probabilidades.
Teorema: • Una fuente de Markov proporciona menor cantidad de información que su fuente afín. Vamos a demostrarlo para fuentes de Markov de primer orden y luego lo generalizamos. Las probabilidades de transición son de la forma: • p(ai/aj) y cumplen la condición • ∑p(ai/aj) = 1 • Recordando la desigualdad logarítmica • log x < x ‑ 1 • p(ai) p(aj)
Pero ∑ p(ai) log p(ai) = ‑ H[A*] ∑ ∑ p(ai,aj) log p(ai/aj) = ‑ H[A] Entropía de la fuente de Markov de primer orden Luego H[A*] ≥H[A] La igualdad se cumple solamente en el caso de que p(ai, aj) = p(ai) p(aj)
El segundo miembro de la desigualdad vale 0 ya que cada doble sumando es la unidad. Pero p(ai aj) = p(aj) p(ai/aj) Luego
Un caso particularmente importante de generación de información es la creación de un mensaje compuesto de palabras de la lengua inglesa. Demostraremos en este apartado como podremos aproximarnos a un mensaje de este tipo mediante una secuencia de fuentes de información cada vez mas complicadas Sea un conjunto de 27 símbolos, las 26 letras del alfabeto inglés, mas un espacio La fuente mas simple de este alfabeto seria aquella de memoria nula, con todos los símbolos igualmente probables. La entropia de esta fuente seria H (S) = log 27 = 4,75 bits/símbolos La secuencia siguiente muestra una secuencia típica de símbolos emitidos por la fuente Definiremos esta secuencia como aproximación cero al inglés ZEWRTZYNSADXESYJRQY_WGECIJJ_oBVI~RBQPOZBYMBUAWVLBTQCNIKFMP T~MVUUGBSAXHLHSIE _ M Estructura del lenguaje
TABLA 2‑2 PROBABILIDADES DE LOS SIMBOLOS EN INGLES (REZA 1961) La entropia de una fuente de memoria nula, cuyas probabilidades sean las de esa tabla, tiene el valor H (S) = -∑ Pilog pi = 4,03 bits/símbolos
La siguiente frase representa una secuencia típica de simbolos emitidos por esta fuente. .AI_NGAE__TI'F_NNR_ASAEV_OIE_BAINTHA_HYROO_POER_SETRYGAIETRWCO_ _EHDUARU_EU_C_FT_NSREM_DIY_ SE__F_O_SRIS _R _UNNASHOR Primera aproximación al inglés. Aun cuando no puede calificarse de buen inglés, esta secuencia presenta la estructura propia del lenguaje (compárese con la aproximación cero): Las (.palabras de esta aproximación son, en su mayor parte, de longitud apropiada, y la proporción entre vocales y consonantes más real Aun cuando no puede calificarse de buen inglés, esta secuencia presenta la estructura propia del lenguaje (compárese con la aproximación cero): Las (.palabras de esta aproximación son, en su mayor parte, de longitud apropiada, y la proporción entre vocales y consonantes más real
Utilizando una fuente de Markov de primer orden, con símbolos de probabilidades condicionales bien elegidas Estas probabilidades fueron definidas por Pratt (1942) H (A) = -∑ P(ai/bj) log P(ai/bj) = 3,32 bit/símbolos URTESEIETHING_AD_E_AT_FOULE_ITHALIORT _ WACT _ D _ STE _ MINTSAN _ OLINS _ TWID _ OULY _ TE _ THIGHE _ CO _ YS _ TH _ HR _ UPAVIDE _ PAD _ CTAVED Segunda aproximación al inglés La secuencia obtenida en la segunda aproximación ya deja trascender un regusto a inglés
El método de Shannon puede aplicarse a la construcción de mejores aproximaciones al inglés. En efecto, pueden elegirse las letras precedentes, construyendo así una secuencia típica de una fuente de Markov, aproximación del inglés, de segundo orden. IANKS_CAN_OU_ANG_RLER_THATTED_OF_TO_SHOR _ OF _ TO _ HAVEMEM _ Al _ MAND _ AND _ BUT _WHISSITABLY _ THERVEREER _ EIGHTS _ TAKILLIS _ TA Tercera aproximación al inglés Puede ampliarse el procedimiento anterior, para generar secuencias típicas de probabilidades idénticas Sin embargo, es prácticamente imposible para m mayor de 2
Shannon, utilizó una fuente de información de memoria nula que emite palabras inglesa en lugar de letras Las probabilidades de ocurrencia de las diferentes palabras son aproximadamente las mismas que en un texto inglés Shannon (1948) obtuvo la aproximación mostrada en la siguiente secuencia. • REPRESENTING AND SPEEDILY IS AN GOOD APT • OR COME CAN DIFFERENT NATURAL HERE HE • THE A IN CAME THE TO OF TO EXPERT • GRAY COME TO FURNISHES THE LINE MES‑ • SAGE HAD BE THESE • Cuarta aproximación al ingles
haciendo depender de la palabra precedente la probabilidad de que una palabra sea elegida La fuente correspondiente sería una fuente de Markov de primer orden, con palabras inglesa como símbolos Shannon (1948) construyó una secuencia típica a partir de una fuente de este tipo. • THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT TIIE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNE~ PECTED • Quinta aproximación al inglés