1 / 115

Sesión 12: Procesos de Decisión de Markov

Sesión 12: Procesos de Decisión de Markov. Procesos de Decisión de Markov. Procesos de Decisión Secuenciales Procesos de Decisón de Markov (MDP) Método de Iteración de Valor Procesos de Decisión de Markov Parcialmente Observables (POMDP) Extensiones (abstracción, partición) Aplicaciones.

kcopeland
Download Presentation

Sesión 12: Procesos de Decisión de Markov

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sesión 12: Procesos de Decisión de Markov

  2. Procesos de Decisión de Markov • Procesos de Decisión Secuenciales • Procesos de Decisón de Markov (MDP) • Método de Iteración de Valor • Procesos de Decisión de Markov Parcialmente Observables (POMDP) • Extensiones (abstracción, partición) • Aplicaciones Incertidumbre - MDP, L.E. Sucar

  3. Problemas de decisión secuenciales • Problema de decisión que involucra un conjunto de decisiones cuyo resultado (utilidad) se conoce hasta el final • Se considera que se tiene una serie de estados y decisiones asociadas en el tiempo • Se tiene incertidumbre asociada con los resultados de las acciones (MDP), y posiblemente también con los estados (POMDP) Incertidumbre - MDP, L.E. Sucar

  4. Ejemplo – robot móvil Inicio Incertidumbre - MDP, L.E. Sucar

  5. Modelo de Transición • Normalmente existe incertidumbre respecto a los resultados de una decisión (acción) • Esta incertidumbre se modela como una probabilidad de llegar al estado “j” dado que se encuentra en el estado “i” y se realizá la acción “a”: Mija Incertidumbre - MDP, L.E. Sucar

  6. Modelo de Transición • Probabilidad dirección deseada – Pij=0.8 • Probabilidad 2 direcciones vecinas – Pik=0.1 Incertidumbre - MDP, L.E. Sucar

  7. Modelo de los Sensores • Normalmente el agente puede sensar el ambiente para observar en que estado se encuentra. • Existen dos casos principales: • Observa directamente el estado donde se encuentra- proceso de decisión de Markov • Se tiene incertidumbre sobre el estado en que se encuentra- proceso de decisión de Markov parcialmente observable Incertidumbre - MDP, L.E. Sucar

  8. MDP Incertidumbre - MDP, L.E. Sucar

  9. POMDP Incertidumbre - MDP, L.E. Sucar

  10. Política Óptima • Dado el modelo de transición y el modelo de los sensores, el objetivo es encontrar la política óptima para maximizar la utilidad esperada • Una política indica la acción que se debe ejecutar dado el estado (o probabilidad del estado) • Se considera que las probabilidades de transición sólo dependen del estado actual por lo que son procesos markovianos Incertidumbre - MDP, L.E. Sucar

  11. Ejemplo de Política Inicio Incertidumbre - MDP, L.E. Sucar

  12. Controlador basado en un MDP Modelo solución MDP política Controlador acción estado Sistema Eventos Incertidumbre - MDP, L.E. Sucar

  13. Procesos de Decisión de Markov • Problema de obtener la política óptima en un ambiente observable – MDP • El método clásico para resolver estos problemas se conoce como “iteración de valor” (value iteration) • La idea básica es calcular la utilidad de cada posible estado y usar éstas para seleccionar la acción óptima en cada estado • Otros métodos de solución son “iteración de política” (policy iteration) y programación lineal (al transformar el problema a un problema de optimización lineal) Incertidumbre - MDP, L.E. Sucar

  14. Procesos de Decisión de Markov • Formalmente, un PDM (discreto) se define por: • Un conjunto finito de estados, S • Un conjunto finito de posibles acciones, A • Un modelo de transición, que especifica la probabilidad de pasar a un estado dado el estado presente y la acción, P(s | s’, a) • Una función de recompensa, que especifica el “valor” de ejecutar cierta acción a en el estado s, r(s, a) Incertidumbre - MDP, L.E. Sucar

  15. Utilidad • La utilidad de un estado depende de la secuencia de acciones tomadas a partir de dicho estado (i) de acuerdo a la política establecida (p) • En principio, se puede obtener como la utilidad esperada de todas las posibles secuencias de acciones (Hi) y la utilidad resultante para c/u: U(i) = UE( Hi(p) ) = S P(Hi(p)) Uh Hi(p) Incertidumbre - MDP, L.E. Sucar

  16. Utilidad • Si la utilidad es separable, se puede estimar como la utilidad del estado presente y la utilidad de los siguiente estados • La forma más sencilla es que sea una función aditiva: U[s0, s1, ... sn] = R(s0) + U[s1, ... sn] • DondeR se conoce como la función de recompensa Incertidumbre - MDP, L.E. Sucar

  17. Programación Dinámica • Dada la condición de separabilidad, la utilidad de un estado se puede obtener en forma iterativa maximizando la utilidad del siguiente estado: U(i) = R(i) + maxaSj P(sj | si,a) U(j) • La política óptima esta dada por la acción que de mayor utilidad: P*(i) = arg maxaSj P(sj | si,a) U(j) Incertidumbre - MDP, L.E. Sucar

  18. Programación Dinámica • Si se tiene un número finito de pasos (n), entonces la política óptima se puede calcular eficientemente utilizando PD: • Se obtiene la utilidad de los estados en el paso n-1 en base a la utilidad de los estados terminales y se determina la mejor acción • Se obtiene la utilidad de los estados en el paso n-2 en base al paso n-1, y así sucesivamente • Al final se tiene la política óptima (mejor acción para cada estado) Incertidumbre - MDP, L.E. Sucar

  19. PD – ejemplo robot • Si se define la función de utilidad como: Uh = valor estado final – 1/25 (número de pasos) • Entonces la función de recompensa es: R = +1, -1 para los estados terminales R = -1/25 para los demás estados Incertidumbre - MDP, L.E. Sucar

  20. Recompensa +1 -1/25 -1/25 -1/25 -1/25 -1/25 -1 -1/25 -1/25 -1/25 -1/25 Incertidumbre - MDP, L.E. Sucar

  21. PD – ejemplo robot • Asumiendo que se llega a la meta en n pasos: U(a=derecha) = [0.8*1-0.1*1/25 -0.1*1/25] = 0.792 U(a=abajo) = [0.1*1-0.8*1/25 -0.1*1/25] = 0.064 U(a=izq.) = [-0.1*1/25-0.8*1/25 -0.1*1/25] = -0.04 U(s33) = -1/25 + max [.792, .064, -.04] = 0.752; P*(s31) = derecha 3 2 1 Incertidumbre - MDP, L.E. Sucar 1 2 3 4

  22. Valor +1 0.752 0.422 -1 … … Incertidumbre - MDP, L.E. Sucar

  23. Horizonte finito vs. infinito • Los problemas de con un número finito de pasos se conocen como MDP de horizonte finito • Los problemas en que puede haber un número infinito de pasos se conocen como MDP de horizonte infinito • Muchos problemas, como el ejemplo del robot, son de horizonte infinito y no se pueden resolver directamente por PD Incertidumbre - MDP, L.E. Sucar

  24. Solución • Los métodos principales para resolver MDPs son: • Iteración de valor (Bellman, 57), • Iteración de política (Howards, 60), and • Programación lineal (Puterman, 94). Incertidumbre - MDP, L.E. Sucar

  25. MDPs • Función de valor (ecuación de Bellman): V*(s) = maxa { R(s,a) + gSs’ P(s’ | s, a) V*(s’) } • Policy: p*(s) = arg maxa { R(s,a) + gSs’ P(s’ | s, a) V*(s’) } • Solución: • Value iteration • Policy iteration Incertidumbre - MDP, L.E. Sucar

  26. Solución Función de valor • Una política para un MDP es una asociación :SA (acción por estado). • Dada la política, el valor para horizonte finito es: Vn: S   Vn(i) = R(i, (i)) + S P((i) | i,j) Vn-1(j) • Para horizonte infinito, generalmente se considera un factor de descuento, 0<g<1: V(i) = R(i, (i)) + gS P((i) | i,j) V(j) Incertidumbre - MDP, L.E. Sucar

  27. Solución Política óptima • La solución a un MDP da una política óptima. • Esto es, la política que maximiza la ecuación de Bellman: *(i) = max [R(i, a) + gS P(a | i,j) V*(j)] Incertidumbre - MDP, L.E. Sucar

  28. Iteración de Valor • En el caso de horizonte infinito, se puede obtener la utilidad de los estados –y la política óptima, mediante un método iterativo • En cada iteración (t+1), se estima la utilidad de cada estado basada en los valores de la iteración anterior (t): Ut+1(i) = R(i) + maxaSj P(sj | si,a) Ut(j) • Cuando tinf, los valores de utilidad convergen a un valor estable Incertidumbre - MDP, L.E. Sucar

  29. Iteración de Valor Algoritmo: • Inicializar: Ut = Ut+1 = R • Repetir: • Ut=Ut+1 • Ut+1(i) = R(i) + maxaSj P(sj | si,a) Ut(j) • Hasta: | Ut-Ut+1 | < e Incertidumbre - MDP, L.E. Sucar

  30. Iteración de Valor • ¿Cuántas veces repetir la iteración? • Normalmente el número de iteraciones para obtener la política óptima es menor que el requerido para que las utilidades converjan • En la práctica, el número de iteraciones es relativamente pequeño Incertidumbre - MDP, L.E. Sucar

  31. Iteración de valor • Para evitar problemas de valores muy grandes (infinito) de la recompensa, normalmente se aplica un factor de descuento, 0<g<1, para el valor de los siguientes estados • El cálculo iterativo de la utilidad con el factor de descuento es entonces: Ut+1(i) = R(i) + maxagSj P(sj | si,a) Ut(j) Incertidumbre - MDP, L.E. Sucar

  32. Ejemplo – utilidades de los estados 0.812 0.868 0.912 0.762 0.660 0.705 0.655 0.611 0.338 Inicio Incertidumbre - MDP, L.E. Sucar

  33. Ejemplo – política óptima Inicio Incertidumbre - MDP, L.E. Sucar

  34. Iteración de Política • Empezando de cierta política (aleatoria), esta se mejora encontrando una acción por estado que tenga un mejor valor que la acción actual • Se puede usar conocimiento del problema para definir la política inicial • El proceso termina cuando ya no puede haber mejoras • Normalmente converge en menor número de iteraciones que iteración de valor, pero cada iteración es más costosa Incertidumbre - MDP, L.E. Sucar

  35. Ejemplo –robot virtual Incertidumbre - MDP, L.E. Sucar

  36. Política óptima Incertidumbre - MDP, L.E. Sucar

  37. Otra configuración Incertidumbre - MDP, L.E. Sucar

  38. Función de valor Incertidumbre - MDP, L.E. Sucar

  39. POMDP • En muchos problemas reales, no se puede observar exactamente el estado del agente, por lo que se tiene un POMDP • Además de los elementos de un MDP, un POMDP incluye: • Una función de observación que especifica la probabilidad de las observaciones dado el estado, P(O|S) • Una distribución de probabilidad inicial para los estados, P(S) Incertidumbre - MDP, L.E. Sucar

  40. POMDP • El enfoque exacto para resolver un POMDP consiste en considerar la distribución de probabilidad sobre los estados y en base a esta determinar las decisiones óptimas • Para ello, se puede considerar un POMDP como un MDP en que los estados corresponden a la distribución de probabilidad • El problema es que el espacio de estados se vuelve infinito y la solución exacta es muy compleja Incertidumbre - MDP, L.E. Sucar

  41. POMDP • Soluciones aproximadas: • Asumir que el agente se encuentra en el estado más probable – se transforma en un MDP que se puede resolver por el método de iteración de valor • Considerar un número finito de pasos y modelar el problema como una red de decisión dinámica – la aproximación depende del número de estados que se “ven” hacia delante (lookahead) Incertidumbre - MDP, L.E. Sucar

  42. Ejemplo POMDP • El robot detecta su posición con sonares • Hay errores y ruido en las lecturas, alcance limitado • Ciertas celdas son muy parecidas (1,2 – 3,2) Incertidumbre - MDP, L.E. Sucar

  43. Extensiones • Representaciones factorizadas • Representaciones abstractas (cualitativas) • Modelos jerárquicos (serie / paralelo) (las siguiente láminas están basadas en un tutorial impartido en Iberamia con Alberto Reyes) Incertidumbre - MDP, L.E. Sucar

  44. Factored Representations • Extensional representation of the system's states are those in which each state is explicitly named. • In AI research, intensional representations are more common. • An intensional representation is one in which states or sets of states are described using sets of multi-valued features. • The use of MDP formalism in AI has recently adopted this representation. Incertidumbre - MDP, L.E. Sucar

  45. Factored MDPs • Boutillier, Dearden y Goldsmith (1995) exploits action description and domain structure through state features to represent states as sets of factors (features). • A factored state is any possible instantiation of a small set of variables defining a problem domain. • They represent the state transition function as a 2-stage DBN with which they exploit state variables independence. • Conditional Probability Tables (CPTs) which are the state transition distributions are represented as decision trees. Incertidumbre - MDP, L.E. Sucar

  46. X X’ x1 x1’ x2 x2’ x3 x3’ x4 x4’ x5 x5’ t t+1 Factored MDPs Each value xi’ of a variable X is associated to a probability distribution in X’ PT(xi’|ParentsT(xi’)). PT(X’|X)= PT(xi’|ui) where ui is the value in X of the variables in ParentsT(xi’). There is one DBD per action Incertidumbre - MDP, L.E. Sucar

  47. Factored MDPs p q R T F 1.0 T T 0.9 F F 0.1 F T 0.0 p t t+1 Reward A1 X1 X’1 q A2 X2 X’2 A3 X3 X’3 X4 X’4 A4 G Incertidumbre - MDP, L.E. Sucar

  48. Algebraic Decision Diagrams • SPUDD algorithm (Hoey, 1999) uses algebraic decision diagrams (ADD) to represent state transitions, utilities, policies and rewards. One of its contributions is the fact that many instantiations of the state variables map a same value Incertidumbre - MDP, L.E. Sucar

  49. Relational Representations • State Aggregation= Group of states with similar properties (utility, features). • [Morales 2003] uses the notion of state aggregation for grouping states that share the same set of relations to structure and abstract state spaces. • The value function is approximated over this abstract state space in a RL context. Incertidumbre - MDP, L.E. Sucar

  50. R-states • Relational variables are first-order relations. • States are defined by the possible instantiations of these relational variables (r-states) e.g., relation(agent,goal,south) AND relation(agent,obst,north-west) AND not(relation(agent,border)). Incertidumbre - MDP, L.E. Sucar

More Related