1 / 28

REINFORCEMENT LEARNING

REINFORCEMENT LEARNING. Jesús Fernández Bes. Noviembre 2012. ÍNDICE. ¿ Qué es, qué no es y para qué sirve el RL? Formulación: Markov Decision Processes Dynamic Programming Algoritmos clásicos de RL Líneas de Investigación y otros aspectos de interés en RL. Aproximación funcional

mya
Download Presentation

REINFORCEMENT LEARNING

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012

  2. ÍNDICE • ¿Qué es, qué no es y para qué sirve el RL? • Formulación: MarkovDecisionProcesses • DynamicProgramming • Algoritmos clásicos de RL • Líneas de Investigación y otros aspectos de interés en RL. • Aproximación funcional • RL con GP • POMDP • Otros aspectos REINFORCEMENT LEARNING

  3. DEFINICIÓN Reinforcement Learning is the problem faced by an autonomousagentthat learns behavior through trial-and-errorinteractions with a dynamicenvironment. Kaelbling et al. 1996 REINFORCEMENT LEARNING

  4. EL PROBLEMA DE REINFORCEMENT LEARNING • El agenteinteractua con el entorno. • Accionesmodifican el entorno y proporcionanunarecompensa. • No se conoce la dinámica de estados. • Agentetrata de aprendercomportamientoóptimo. r Environment s’ s  s’ a • ¿Quéaccióntomar en cadaestadoparamaximizarunarecompensa a largo plazo? REINFORCEMENT LEARNING

  5. ¿A QUÉ SE PARECE PERO NO ES RL? • Supervised Learning. Hay par entrada/salida. No unarecompensainmediata. En RL no se sabequeacciónesmejor a largo plazo. • Active Learning. Elegirmuestras de lasqueaprender. Siguensiendo pares entrada/salida. • Multi – Armed Bandits. En MAB no existeconceptoestado. • Dynamic Programming. Se conocetoda la dinámica de estados. REINFORCEMENT LEARNING

  6. APLICACIONES Rick Sutton. DeconstructingReinforcementLearning. ICML 09 REINFORCEMENT LEARNING

  7. MARKOV DECISION PROCESSES Un MarkovDecisionProcess (MDP) es un tupla <S,A,T,R> donde: • Ses un conjunto finito de estados, • A es un conjunto finito de acciones, • T es una función de transición definida como • R es una función de recompensa definida como • Dado un MDP definimos una política como una función: • Determinista • Estocástica REINFORCEMENT LEARNING

  8. OBJETIVOS. CRITERIOS A OPTIMIZAR • ¿ Cual es el objetivo del agente? • ¿ Cómo tener en cuenta la recompensa a largo plazo? Principalmente hay tres modelos: REINFORCEMENT LEARNING

  9. FUNCIONES DE VALOR Discountedreturns. Valor esperado de las recompensas futuras (con descuento). • StateValuefunction: • State-ActionValuefunction: ValueFunctionAssumption: “Allefficientmethodsforsolvingsequentialdecisionproblemsestimatevaluefunctions as anintermidiatestep.” REINFORCEMENT LEARNING

  10. ECUACIONES DE BELLMAN Richard Bellman 1957. • Ambas funciones se pueden escribir de forma recursiva. • La solución óptima satisface: REINFORCEMENT LEARNING

  11. ECUACIONES DE BELLMAN (2) • Desarrollo equivalente para Q • Existe una relación directa entre V* y Q*: REINFORCEMENT LEARNING

  12. DYNAMIC PROGRAMMING • Model-Based. • Entorno Determinista o estadística conocida. • Modelo perfecto de MDP. • Útil desde el punto de vista teórico y algorítmico. • Relativamente eficientes pero poco útiles en RL o cuando el espacio de estados es muy grande. REINFORCEMENT LEARNING

  13. ALGORITMOS BÁSICOS DE DP (1): POLICY ITERATION REINFORCEMENT LEARNING

  14. ALGORITMOS BÁSICOS DE DP (2): VALUE ITERATION REINFORCEMENT LEARNING

  15. DE DYNAMIC PROGRAMMING A REINFORCEMENT LEARNING • Model - Free • Estadística desconocida y parcialmente desconocida. • Necesidad de muestreo y exploración. REINFORCEMENT LEARNING

  16. POLÍTICAS DE EXPLORACIÓN • Hay políticas sencillas de exploración. Se basan en las utilizadas en problemas de bandits: • ε – greedystrategy • Elegir acción a según π (mejor acción posible) con probabilidad 1-ε. • Elegir acción a aleatoria con probabilidad ε. • Boltzmann (softmax) strategy • Optimistic Q initialization REINFORCEMENT LEARNING

  17. MÉTODOS BÁSICOS DE RL • Métodos de Monte Carlo • Se estiman las funciones de valor como promedios observados durante la iteración. • Sobretodo útiles en horizonte finito. Juegos. • Temporal - DifferenceLearning • Se aprenden las estimaciones de los valores a partir de otras estimaciones. • Online. No necesitan barrer todo el espacio de estado. REINFORCEMENT LEARNING

  18. TD (0) • Sólo modifica la policyevaluation. REINFORCEMENT LEARNING

  19. SARSA • On-policy. • Útil en entornos no estacionarios. REINFORCEMENT LEARNING

  20. Q - LEARNING • Algoritmo más popular con diferencia. • Off-Policy. REINFORCEMENT LEARNING

  21. ACTOR-CRITIC LEARNING • El agente se compone de dos partes. • Actor: selecciona la política de acuerdo a las preferencias p(st,at). • Critic: Evalúa las acciones. Mediante el TD-error: • Se actualizan las Preferencias: REINFORCEMENT LEARNING

  22. APROXIMACIÓN FUNCIONAL • Si el número de estados es GRANDE o INFINITO. • No se puede representar V o Q como una tabla. • Aproximación LeastSquares • Se representa la Valuefunction ( V o Q ) como una combinación lineal de funciones. • Se aproxima minimizando una norma LS REINFORCEMENT LEARNING

  23. ReinforcementLearning con GP Bayesiano: • Se mantiene una distribución de probabilidad sobre distintos valores. • Permiten incluir conocimiento a priori, exploración, … • Existen otras aproximaciones bayesianas además de los GP: BQL,… • RassmussenC.E., Kuss M. • Distribución sobre discountedreturns, no sólo Esperanza(V = E{D}) mediante un GP. • Aprende también las transiciones como GP. • Solución cerrada para algunas distribuciones de recompensas. • Engel Y., Mannor S., Mier R. • TD + Aproximación de V con GP. • Implementación online. KernelSparsification. REINFORCEMENT LEARNING

  24. PARTIALLY OBSERVABLE MDP • Relajar asunción de los MDP: Parte del estado puede ser oculta. • Estado S ya no es Markoviano. • En POMDP además de <S,A,T,R> se define el conjunto de observaciones Ωy la función O. • R y T siguen dependiendo de s, no de o, decidir acción en base a 1 observación ya no es óptimo. Necesita memoria. • Belief vector b(s). REINFORCEMENT LEARNING

  25. POMDP • En general se necesita modelo de T y R. • DP o Model-based RL. • Diferentes heurísticos para obtener las políticas a partir de los b(s) • Métodos de búsqueda de política basados en simulaciones. • PEGASUS: Andrew Ng. & Michael Jordan. REINFORCEMENT LEARNING

  26. OTROS ASPECTOS IMPORTANTES • Conexiones con la Psicología Cognitiva y la Neurociencia. • Los inicios de RL se basan en investigaciones en comportamiento animal. TD basado en “condicionamiento clásico”. • Algunos mecanismos del cerebro son muy similares a los algoritmos RL. “Actividad neuronal dopaminérgica”. • Resultados Teóricos. • Resultados de convergencia asintóticos. Algoritmos básicos. • Cotas de complejidad (muestras finitas): PAC-MDP. • RL Multiagente. • BatchReinforcementLearning. REINFORCEMENT LEARNING

  27. ALGUNAS REFERENCIAS • LIBROS • Reinforcement Learning: An Introduction. Sutton R. S. & Barto A. G. (1998). • Reinforcement Learning: State-of-the-art. Wiering M. & van Otterlo M. (2012). { Capítulo 1 } • TUTORIALES • Reinforcement Learning: A Survey. Leslie Pack Kaelbling, Michael L. Littman, Andrew W. Moore. Journal of Artificial Intelligence Research , 1996 • A tutorial onreinforcementlearningtechniques. C. H. C. Ribeiro. Proceedingsof International Conferenceon Neural Networks, INNS Press, Washington, DC, USA, July 1999. REINFORCEMENT LEARNING

  28. BIBLIOGRAFÍA EXTRA • Engel, Y., Mannor, S., Meir, R. ReinforcementLearningwithGaussianProcesses. In: Proceedings of the 22nd International Conferenceon Machine Learning. Vol. 22. Bonn, Germany, pp. 201–208, August 2005. • C.E. Rasmussen and M. Kuss. GaussianProcesses in ReinforcementLearning.Advances in Neural InformationProcessingSystems 16—Proc. Ann. Conf. Neural InformationProcessingSystems, pp. 751-759, 2004.  • Andrew Y. Ng , Michael I. Jordan. PEGASUS: A policysearchmethodforlargeMDPs and POMDPs.Proceedings of the 16th ConferenceonUncertainty in Artificial Intelligence, p.406-415, June 30-July 03, 2000 • VIDEOLECTURES.NET TALK. Rick Sutton. DeconstructingReinforcementLearning. ICML 2009 http://videolectures.net/icml09_sutton_itdrl/ REINFORCEMENT LEARNING

More Related