290 likes | 549 Views
REINFORCEMENT LEARNING. Jesús Fernández Bes. Noviembre 2012. ÍNDICE. ¿ Qué es, qué no es y para qué sirve el RL? Formulación: Markov Decision Processes Dynamic Programming Algoritmos clásicos de RL Líneas de Investigación y otros aspectos de interés en RL. Aproximación funcional
E N D
REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012
ÍNDICE • ¿Qué es, qué no es y para qué sirve el RL? • Formulación: MarkovDecisionProcesses • DynamicProgramming • Algoritmos clásicos de RL • Líneas de Investigación y otros aspectos de interés en RL. • Aproximación funcional • RL con GP • POMDP • Otros aspectos REINFORCEMENT LEARNING
DEFINICIÓN Reinforcement Learning is the problem faced by an autonomousagentthat learns behavior through trial-and-errorinteractions with a dynamicenvironment. Kaelbling et al. 1996 REINFORCEMENT LEARNING
EL PROBLEMA DE REINFORCEMENT LEARNING • El agenteinteractua con el entorno. • Accionesmodifican el entorno y proporcionanunarecompensa. • No se conoce la dinámica de estados. • Agentetrata de aprendercomportamientoóptimo. r Environment s’ s s’ a • ¿Quéaccióntomar en cadaestadoparamaximizarunarecompensa a largo plazo? REINFORCEMENT LEARNING
¿A QUÉ SE PARECE PERO NO ES RL? • Supervised Learning. Hay par entrada/salida. No unarecompensainmediata. En RL no se sabequeacciónesmejor a largo plazo. • Active Learning. Elegirmuestras de lasqueaprender. Siguensiendo pares entrada/salida. • Multi – Armed Bandits. En MAB no existeconceptoestado. • Dynamic Programming. Se conocetoda la dinámica de estados. REINFORCEMENT LEARNING
APLICACIONES Rick Sutton. DeconstructingReinforcementLearning. ICML 09 REINFORCEMENT LEARNING
MARKOV DECISION PROCESSES Un MarkovDecisionProcess (MDP) es un tupla <S,A,T,R> donde: • Ses un conjunto finito de estados, • A es un conjunto finito de acciones, • T es una función de transición definida como • R es una función de recompensa definida como • Dado un MDP definimos una política como una función: • Determinista • Estocástica REINFORCEMENT LEARNING
OBJETIVOS. CRITERIOS A OPTIMIZAR • ¿ Cual es el objetivo del agente? • ¿ Cómo tener en cuenta la recompensa a largo plazo? Principalmente hay tres modelos: REINFORCEMENT LEARNING
FUNCIONES DE VALOR Discountedreturns. Valor esperado de las recompensas futuras (con descuento). • StateValuefunction: • State-ActionValuefunction: ValueFunctionAssumption: “Allefficientmethodsforsolvingsequentialdecisionproblemsestimatevaluefunctions as anintermidiatestep.” REINFORCEMENT LEARNING
ECUACIONES DE BELLMAN Richard Bellman 1957. • Ambas funciones se pueden escribir de forma recursiva. • La solución óptima satisface: REINFORCEMENT LEARNING
ECUACIONES DE BELLMAN (2) • Desarrollo equivalente para Q • Existe una relación directa entre V* y Q*: REINFORCEMENT LEARNING
DYNAMIC PROGRAMMING • Model-Based. • Entorno Determinista o estadística conocida. • Modelo perfecto de MDP. • Útil desde el punto de vista teórico y algorítmico. • Relativamente eficientes pero poco útiles en RL o cuando el espacio de estados es muy grande. REINFORCEMENT LEARNING
ALGORITMOS BÁSICOS DE DP (1): POLICY ITERATION REINFORCEMENT LEARNING
ALGORITMOS BÁSICOS DE DP (2): VALUE ITERATION REINFORCEMENT LEARNING
DE DYNAMIC PROGRAMMING A REINFORCEMENT LEARNING • Model - Free • Estadística desconocida y parcialmente desconocida. • Necesidad de muestreo y exploración. REINFORCEMENT LEARNING
POLÍTICAS DE EXPLORACIÓN • Hay políticas sencillas de exploración. Se basan en las utilizadas en problemas de bandits: • ε – greedystrategy • Elegir acción a según π (mejor acción posible) con probabilidad 1-ε. • Elegir acción a aleatoria con probabilidad ε. • Boltzmann (softmax) strategy • Optimistic Q initialization REINFORCEMENT LEARNING
MÉTODOS BÁSICOS DE RL • Métodos de Monte Carlo • Se estiman las funciones de valor como promedios observados durante la iteración. • Sobretodo útiles en horizonte finito. Juegos. • Temporal - DifferenceLearning • Se aprenden las estimaciones de los valores a partir de otras estimaciones. • Online. No necesitan barrer todo el espacio de estado. REINFORCEMENT LEARNING
TD (0) • Sólo modifica la policyevaluation. REINFORCEMENT LEARNING
SARSA • On-policy. • Útil en entornos no estacionarios. REINFORCEMENT LEARNING
Q - LEARNING • Algoritmo más popular con diferencia. • Off-Policy. REINFORCEMENT LEARNING
ACTOR-CRITIC LEARNING • El agente se compone de dos partes. • Actor: selecciona la política de acuerdo a las preferencias p(st,at). • Critic: Evalúa las acciones. Mediante el TD-error: • Se actualizan las Preferencias: REINFORCEMENT LEARNING
APROXIMACIÓN FUNCIONAL • Si el número de estados es GRANDE o INFINITO. • No se puede representar V o Q como una tabla. • Aproximación LeastSquares • Se representa la Valuefunction ( V o Q ) como una combinación lineal de funciones. • Se aproxima minimizando una norma LS REINFORCEMENT LEARNING
ReinforcementLearning con GP Bayesiano: • Se mantiene una distribución de probabilidad sobre distintos valores. • Permiten incluir conocimiento a priori, exploración, … • Existen otras aproximaciones bayesianas además de los GP: BQL,… • RassmussenC.E., Kuss M. • Distribución sobre discountedreturns, no sólo Esperanza(V = E{D}) mediante un GP. • Aprende también las transiciones como GP. • Solución cerrada para algunas distribuciones de recompensas. • Engel Y., Mannor S., Mier R. • TD + Aproximación de V con GP. • Implementación online. KernelSparsification. REINFORCEMENT LEARNING
PARTIALLY OBSERVABLE MDP • Relajar asunción de los MDP: Parte del estado puede ser oculta. • Estado S ya no es Markoviano. • En POMDP además de <S,A,T,R> se define el conjunto de observaciones Ωy la función O. • R y T siguen dependiendo de s, no de o, decidir acción en base a 1 observación ya no es óptimo. Necesita memoria. • Belief vector b(s). REINFORCEMENT LEARNING
POMDP • En general se necesita modelo de T y R. • DP o Model-based RL. • Diferentes heurísticos para obtener las políticas a partir de los b(s) • Métodos de búsqueda de política basados en simulaciones. • PEGASUS: Andrew Ng. & Michael Jordan. REINFORCEMENT LEARNING
OTROS ASPECTOS IMPORTANTES • Conexiones con la Psicología Cognitiva y la Neurociencia. • Los inicios de RL se basan en investigaciones en comportamiento animal. TD basado en “condicionamiento clásico”. • Algunos mecanismos del cerebro son muy similares a los algoritmos RL. “Actividad neuronal dopaminérgica”. • Resultados Teóricos. • Resultados de convergencia asintóticos. Algoritmos básicos. • Cotas de complejidad (muestras finitas): PAC-MDP. • RL Multiagente. • BatchReinforcementLearning. REINFORCEMENT LEARNING
ALGUNAS REFERENCIAS • LIBROS • Reinforcement Learning: An Introduction. Sutton R. S. & Barto A. G. (1998). • Reinforcement Learning: State-of-the-art. Wiering M. & van Otterlo M. (2012). { Capítulo 1 } • TUTORIALES • Reinforcement Learning: A Survey. Leslie Pack Kaelbling, Michael L. Littman, Andrew W. Moore. Journal of Artificial Intelligence Research , 1996 • A tutorial onreinforcementlearningtechniques. C. H. C. Ribeiro. Proceedingsof International Conferenceon Neural Networks, INNS Press, Washington, DC, USA, July 1999. REINFORCEMENT LEARNING
BIBLIOGRAFÍA EXTRA • Engel, Y., Mannor, S., Meir, R. ReinforcementLearningwithGaussianProcesses. In: Proceedings of the 22nd International Conferenceon Machine Learning. Vol. 22. Bonn, Germany, pp. 201–208, August 2005. • C.E. Rasmussen and M. Kuss. GaussianProcesses in ReinforcementLearning.Advances in Neural InformationProcessingSystems 16—Proc. Ann. Conf. Neural InformationProcessingSystems, pp. 751-759, 2004. • Andrew Y. Ng , Michael I. Jordan. PEGASUS: A policysearchmethodforlargeMDPs and POMDPs.Proceedings of the 16th ConferenceonUncertainty in Artificial Intelligence, p.406-415, June 30-July 03, 2000 • VIDEOLECTURES.NET TALK. Rick Sutton. DeconstructingReinforcementLearning. ICML 2009 http://videolectures.net/icml09_sutton_itdrl/ REINFORCEMENT LEARNING