1 / 54

Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay. Plan du cours. 1- Introduction : motivation, problèmes, notions et principes 2- La notion d'utilité 3- Apprentissage des fonctions d'utilité en environnement connu

kaori
Download Presentation

Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Apprentissage par renforcementAntoine Cornuéjols(antoine@lri.fr)I.I.E.&L.R.I., Université d’Orsay

  2. Plan du cours • 1- Introduction : motivation, problèmes, notions et principes • 2- La notion d'utilité • 3- Apprentissage des fonctions d'utilité en environnement connu • 4- Univers inconnu : méthodes de différences temporelles • Principes • Méthode du Q-Learning • Extension à plusieurs pas : le TD-Learning • 5- La généralisation dans l'apprentissage par renforcement • 7- Exemples d’applications • 8- Bilan et perspectives

  3. 1.1 Introduction : schéma général Environnement Action Perception Récompense

  4. 1.2 Introduction : Les notations de base • Temps discret: t • États : stS • Actions : atA(st) • Récompenses : rtR(st) • L’agent : stat • L’environnement : (st,at) st+1, rt+1 • Politique : t : SA • Avec t(s,a ) = Prob que at = a si st =s • Les transitions et récompenses ne dépendent que de l’état et de l’action précédents : processus Markovien , R

  5. 1.2 Introduction : Eléments de base • Politique : ensemble d’associations situationaction(une application) Une simple table ... un algorithme de recherche intensive Eventuellement stochastique • Fonction de renforcement : • Définit implicitement le but poursuivi • Une fonction : (état, action)  récompense  • Fonction d’évaluation V(s) ou Q(s,a) : • Récompense accumulée sur le long-terme • Modèle de l’environnement : • Fonctions T et R : (état(t), action) (état(t+1), récompense)

  6. 2- La notion d'utilité Principe : • Choisir une action sans avoir besoin de faire une exploration (simulée) en avant • Il faut donc disposer d’une fonction d’évaluation locale résumant une espérance de gain si l’on choisit cette action :fonction d’utilité • Il faut apprendre cette fonction d’utilité :apprentissage par renforcement

  7. 2- Notion d’utilité. Exemple : Tic-Tac-Toe X X X X X O X X X O X X X O X X O X O O O X O O X O O O } x’s coup ... V(s1) V(s3) x x V(s2) x } o’s coup ... ... ... x o o o x x } x’s coup x ... ... ... ... ... } o’s coup La fonction d’utilité une fois apprise permet de jouer sans exploration de l’arbre de jeu } x’s coup x o x x o

  8. 2- Fonctions d'utilité : V(s) et Q(s,a) • La valeur d’un état est l’espérance de gain en partant de cet état. Elle dépend de la politique de l’agent : • La valeur d’une action dans un état sous la politique p est l’espérance de gain en partant de cet état, en choisissant cette action et en suivant ensuite la politique p :

  9. 2- Fonctions d'utilité : Vp(s) et Qp (s,a)

  10. 2- Ordre sur les politiques et politique optimale • Pour les MDPs finis, $ ! relation d’ordre partiel sur les politiques: • Il existe toujours au moins une politique (et peut-être plusieurs) meilleure ou égale à toute autre politique. Une telle politique est optimale et notée p *. • Les politiques optimales partagent la même fonction d’utilité optimale sur les états : • Les politiques optimales partagent aussi la même fonction d’utilité optimale sur les (état-action) :

  11. 2. Utilisation : avec la fonction d’utilité V*(s) • Une politique est une application : SA • Valeur optimale d’un état : • La fonction de valeur optimale V* est unique • Une politique stationnaire optimale existe :

  12. 2. Utilisation : avec la fonction d’utilité Q*(s,a) • Fonction d’évaluation d’action Q(s,a) • Valeur optimale d’une action (dans un état) : • Théorème : est une politique optimale

  13. 3-1. Programmation dynamique : Évaluation de politique Évaluation de politique : Pour une politique donnée p, calculer la fonction d’utilité d’état Vp(s) : Rappel :

  14. 3-1. PD : Évaluation itérative d’une politique Principe : l’équation de point fixe de Bellman peut fournir en une procédure itérative d’approximation successive de la fonction d’utilité Vp. une “propagation”

  15. 3-1. PD : Algorithme d’évaluation itérative d’une politique

  16. 4. Environnement inconnu : Différences temporelles Soit la méthode d’estimation par moyennage : La moyenne des premiers k renforcements est (en ignorant la dépendance sur ): Peut-on faire le même calcul incrémentalement ? Oui : Règle classique d’amélioration : NouvelleEstimation = AncienneEstimation + Pas[Cible – AncienneEstimation]

  17. 4-1. TD learning : évaluation par méthode des différences temporelles Évaluation de politique : pour une politique donnée p, calculer la fonction d’utilité cible: le vrai gain sur une durée t cible: une estimation du gain

  18. T T T T T T T T T T T T T T T T T T T T 4-1. TD learning : Simple Monte Carlo

  19. T T T T T T T T T T T T T T T T T T T T 4-1. TD learning : Simplest TD Method On met à jour incrémentalement par ré-estimations successives et locales

  20. T T T T T T T T T T 4-1. TD learning : cf. Dynamic Programming On calcule l’espérance. Mais il faut connaître l’environnement a priori. T T T

  21. 4-1. TD learning : algo d’évaluation par différences temporelles Initialisation :  politique à évaluer V une fonction arbitraire d’évaluation Répéter (pour chaque pas de l’épisode) : a action préconisée par p pour s Faire a; recevoir r; voir état suivant s’ V(s)V(s) +  [r + V(s’) - V(s)] ss’ jusqu’às terminal

  22. 3-2. PD : Comment améliorer une politique Relation d’ordre sur les politiques : Soient p et p’ deux politiques déterministes, tq sE : Alors la politique p’ est au moins aussi bonne que p : (1) • Si l’on trouve une modification p’ de la politique p vérifiant l’inégalité (1), alors on obtient une meilleure politique

  23. Pour un état donné s, serait-il meilleur de faire l’action ? 3-3. PD : Amélioration de politique Supposons fait le calcul de pour une politique déterministe p. L’utilité de l’action a dans l’état s est : Il est préférable de choisir l’action a dans l’état s si :

  24. 3-3. PD : Amélioration de politique Cont. Il suffit de faire cela pour tous les états pour obtenir une nouvelle politique p’ qui est gloutonne par rapport à Vp : • Alors Vp ≥ Vp

  25. 3-3. PD : Amélioration de politique (Cont.)

  26. 3-3. PD : Itération de politique E A E A E A Évaluation de politique Amélioration de politique “gloutonne”

  27. 3-3. Algorithme d’itération de politique • Garantie de convergence vers une politique optimale Initialisation arbitraire de  Faire calcul de la fonction de valeur avec  Amélioration de la politique à chaque état ’ :=  jusqu’à ce qu’aucune amélioration ne soit possible

  28. 3-3. PD : Policy Iteration

  29. 3-3. PD : Itération généralisée de politique Generalized Policy Iteration (GPI): Toute interaction d’étape d’évaluation de politique et d’étape d’amélioration de politique indépendamment de leur granularité : Métaphore géométrique pour La convergence de GPI :

  30. 4-1. TD learning : Learning An Action-Value Function Q(s,a)

  31. 4-2. TD learning : Q-Learning

  32. 4-2. Rappel : Le dilemme exploitation vs. exploration Quelle politique pour maximiser le gain avec 1000 tirages ?

  33. 4-2- Sélection d’action e-gloutonne • Sélection d’action gloutonne : • e-gloutonne : { . . . La manière la plus simple de pondérer l’exploration et l’exploitation

  34. 4-2- Sélection d’action Softmax • Softmax action selection methods grade action probs. by estimated values. • The most common softmax uses a Gibbs, or Boltzmann, distribution: “computational temperature”

  35. 4-3. L’apprentissage Q (Q-learning) • Idée [Watkins,89] :Estimer les valeurs Q “en-ligne”, en trouvant à la fois la politique et la fonction d’évaluation d’action : MAJ à chaque fois que l’action a est prise dans s. • Théorème : Si chaque action est exécutée un nombre infini de fois dans chaque état, les valeurs Q calculées convergent vers Q*, conduisant à une politique optimale.

  36. 0 0 0 0 4-3. Exemple (1/4) r(s,a) récompense immédiate • Rq: La dernière étape assure la récompense (jeux, monde des blocs, etc.) • Tâche: apprendre la meilleure stratégie 0 100 But 0 0 0 0 0 0 100

  37. 4-3. Exemple (2/4) • On définit la récompense cumulée V(st) = • Le problème: trouver 90 100 But 0 100 90 81 V*(s)=V*(s) récompense cumulée optimale

  38. 81 90 72 81 4-3. Exemple (3/4) • La fonction Q est définit comme étant LA fonction qui résume en UN nombre toute l’info nécessaire sur le gain cumulé d’une action a, prise dans l’état s. Q(s,a) 90 100 But 0 81 72 81 81 90 100

  39. ^ Q(s,a) ^ Q(s,a) 4-3. Exemple (4/4) On Prend  =1. 72 100 63 81 adroite 90 100 63 81

  40. 5. Apprentissage avec généralisation • Si l’espace S (ou S x A) est trop important pour l’utilisation d’une table mémorisant les prédictions • Deux options : • Utilisation d’une technique de généralisation dans l’espace S ou l’espace S x A (e.g. réseau de neurones, ...) • Utilisation d’une technique de regroupement d’états en classes d’équivalence (même prédiction et même action générée).

  41. 5. Généralisation : Approximation de la fonction V(s) Comme avant : Évaluation de politique : pour une politique donnée p, calculer la fonction d’utilité Mais avant, les fonctions d’utilité étaient stockées dans des tables.

  42. 5. Généralisation : Backups as Training Examples As a training example: input target output

  43. 5. Généralisation : n’importe quelle méthode inductive ? • En principe, oui : • Réseaux de neurones artificiels • Arbres de décision • Méthodes de régression multivariées • etc. • Mais l’App. par R. a des exigences particulières : • Apprendre tout en agissant • S’adapter à des mondes non stationnaires • Autre ?

  44. 6. Some Notable RL Applications • TD-Gammon: Tesauro • world’s best backgammon program • Elevator Control: Crites & Barto • high performance down-peak elevator controller • Inventory Management: Van Roy, Bertsekas, Lee&Tsitsiklis • 10–15% improvement over industry standard methods • Dynamic Channel Assignment: Singh & Bertsekas, Nie & Haykin • high performance assignment of radio channels to mobile telephone calls

  45. 6. TD-Gammon Tesauro, 1992–1995 Action selection by 2–3 ply search Value TD error Start with a random network Play very many games against self Learn a value function from this simulated experience This produces arguably the best player in the world

  46. 6. Réalisations : TD Gammon • White has just rolled a 5 and a 2 so can move one of his pieces 5 and one (possibly the same) 2 steps • Objective is to advance all pieces to points 19-24 • Hitting • Doubling • 30 pieces, 24 locations implies enormous number of configurations • Effective branching factor of 400 Tesauro 1992, 1994, 1995, ...

  47. 6. Réalisations : A Few Details • Reward: 0 at all times except those in which the game is won, when it is 1 • Episodic (game = episode), undiscounted • Gradient descent TD(l) with a multi-layer neural network • weights initialized to small random numbers • backpropagation of TD error • four input units for each point; unary encoding of number of white pieces, plus other features • Use of afterstates • Learning during self-play

  48. 6. Réalisations : Multi-layer Neural Network

  49. 6. Réalisations : Summary of TD-Gammon Results

  50. 7. Bilan : trois idées principales • La passage par des fonctions d’utilité • La rétro-propagation de ces valeursle long de trajectoires réelles ou simulées • Itération généralisée de politique: (i) calculer continuellement une estimation de la fonction d’utilité optimale et (ii) chercher une politique optimale grâce à cette estimation, qui, en retour, s’adapte en conséquence

More Related