1 / 27

Reinforcement Learning

Reinforcement Learning. Das „Reinforcement Learning“-Problem Alexander Schmid. Vortragsgliederung. 1. Einleitung 2. Das Labyrinthbeispiel 3. Der Agent und die Umgebung 4. Die Policy 5. Rewards und Returns 6. Markov-Eigenschaft und MDP 7. Value Functions 8. Fazit und Ausblick

leland
Download Presentation

Reinforcement Learning

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Reinforcement Learning Das „Reinforcement Learning“-Problem Alexander Schmid

  2. Vortragsgliederung • 1. Einleitung • 2. Das Labyrinthbeispiel • 3. Der Agent und die Umgebung • 4. Die Policy • 5. Rewards und Returns • 6. Markov-Eigenschaft und MDP • 7. Value Functions • 8. Fazit und Ausblick • 9. Literaturreferenzen Institut für Informatik

  3. 1. Einleitung – Was ist Reinforcement Learning • Reinforcement Learning ist eine spezielle Art von Lernverfahren • „maschinelle Lernverfahren“: • Ein Künstliches System lernt (z.b. ein Roboter oder eine Maschine) • „überwachtes Lernen“ • Ein „Lehrer“ (übergibt die Lehrvorgaben) • Künstliches System orientiert sich an Lehrvorgaben • Reinforcement Learning • Es gibt keinen Lehrer • Der Ursprung liegt in der Natur Institut für Informatik

  4. 1. Einleitung – Was ist Reinforcement Learning • Beispiel Kleinkind • Offensichtlich ist kein Lehrer notwendig • Das Kind kann seine Umgebung verändern • Das Kind kann die Veränderungen wahrnehmen (Ursache und Wirkung) • Erfahrungen helfen dem Kind Ziele zu erreichen • Merkmale des Reinforcement Learnings • Interaktion mit der Umgebung • Sammeln und Anwenden von Erfahrungen • „trial-and-error“-Prinzip • Belohnungen beim Erreichen von Zielen Institut für Informatik

  5. 1. Einleitung – Das „Reinforcement Learning“-Problem • Ziel: Formales Modell für Reinforcement Learning definieren • 1. Ansatz • Idee: Verallgemeinerung von konkreten Anwendungen • Ansatz nicht brauchbar, da zu viele unterschiedliche Anwendungen • Beispiel: Fertigungsroboter und Sortiermaschine • 2. Ansatz • Idee: Beschreibung des Problems anstelle der Lösung • Genauer: Beschreibung der einzelnen Elemente • Beispiele unter diesem Ansatz mit einander vereinbar Institut für Informatik

  6. 2. Das Labyrinthbeispiel • Ein Labyrinth und ein Roboter • Lernziel: Roboter soll so schnell wie möglich zum Ausgang finden Eingang Roboter Ausgang Ausgang Institut für Informatik

  7. 3. Der Agent und die Umgebung • Das künstliche System wir formal als „ der Agent“ bezeichnet • Der Agent… • ...ist immer der Teil der lernt • …muss zwingend dynamisch bzw. veränderbar sein • ...muss mit seiner Umgebung interagieren können • Die Umgebung… • …ist das Gegenstück zum Agenten • …ist statisch (nicht veränderbar) • …beinhaltet alles, was nicht explizit zum Agenten gehört Institut für Informatik

  8. 3. Der Agent und die Umgebung • Aktionen… • …können vom Agenten ausgeführt werden • …low-level- oder high-level-Entscheidungen (Beispiel Roboterarm) • Zustände… • …beschreiben den Momentanzustand der Umgebung • …können komplizierte Formen annehmen (Beispiel: Objekterkennung) • Zustände und Aktionen liegen kodiert vor Institut für Informatik

  9. 3. Der Agent und die Umgebung (Interaktion) Agent Zustand Reward Aktion Umgebung • Agent führt Aktion aus (Zeitpunkt t) • Die Umgebung ändert ihren Zustand (Konsequenz aus Aktion) • Neuer Zeitschritt beginnt • Agent bekommt (neuen) Zustand • Agent bekommt Reward (Belohnung) Institut für Informatik

  10. 3. Der Agent und die Umgebung • Agent und Umgebung am Labyrinthbeispiel • Die Umgebung ist das Labyrinth (inklusive Ein- und Ausgängen) • Der Agent ist der Roboter (bzw. sein Rechenwerk) Agent (Roboter) Institut für Informatik

  11. 3. Der Agent und die Umgebung • Aktionen und Zustände am Labyrinthbeispiel Institut für Informatik

  12. 4. Die Policy • Die Policy… • …ist das Herzstück des Agenten (trifft die Entscheidungen) • …ist eine Abbildung von einem Zustand auf eine Aktion • …muss veränderbar sein (Lernvorgang) • …wird mit πt notiert (Definition) • Das „Exploitation-Exploration-Problem“ • Erinnerung: „trial-and-error“-Prinzip • „greedy Policy“ (gierige Policy) Institut für Informatik

  13. 4. Die Policy • „Exploitation-Exploration-Problem“ am Labyrinthbeispiel Institut für Informatik

  14. 4. Die Policy • Lösung des „Exploitation-Exploration-Problems“ • Einbauen von Exploration-Entscheidungen • Verfeinerung des Policy-Begriffs (Wahrscheinlichkeitsverteilung) • Formal: πt(s,a) • Beispiel Zustandsgraph s a b c x y z Institut für Informatik

  15. 5. Rewards und Returns • Formulierung eines Ziels für den Agenten • Definition: rt • Rewards liegen in der Umgebung • Modellierung eines komplexen Ziels mit Hilfe von Rewards • Beispiel: Roboter lernt laufen • Rewards können auch falsch gesetzt werden • Beispiel: Schach Institut für Informatik

  16. 5. Rewards und Returns • Rewards im Labyrinthbeispiel -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 Institut für Informatik

  17. 5. Rewards und Returns • Returns sind Summen von Rewards • Definition: • Problem bei kontinuierlichen Prozessen • Lösung: Abschwächen der Summenglieder durch Faktor • Definition: • mit 0 < γ < 1 Institut für Informatik

  18. 5. Rewards und Returns • Returns am Labyrinthbeispiel -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1-1-1-1-1-1-1-1-1+80 = 71 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1-1-1-1+80 = 76 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 Institut für Informatik

  19. 6. Markov-Eigenschaft und MDP • Informationsgehalt der Zustände • Beispiel: Schach • Keine Informationen voriger Zustände nötig (Markov-Eigenschaft) • mathematische Formulierung der Markov Eigenschaft • Zustände ohne Markov-Eigenschaft: • Zustände mit Markov-Eigenschaft: • Annäherungen an die Markov-Eigenschaft Institut für Informatik

  20. 6. Markov-Eigenschaft und MDP • Markov-Decision-Process (MDP) • Alle Zustände besitzen die Markov-Eigenschaft • Aussagen über „Reinforcement Learning“ gelten nur für MDPs • Mathematischen Eigenschaften des MDP • Übergangswahrscheinlichkeit: • Folgezustand für Aktion nicht zwingend eindeutig Institut für Informatik

  21. 6. Markov-Eigenschaft und MDP • Beispiel für Übergangswahrscheinlichkeit • Erweiterter Zustandsgraph: • Erwarteter Reward: s a b w z x y Institut für Informatik

  22. 7. Value Functions • Value Functions bewerten Zustände • Definition • Die Value Function repräsentiert den „erwarteten Return“: • Die Value Functions sind von der Policy abhängig Institut für Informatik

  23. Auflösen der Formel: 7. Value Functions s a1 a2 s2 s3 s1 Institut für Informatik

  24. 7. Value Functions • Action-Value Functions • Bewerten ein Zustand-Aktions-Paar • Definition: • Optimale Value Functions • Value Functions konvergieren gegen optimale Value Functions (ausgelernt) • Policies mit optimalen Value Functions sind optimale Policies • Strategie: Bei optimalen Value Functions eine greedy Policy verwenden Institut für Informatik

  25. 7. Value Functions • Optimale Value Function am Labyrinthbeispiel -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 22 Schritte Return von 59 80 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 Institut für Informatik

  26. 8. Fazit und Ausblick • Zusammenfassung • Ursprung und Allgemeine Beschreibung von Reinforcement Learning • Formales Modell für Reinforcement Learning (allen wichtigen Elemente) • Anwendungsbeispiele • Zusammenfassung • Modell dient als Rahmen für die Entwicklung von Anwendungen • Beispiele: Monte Carlo Methoden, Dynamisches Programmieren, Temporal Difference Learning Institut für Informatik

  27. 9. Literaturreferenzen • [1] Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An Introduction, Chapter 1 - Introduction, MIT Press, Cambridge, MA, 1998 • [2] Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An Introduction, Chapter 3 - The Reinforcement Learning Problem, MIT Press, Cambridge, MA, 1998 Institut für Informatik

More Related