270 likes | 429 Views
Reinforcement Learning. Das „Reinforcement Learning“-Problem Alexander Schmid. Vortragsgliederung. 1. Einleitung 2. Das Labyrinthbeispiel 3. Der Agent und die Umgebung 4. Die Policy 5. Rewards und Returns 6. Markov-Eigenschaft und MDP 7. Value Functions 8. Fazit und Ausblick
E N D
Reinforcement Learning Das „Reinforcement Learning“-Problem Alexander Schmid
Vortragsgliederung • 1. Einleitung • 2. Das Labyrinthbeispiel • 3. Der Agent und die Umgebung • 4. Die Policy • 5. Rewards und Returns • 6. Markov-Eigenschaft und MDP • 7. Value Functions • 8. Fazit und Ausblick • 9. Literaturreferenzen Institut für Informatik
1. Einleitung – Was ist Reinforcement Learning • Reinforcement Learning ist eine spezielle Art von Lernverfahren • „maschinelle Lernverfahren“: • Ein Künstliches System lernt (z.b. ein Roboter oder eine Maschine) • „überwachtes Lernen“ • Ein „Lehrer“ (übergibt die Lehrvorgaben) • Künstliches System orientiert sich an Lehrvorgaben • Reinforcement Learning • Es gibt keinen Lehrer • Der Ursprung liegt in der Natur Institut für Informatik
1. Einleitung – Was ist Reinforcement Learning • Beispiel Kleinkind • Offensichtlich ist kein Lehrer notwendig • Das Kind kann seine Umgebung verändern • Das Kind kann die Veränderungen wahrnehmen (Ursache und Wirkung) • Erfahrungen helfen dem Kind Ziele zu erreichen • Merkmale des Reinforcement Learnings • Interaktion mit der Umgebung • Sammeln und Anwenden von Erfahrungen • „trial-and-error“-Prinzip • Belohnungen beim Erreichen von Zielen Institut für Informatik
1. Einleitung – Das „Reinforcement Learning“-Problem • Ziel: Formales Modell für Reinforcement Learning definieren • 1. Ansatz • Idee: Verallgemeinerung von konkreten Anwendungen • Ansatz nicht brauchbar, da zu viele unterschiedliche Anwendungen • Beispiel: Fertigungsroboter und Sortiermaschine • 2. Ansatz • Idee: Beschreibung des Problems anstelle der Lösung • Genauer: Beschreibung der einzelnen Elemente • Beispiele unter diesem Ansatz mit einander vereinbar Institut für Informatik
2. Das Labyrinthbeispiel • Ein Labyrinth und ein Roboter • Lernziel: Roboter soll so schnell wie möglich zum Ausgang finden Eingang Roboter Ausgang Ausgang Institut für Informatik
3. Der Agent und die Umgebung • Das künstliche System wir formal als „ der Agent“ bezeichnet • Der Agent… • ...ist immer der Teil der lernt • …muss zwingend dynamisch bzw. veränderbar sein • ...muss mit seiner Umgebung interagieren können • Die Umgebung… • …ist das Gegenstück zum Agenten • …ist statisch (nicht veränderbar) • …beinhaltet alles, was nicht explizit zum Agenten gehört Institut für Informatik
3. Der Agent und die Umgebung • Aktionen… • …können vom Agenten ausgeführt werden • …low-level- oder high-level-Entscheidungen (Beispiel Roboterarm) • Zustände… • …beschreiben den Momentanzustand der Umgebung • …können komplizierte Formen annehmen (Beispiel: Objekterkennung) • Zustände und Aktionen liegen kodiert vor Institut für Informatik
3. Der Agent und die Umgebung (Interaktion) Agent Zustand Reward Aktion Umgebung • Agent führt Aktion aus (Zeitpunkt t) • Die Umgebung ändert ihren Zustand (Konsequenz aus Aktion) • Neuer Zeitschritt beginnt • Agent bekommt (neuen) Zustand • Agent bekommt Reward (Belohnung) Institut für Informatik
3. Der Agent und die Umgebung • Agent und Umgebung am Labyrinthbeispiel • Die Umgebung ist das Labyrinth (inklusive Ein- und Ausgängen) • Der Agent ist der Roboter (bzw. sein Rechenwerk) Agent (Roboter) Institut für Informatik
3. Der Agent und die Umgebung • Aktionen und Zustände am Labyrinthbeispiel Institut für Informatik
4. Die Policy • Die Policy… • …ist das Herzstück des Agenten (trifft die Entscheidungen) • …ist eine Abbildung von einem Zustand auf eine Aktion • …muss veränderbar sein (Lernvorgang) • …wird mit πt notiert (Definition) • Das „Exploitation-Exploration-Problem“ • Erinnerung: „trial-and-error“-Prinzip • „greedy Policy“ (gierige Policy) Institut für Informatik
4. Die Policy • „Exploitation-Exploration-Problem“ am Labyrinthbeispiel Institut für Informatik
4. Die Policy • Lösung des „Exploitation-Exploration-Problems“ • Einbauen von Exploration-Entscheidungen • Verfeinerung des Policy-Begriffs (Wahrscheinlichkeitsverteilung) • Formal: πt(s,a) • Beispiel Zustandsgraph s a b c x y z Institut für Informatik
5. Rewards und Returns • Formulierung eines Ziels für den Agenten • Definition: rt • Rewards liegen in der Umgebung • Modellierung eines komplexen Ziels mit Hilfe von Rewards • Beispiel: Roboter lernt laufen • Rewards können auch falsch gesetzt werden • Beispiel: Schach Institut für Informatik
5. Rewards und Returns • Rewards im Labyrinthbeispiel -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 Institut für Informatik
5. Rewards und Returns • Returns sind Summen von Rewards • Definition: • Problem bei kontinuierlichen Prozessen • Lösung: Abschwächen der Summenglieder durch Faktor • Definition: • mit 0 < γ < 1 Institut für Informatik
5. Rewards und Returns • Returns am Labyrinthbeispiel -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1-1-1-1-1-1-1-1-1+80 = 71 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1-1-1-1+80 = 76 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 Institut für Informatik
6. Markov-Eigenschaft und MDP • Informationsgehalt der Zustände • Beispiel: Schach • Keine Informationen voriger Zustände nötig (Markov-Eigenschaft) • mathematische Formulierung der Markov Eigenschaft • Zustände ohne Markov-Eigenschaft: • Zustände mit Markov-Eigenschaft: • Annäherungen an die Markov-Eigenschaft Institut für Informatik
6. Markov-Eigenschaft und MDP • Markov-Decision-Process (MDP) • Alle Zustände besitzen die Markov-Eigenschaft • Aussagen über „Reinforcement Learning“ gelten nur für MDPs • Mathematischen Eigenschaften des MDP • Übergangswahrscheinlichkeit: • Folgezustand für Aktion nicht zwingend eindeutig Institut für Informatik
6. Markov-Eigenschaft und MDP • Beispiel für Übergangswahrscheinlichkeit • Erweiterter Zustandsgraph: • Erwarteter Reward: s a b w z x y Institut für Informatik
7. Value Functions • Value Functions bewerten Zustände • Definition • Die Value Function repräsentiert den „erwarteten Return“: • Die Value Functions sind von der Policy abhängig Institut für Informatik
Auflösen der Formel: 7. Value Functions s a1 a2 s2 s3 s1 Institut für Informatik
7. Value Functions • Action-Value Functions • Bewerten ein Zustand-Aktions-Paar • Definition: • Optimale Value Functions • Value Functions konvergieren gegen optimale Value Functions (ausgelernt) • Policies mit optimalen Value Functions sind optimale Policies • Strategie: Bei optimalen Value Functions eine greedy Policy verwenden Institut für Informatik
7. Value Functions • Optimale Value Function am Labyrinthbeispiel -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 22 Schritte Return von 59 80 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 Institut für Informatik
8. Fazit und Ausblick • Zusammenfassung • Ursprung und Allgemeine Beschreibung von Reinforcement Learning • Formales Modell für Reinforcement Learning (allen wichtigen Elemente) • Anwendungsbeispiele • Zusammenfassung • Modell dient als Rahmen für die Entwicklung von Anwendungen • Beispiele: Monte Carlo Methoden, Dynamisches Programmieren, Temporal Difference Learning Institut für Informatik
9. Literaturreferenzen • [1] Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An Introduction, Chapter 1 - Introduction, MIT Press, Cambridge, MA, 1998 • [2] Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An Introduction, Chapter 3 - The Reinforcement Learning Problem, MIT Press, Cambridge, MA, 1998 Institut für Informatik