160 likes | 247 Views
ABSCM-Vorlesung im WS 2001/2002. Lernen in Multiagentensystemen (Sandip Sen, Gerhard Weiss). Merkmale verteilten Lernens. Hauptkategorien verteilten Lernens zentral / dezentral Grad der Dezentralisierung Verteiltheit (zentral / MAS) Parallelität (sequentiell ein Agent / parallel MAS)
E N D
ABSCM-Vorlesung im WS 2001/2002 Agent Based Supply Chain Management
Lernen in Multiagentensystemen (Sandip Sen, Gerhard Weiss) Agent Based Supply Chain Management
Merkmale verteilten Lernens • Hauptkategorien verteilten Lernens • zentral / dezentral • Grad der Dezentralisierung • Verteiltheit (zentral / MAS) • Parallelität(sequentielleinAgent/ parallel MAS) • Interaktionsspezifische Eigenschaften • Grad der Interaktion (Beobachtung / Signal- / Informationsaustausch / Verhandlung) • Fortdauer der Interaktion (kurz / lang) • Häufigkeit der Interaktion (niedrig / hoch) • Interaktionsmuster (unstrukturiert / hierarchisch) • Veränderlichkeit der Interaktion (fest / variabel) Agent Based Supply Chain Management
Merkmale verteilten Lernens • Mitwirkungsgebundene Eigenschaften • Relevanz der Einbindung (eigene Ausführung / Anleitung) • Rolle während der Einbindung • Generalisten / Spezialisten • Zielspezifische Eigenschaften • Arten der Verbesserung beim Lernen • eigenes Handeln / gemeinschaftliche Zielerreichung • Vereinbarkeit der Lernziele • Unterscheidung: komplementäre und konfligierende Lernziele Agent Based Supply Chain Management
Merkmale verteilten Lernens • Lernmethoden • Routinelernen • Lernen durch Anleitung • Lernen am Beispiel und aus Erfahrung • Analogielernen • Lernen durch Entdecken Agent Based Supply Chain Management
Merkmale verteilten Lernens • Lernkontrolle • Überwachtes Lernen: Lehrer • Rückkopplung / Aktivität wird überwacht • Bestätigungslernen (RL): Kritiker • Rückkopplung / Nutzen wird überwacht • Nicht überwachtes Lernen: Beobachter • Keine Rückkopplung / Trial and Error-Prinzip Agent Based Supply Chain Management
Credit Assignment Problem • Das Belohnungsproblem (Credit Assignment Problem) • Zuweisung von Lob und Tadel • CAP: Ursache/Wirkungs-Prinzip • Problem: richtige Zuordnung von Lob und Tadel • Inter–Agenten-CAP: • Bewertet Systemreaktion bezüglich des Handelns einzelner Agenten im MAS • Intra–Agenten-CAP: • Bewertung von Einzelaktionen innerhalb des Aktionsgefüges eines Agenten Agent Based Supply Chain Management
Credit Assignment Problem Inter-Agenten-CAP Intra-Agenten-CAP Agent Based Supply Chain Management
Reinforcement Learning • Bekräftigungssignal als Rückkopplung: Reward r • Markovscher Entscheidungsprozess aus-gedrückt als 4er-Tupel • S : Zustandsraum • A : Aktionsraum • Wahrscheinlichkeit des Zustandsübergangs von s1 nach s2 unter Ausführung von Aktion a Agent Based Supply Chain Management
ReinforcementLearning RL-Agent Zustand st Reward rt+1 Umgebung st+1 Bekräftigungslernender Agent in seiner Umwelt Agent Based Supply Chain Management
Reinforcement Learning • Jeder Agent besitzt eine Entscheidungspolitik p die eine Abbildung des aktuellen Zustands s auf die nächsten Aktionen avornimmt • Die Zustandswertfunktion ist die mit diskontierte Summe der erwarteten zukünftigen Bekräftigungssignale r einer Politik p Agent Based Supply Chain Management
a3, r3 a1, r1 a4, r4 a5, r5 a2, r2 a6, r6 Zustandswert-Funktion Zustandswert-Funktion V einer beliebigen Politik Agent Based Supply Chain Management
a3, r3 a1, r1 s2 a4, r4 a5, r5 s1 a2, r2 a6, r6 Aktionswert-Funktion Aktionswert-Funktion Q einer beliebigen Politik Agent Based Supply Chain Management
Q-Learning • Ziel: Finden einer optimalen Politik p* die für alle Zustände maximiert • Die Entscheidungspolitik schätzt den langfristigen diskontierten Reward für jedes (s,a)-Paar einer Politik • bezeichnet die Q-Werte, wobei a,p die Auswahlsequenz für a zum aktuellen Zeitpunkt unter Beachtung der Auswahlpolitik p beschreibt. (Aktionswert) Agent Based Supply Chain Management
Q-Learning • für alle : Der optimale Zustandswert ergibt sich aus dem Aktionswert unter Berücksichtigung der optimalen Politik. • Regel zum Aktualisieren des Q-Wertes beim Durchführen einer Aktion a beim Übergang zum Zustand s, welche die Bekräftigung (Reinforcement) R liefert, wobei b die Lernrate ist. Agent Based Supply Chain Management
Q-Learning Vorgehensweise: Wiederhole für jede Episode: 1. Gehe von einem bestimmten s aus 2. Wähle eine Aktion a, ausgehend von s und unter Zuhilfenahme der gewählten Verhaltenspolitik z.B. -greedy 3. Beobachte Return r und Zustand s‘ 4. Erstelle ein Update von Q folgendermaßen: 5. Gehe von s zu s‘ Agent Based Supply Chain Management