ABSCM-Vorlesung im WS 2001/2002

ABSCM-Vorlesung im WS 2001/2002 Agent Based Supply Chain Management

Lernen in Multiagentensystemen (Sandip Sen, Gerhard Weiss) Agent Based Supply Chain Management

Merkmale verteilten Lernens • Hauptkategorien verteilten Lernens • zentral / dezentral • Grad der Dezentralisierung • Verteiltheit (zentral / MAS) • Parallelität(sequentielleinAgent/ parallel MAS) • Interaktionsspezifische Eigenschaften • Grad der Interaktion (Beobachtung / Signal- / Informationsaustausch / Verhandlung) • Fortdauer der Interaktion (kurz / lang) • Häufigkeit der Interaktion (niedrig / hoch) • Interaktionsmuster (unstrukturiert / hierarchisch) • Veränderlichkeit der Interaktion (fest / variabel) Agent Based Supply Chain Management

Merkmale verteilten Lernens • Mitwirkungsgebundene Eigenschaften • Relevanz der Einbindung (eigene Ausführung / Anleitung) • Rolle während der Einbindung • Generalisten / Spezialisten • Zielspezifische Eigenschaften • Arten der Verbesserung beim Lernen • eigenes Handeln / gemeinschaftliche Zielerreichung • Vereinbarkeit der Lernziele • Unterscheidung: komplementäre und konfligierende Lernziele Agent Based Supply Chain Management

Merkmale verteilten Lernens • Lernmethoden • Routinelernen • Lernen durch Anleitung • Lernen am Beispiel und aus Erfahrung • Analogielernen • Lernen durch Entdecken Agent Based Supply Chain Management

Merkmale verteilten Lernens • Lernkontrolle • Überwachtes Lernen: Lehrer • Rückkopplung / Aktivität wird überwacht • Bestätigungslernen (RL): Kritiker • Rückkopplung / Nutzen wird überwacht • Nicht überwachtes Lernen: Beobachter • Keine Rückkopplung / Trial and Error-Prinzip Agent Based Supply Chain Management

Credit Assignment Problem • Das Belohnungsproblem (Credit Assignment Problem) • Zuweisung von Lob und Tadel • CAP: Ursache/Wirkungs-Prinzip • Problem: richtige Zuordnung von Lob und Tadel • Inter–Agenten-CAP: • Bewertet Systemreaktion bezüglich des Handelns einzelner Agenten im MAS • Intra–Agenten-CAP: • Bewertung von Einzelaktionen innerhalb des Aktionsgefüges eines Agenten Agent Based Supply Chain Management

Credit Assignment Problem Inter-Agenten-CAP Intra-Agenten-CAP Agent Based Supply Chain Management

Reinforcement Learning • Bekräftigungssignal als Rückkopplung: Reward r • Markovscher Entscheidungsprozess aus-gedrückt als 4er-Tupel • S : Zustandsraum • A : Aktionsraum • Wahrscheinlichkeit des Zustandsübergangs von s1 nach s2 unter Ausführung von Aktion a Agent Based Supply Chain Management

ReinforcementLearning RL-Agent Zustand st Reward rt+1 Umgebung st+1 Bekräftigungslernender Agent in seiner Umwelt Agent Based Supply Chain Management

Reinforcement Learning • Jeder Agent besitzt eine Entscheidungspolitik p die eine Abbildung des aktuellen Zustands s auf die nächsten Aktionen avornimmt • Die Zustandswertfunktion ist die mit  diskontierte Summe der erwarteten zukünftigen Bekräftigungssignale r einer Politik p Agent Based Supply Chain Management

a3, r3 a1, r1 a4, r4 a5, r5 a2, r2 a6, r6 Zustandswert-Funktion Zustandswert-Funktion V einer beliebigen Politik Agent Based Supply Chain Management

a3, r3 a1, r1 s2 a4, r4 a5, r5 s1 a2, r2 a6, r6 Aktionswert-Funktion Aktionswert-Funktion Q einer beliebigen Politik Agent Based Supply Chain Management

Q-Learning • Ziel: Finden einer optimalen Politik p* die für alle Zustände maximiert • Die Entscheidungspolitik schätzt den langfristigen diskontierten Reward für jedes (s,a)-Paar einer Politik • bezeichnet die Q-Werte, wobei a,p die Auswahlsequenz für a zum aktuellen Zeitpunkt unter Beachtung der Auswahlpolitik p beschreibt. (Aktionswert) Agent Based Supply Chain Management

Q-Learning • für alle : Der optimale Zustandswert ergibt sich aus dem Aktionswert unter Berücksichtigung der optimalen Politik. • Regel zum Aktualisieren des Q-Wertes beim Durchführen einer Aktion a beim Übergang zum Zustand s, welche die Bekräftigung (Reinforcement) R liefert, wobei b die Lernrate ist. Agent Based Supply Chain Management

Q-Learning Vorgehensweise: Wiederhole für jede Episode: 1. Gehe von einem bestimmten s aus 2. Wähle eine Aktion a, ausgehend von s und unter Zuhilfenahme der gewählten Verhaltenspolitik z.B. -greedy 3. Beobachte Return r und Zustand s‘ 4. Erstelle ein Update von Q folgendermaßen: 5. Gehe von s zu s‘ Agent Based Supply Chain Management

ABSCM-Vorlesung im WS 2001/2002

ABSCM-Vorlesung im WS 2001/2002

Presentation Transcript

Vorlesung Entwicklungspsychologie I Grundbegriffe der Entwicklungspsychologie

Parteien und Parteiensysteme Vorlesung

2001

Vorlesung „ Einf ü hrung in das Politische System der VR China “

Herzlich willkommen zur Vorlesung EINFÜHRUNG IN DIE RELIGIONSETHNOLIGIE

Klassen und höhere Datentypen

Vorlesung „Geschäftsprozesse im Unternehmen“

매독선별검사

Overcoming Barriers to EHS

Vorlesung Grundlagen der Betriebswirtschaftslehre Sommersemester 2013 Teil 1

Vorlesung “ Einführung in das Bank-, Kapitalmarkt- und Kreditsicherungsrecht“

Vorlesung Europäische Umweltpolitik FS 2010 Block 5

The Modern World: 2001 - 2012

Hinweis:

Finanzrecht Vorlesung für Juristen WS 2007/08 Teil I

Arbeitsrecht im Betrieb Dr. jur. Joachim Ingendahl

Vorlesung „ Einf ü hrung in das Politische System der VR China “

Vorlesung Aganglionose (M. Hirschsprung)

Vorlesung Allgemeine Chemie Wintersemester 2010

Herzlich Willkommen zur Vorlesung

Vorlesung Aganglionose (M. Hirschsprung)

企业战略