1 / 16

ABSCM-Vorlesung im WS 2001/2002

ABSCM-Vorlesung im WS 2001/2002. Lernen in Multiagentensystemen (Sandip Sen, Gerhard Weiss). Merkmale verteilten Lernens. Hauptkategorien verteilten Lernens zentral / dezentral Grad der Dezentralisierung Verteiltheit (zentral / MAS) Parallelität (sequentiell ein Agent / parallel MAS)

maili
Download Presentation

ABSCM-Vorlesung im WS 2001/2002

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ABSCM-Vorlesung im WS 2001/2002 Agent Based Supply Chain Management

  2. Lernen in Multiagentensystemen (Sandip Sen, Gerhard Weiss) Agent Based Supply Chain Management

  3. Merkmale verteilten Lernens • Hauptkategorien verteilten Lernens • zentral / dezentral • Grad der Dezentralisierung • Verteiltheit (zentral / MAS) • Parallelität(sequentielleinAgent/ parallel MAS) • Interaktionsspezifische Eigenschaften • Grad der Interaktion (Beobachtung / Signal- / Informationsaustausch / Verhandlung) • Fortdauer der Interaktion (kurz / lang) • Häufigkeit der Interaktion (niedrig / hoch) • Interaktionsmuster (unstrukturiert / hierarchisch) • Veränderlichkeit der Interaktion (fest / variabel) Agent Based Supply Chain Management

  4. Merkmale verteilten Lernens • Mitwirkungsgebundene Eigenschaften • Relevanz der Einbindung (eigene Ausführung / Anleitung) • Rolle während der Einbindung • Generalisten / Spezialisten • Zielspezifische Eigenschaften • Arten der Verbesserung beim Lernen • eigenes Handeln / gemeinschaftliche Zielerreichung • Vereinbarkeit der Lernziele • Unterscheidung: komplementäre und konfligierende Lernziele Agent Based Supply Chain Management

  5. Merkmale verteilten Lernens • Lernmethoden • Routinelernen • Lernen durch Anleitung • Lernen am Beispiel und aus Erfahrung • Analogielernen • Lernen durch Entdecken Agent Based Supply Chain Management

  6. Merkmale verteilten Lernens • Lernkontrolle • Überwachtes Lernen: Lehrer • Rückkopplung / Aktivität wird überwacht • Bestätigungslernen (RL): Kritiker • Rückkopplung / Nutzen wird überwacht • Nicht überwachtes Lernen: Beobachter • Keine Rückkopplung / Trial and Error-Prinzip Agent Based Supply Chain Management

  7. Credit Assignment Problem • Das Belohnungsproblem (Credit Assignment Problem) • Zuweisung von Lob und Tadel • CAP: Ursache/Wirkungs-Prinzip • Problem: richtige Zuordnung von Lob und Tadel • Inter–Agenten-CAP: • Bewertet Systemreaktion bezüglich des Handelns einzelner Agenten im MAS • Intra–Agenten-CAP: • Bewertung von Einzelaktionen innerhalb des Aktionsgefüges eines Agenten Agent Based Supply Chain Management

  8. Credit Assignment Problem Inter-Agenten-CAP Intra-Agenten-CAP Agent Based Supply Chain Management

  9. Reinforcement Learning • Bekräftigungssignal als Rückkopplung: Reward r • Markovscher Entscheidungsprozess aus-gedrückt als 4er-Tupel • S : Zustandsraum • A : Aktionsraum • Wahrscheinlichkeit des Zustandsübergangs von s1 nach s2 unter Ausführung von Aktion a Agent Based Supply Chain Management

  10. ReinforcementLearning RL-Agent Zustand st Reward rt+1 Umgebung st+1 Bekräftigungslernender Agent in seiner Umwelt Agent Based Supply Chain Management

  11. Reinforcement Learning • Jeder Agent besitzt eine Entscheidungspolitik p die eine Abbildung des aktuellen Zustands s auf die nächsten Aktionen avornimmt • Die Zustandswertfunktion ist die mit  diskontierte Summe der erwarteten zukünftigen Bekräftigungssignale r einer Politik p Agent Based Supply Chain Management

  12. a3, r3 a1, r1 a4, r4 a5, r5 a2, r2 a6, r6 Zustandswert-Funktion Zustandswert-Funktion V einer beliebigen Politik Agent Based Supply Chain Management

  13. a3, r3 a1, r1 s2 a4, r4 a5, r5 s1 a2, r2 a6, r6 Aktionswert-Funktion Aktionswert-Funktion Q einer beliebigen Politik Agent Based Supply Chain Management

  14. Q-Learning • Ziel: Finden einer optimalen Politik p* die für alle Zustände maximiert • Die Entscheidungspolitik schätzt den langfristigen diskontierten Reward für jedes (s,a)-Paar einer Politik • bezeichnet die Q-Werte, wobei a,p die Auswahlsequenz für a zum aktuellen Zeitpunkt unter Beachtung der Auswahlpolitik p beschreibt. (Aktionswert) Agent Based Supply Chain Management

  15. Q-Learning • für alle : Der optimale Zustandswert ergibt sich aus dem Aktionswert unter Berücksichtigung der optimalen Politik. • Regel zum Aktualisieren des Q-Wertes beim Durchführen einer Aktion a beim Übergang zum Zustand s, welche die Bekräftigung (Reinforcement) R liefert, wobei b die Lernrate ist. Agent Based Supply Chain Management

  16. Q-Learning Vorgehensweise: Wiederhole für jede Episode: 1. Gehe von einem bestimmten s aus 2. Wähle eine Aktion a, ausgehend von s und unter Zuhilfenahme der gewählten Verhaltenspolitik z.B. -greedy 3. Beobachte Return r und Zustand s‘ 4. Erstelle ein Update von Q folgendermaßen: 5. Gehe von s zu s‘ Agent Based Supply Chain Management

More Related