1 / 34

MATT-Vorlesung im WS 2002/2003

MATT-Vorlesung im WS 2002/2003. Verteiltes Planen / Problemlösen und Bekräftigungslernen. ( Edmund Durfee Richard Sutton / Andrew Barto Sandip Sen / Gerhard Weiss ). Motivation für verteiltes Planen und Problemlösen. Erhöhte Verarbeitungsgeschwindigkeit durch Parallelbearbeitung

noelle
Download Presentation

MATT-Vorlesung im WS 2002/2003

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. MATT-Vorlesung im WS 2002/2003 Agent Based Supply Chain Management

  2. Verteiltes Planen / Problemlösen und Bekräftigungslernen (Edmund Durfee Richard Sutton / Andrew Barto Sandip Sen / Gerhard Weiss) Agent Based Supply Chain Management

  3. Motivation für verteiltes Planen und Problemlösen • Erhöhte Verarbeitungsgeschwindigkeit durch Parallelbearbeitung • Aufteilen von Kompetenzen und Problemlösungsfähigkeiten (Spezialisierung) • Gemeinsame Nutzung von verteilten Datenbeständen • Leichtere Aufteilung der Ergebnisse der Verarbeitungsprozesse möglich Agent Based Supply Chain Management

  4. Verteile Aufgabenlösung I Verfahrensschritte • Zerlegung in Teilaufgaben • Zuweisung der Teilaufgaben • Erledigung der Teilaufgaben • Ergebnissynthese Agent Based Supply Chain Management

  5. Verteile Aufgabenlösung II Beispielprobleme • Tower of Hanoi (ToH) • Distributed Sensor Network Establishment (DSNE) (Contract-Net) • Distributed Delivery (DD) Agent Based Supply Chain Management

  6. Aufgabenzerlegung beim ToH–Problem I Agent Based Supply Chain Management

  7. Aufgabenzerlegung beim ToH–Problem II Rekursive Zerlegung • Stochastische Zuweisung der Teilaufgaben an freie identische Agenten • Zerlegung des Problems beendet, wenn Start- und Zielzustände gleich • Ergebnis liegt vor, wenn alle Teilaufgaben an den Start-Agenten zurückgegeben wurden • Mittel-zum-Zweck Heuristik reduziert die Komplexität drastisch von bn auf O(log n) Agent Based Supply Chain Management

  8. Aufgabenzerlegung beim ToH–Problem III Zerlegung ist nur effektiv, wenn: • Teilprobleme unabhängig lösbar sind • Hierarchische Annäherung an optimale Lösung garantiert ist • Zahl der Abstraktionsebenen mit der Problemgröße wächst • Verhältnis von Abstraktionsebenen zueinander logk beträgt • Problem in gleichgroße Unterprobleme zerlegt werden kann • Mindestens so viele Agenten wie Unterprobleme existieren • Problemzerlegung und Ergebniszusammenfassung vernachlässigbar wenig Zeit beanspruchen Agent Based Supply Chain Management

  9. Aufgabenzerlegung für das DSNE–Problem Distributed Sensor Network Evaluation • Übertragung mit Contract-Net Protokoll • Spezifikation nach Eignung für die Aufgabe • Aufgabenabstraktion • Angebotsspezifikation • Regionale Differenzierung Agent Based Supply Chain Management

  10. Aufgabenzerlegung in heterogenen Systemen Contract Net • Aussenden der Kontraktbereitschaft an alle Teilnehmer • Wiederholung des Kontraktangebots nach einiger Zeit • Ankündigung der Änderung des Kontraktangebots falls erforderlich • Alternative Zerlegungen sollten vom Kontraktbroker erarbeitet werden Agent Based Supply Chain Management

  11. Zerlegung für interdependente Aufgaben Aufgabenverteilung • Agent koordiniert Unteraufgaben • Bearbeitung untergeordneter Aufgaben wird in Abhängigkeit vom Gesamtfortschritt ausgelöst • Auflösen der strengen Zeitabhängigkeiten durch das Erzeugen von Aufgabenklassen und das Erkennen und Ausnutzen von Parallelität Agent Based Supply Chain Management

  12. Gemeinsame Verwaltung der Ergebnisse Erhöhen der Gruppenleistung durch: • Zuverlässigkeit / Vollständigkeit / Genauigkeit / Pünktlichkeit • Funktional exakt definierte Zusammenarbeit • Wiederholter Austausch von Teillösungen durch die Agenten • Konkurrenz von Partialhypothesen: z.B. Blackboard-Systeme • Iterative Verbesserung der Teillösungen Probleme • Agenten tendieren zu den selben Lösungsansätzen • Sehr hoher Kommunikationsaufwand Agent Based Supply Chain Management

  13. Verteiltes Planen I Hierarchische Verhaltensraumsuche • Vorgehen: • Äußere Schleife: • Entscheidung auf welchem Abstraktionsniveau geplant wird • Entscheidung ob Konfliktlösung auf diesem oder einem anderen Niveau erfolgen soll • Innere Schleife: • Vorgehen nach DCHS zur Konfliktauflösung Agent Based Supply Chain Management

  14. Verteiltes Planen II Beispiel: Distributed Delivery • R1 und R2 suchen nächsten Weg durch die Tore • Konflikt an oberen Tor (nächster Weg für R1 und R2, evtl. treffen beide gemeinsam an Tor ein) Agent Based Supply Chain Management

  15. Verteiltes Planen III Lösung: • Bearbeitung des Problems auf verschiedenen Hierarchiestufen • Zeitliche Zerlegung • Örtliche Zerlegung Agent Based Supply Chain Management

  16. Agent Based Supply Chain Management

  17. Merkmale verteilten Lernens I • Hauptkategorien verteilten Lernens • zentral / dezentral • Grad der Dezentralisierung • Verteiltheit (zentral / MAS) • Parallelität(sequentielleinAgent/ parallel MAS) • Interaktionsspezifische Eigenschaften • Grad der Interaktion (Beobachtung / Signal- / Informationsaustausch / Verhandlung) • Fortdauer der Interaktion (kurz / lang) • Häufigkeit der Interaktion (niedrig / hoch) • Interaktionsmuster (unstrukturiert / hierarchisch) • Veränderlichkeit der Interaktion (fest / variabel) Agent Based Supply Chain Management

  18. Merkmale verteilten Lernens II • Mitwirkungsgebundene Eigenschaften • Relevanz der Einbindung (eigene Ausführung / Anleitung) • Rolle während der Einbindung • Generalisten / Spezialisten • Zielspezifische Eigenschaften • Arten der Verbesserung beim Lernen • eigenes Handeln / gemeinschaftliche Zielerreichung • Vereinbarkeit der Lernziele • Unterscheidung: komplementäre und konfligierende Lernziele Agent Based Supply Chain Management

  19. Merkmale verteilten Lernens III • Lernmethoden • Routinelernen • Lernen durch Anleitung • Lernen am Beispiel und aus Erfahrung • Analogielernen • Lernen durch Entdecken Agent Based Supply Chain Management

  20. Merkmale verteilten Lernens IV • Lernkontrolle • Überwachtes Lernen: Lehrer • Rückkopplung / Aktivität wird überwacht • Bestätigungslernen (RL): Kritiker • Rückkopplung / Nutzen wird überwacht • Nicht überwachtes Lernen: Beobachter • Keine Rückkopplung / Trial and Error-Prinzip Agent Based Supply Chain Management

  21. Reinforcement Learning I • Bekräftigungssignal als Rückkopplung: Reward r • Markovscher Entscheidungsprozess aus-gedrückt als 4er-Tupel • S : Zustandsraum • A : Aktionsraum • Wahrscheinlichkeit des Zustandsübergangs von s1 nach s2 unter Ausführung von Aktion a Agent Based Supply Chain Management

  22. Reinforcement Learning II RL-Agent Zustand st Reward rt+1 Umgebung st+1 Bekräftigungslernender Agent in seiner Umwelt Agent Based Supply Chain Management

  23. Reinforcement Learning III • Jeder Agent besitzt eine Entscheidungspolitik p die eine Abbildung des aktuellen Zustands s auf die nächsten Aktionen avornimmt • Die Zustandswertfunktion ist die mit  diskontierte Summe der erwarteten zukünftigen Bekräftigungssignale r einer Politik p Agent Based Supply Chain Management

  24. a3, r3 a1, r1 a4, r4 a5, r5 a2, r2 a6, r6 Reinforcement Learning IV Zustandswert-Funktion V einer beliebigen Politik Agent Based Supply Chain Management

  25. a3, r3 a1, r1 s2 a4, r4 a5, r5 s1 a2, r2 a6, r6 Reinforcement Learning V Aktionswert-Funktion Q einer beliebigen Politik Agent Based Supply Chain Management

  26. BekräftigungslernenArtillery Duel • Artillery Duel • Aktionsparameter: Winkel, Anfangsgeschwindigkeit • Sensorinput: Distanz Einschlag-Ziel Anfangs-geschwindigkeit Distanz Einschlag - Ziel Winkel Agent Based Supply Chain Management

  27. BekräftigungslernenArtillery Duel - Aktionsraum Zu Beginn sind Aktionsfelder unbesetzt Lernphase erforderlich Agent verfügt über kein ballistisches Wissen Agent Based Supply Chain Management

  28. BekräftigungslernenArtillery Duel - Input • Input: Distanz Einschlag – Ziel • Zugeordnet einem Zustand sn • Zustandsupdate: qhits: Anzahl der bisherigen Versuche auf diesem Zustand r: Distanz Einschlag/Ziel Agent Based Supply Chain Management

  29. Bekräftigungslernen Beispiel - Zustandsupdate • Aktion: Agent feuert mit Winkel 30, Geschwindigkeit 10 • Input: Abweichung: 14 m • Diesen Zustand wird das vierte Mal angenommen • Neuer Wert: [21(4-1)+14]/4=19,25 Agent Based Supply Chain Management

  30. BekräftigungslernenDurchlauf einer Episode Startpunkt: Zufällig eine Startkonfiguration ausgewählen Wähle nächste Aktion so, dass Übergangsdistanz maximal ist Update der jeweiligen Zustände Episode endet mit Treffer Annahme: Ziel verändert Position zwischen Episoden nur minimal Agent Based Supply Chain Management

  31. BekräftigungslernenArtillery Duel - Resultat • Nach n Episoden: • Aktionsraum gefüllt • Agent findet optimale Einstellung ausgehend von zufälligem Startwert schneller als zu Beginn • Bei Bewegung des Ziels laufende Anpassung des Aktionsraums notwendig Agent Based Supply Chain Management

  32. Q-Learning • Ziel: Finden einer optimalen Politik p* die für alle Zustände maximiert • Die Entscheidungspolitik schätzt den langfristigen diskontierten Reward für jedes (s,a)-Paar einer Politik • bezeichnet die Q-Werte, wobei a,p die Auswahlsequenz für a zum aktuellen Zeitpunkt unter Beachtung der Auswahlpolitik p beschreibt. (Aktionswert) Agent Based Supply Chain Management

  33. Q-Learning • für alle : Der optimale Zustandswert ergibt sich aus dem Aktionswert unter Berücksichtigung der optimalen Politik. • Regel zum Aktualisieren des Q-Wertes beim Durchführen einer Aktion a beim Übergang zum Zustand s, welche die Bekräftigung (Reinforcement) R liefert, wobei b die Lernrate ist. Agent Based Supply Chain Management

  34. Q-Learning Vorgehensweise: Wiederhole für jede Episode: 1. Gehe von einem bestimmten s aus 2. Wähle eine Aktion a, ausgehend von s und unter Zuhilfenahme der gewählten Verhaltenspolitik z.B. -greedy 3. Beobachte Return r und Zustand s‘ 4. Erstelle ein Update von Q folgendermaßen: 5. Gehe von s zu s‘ Agent Based Supply Chain Management

More Related