340 likes | 444 Views
MATT-Vorlesung im WS 2002/2003. Verteiltes Planen / Problemlösen und Bekräftigungslernen. ( Edmund Durfee Richard Sutton / Andrew Barto Sandip Sen / Gerhard Weiss ). Motivation für verteiltes Planen und Problemlösen. Erhöhte Verarbeitungsgeschwindigkeit durch Parallelbearbeitung
E N D
MATT-Vorlesung im WS 2002/2003 Agent Based Supply Chain Management
Verteiltes Planen / Problemlösen und Bekräftigungslernen (Edmund Durfee Richard Sutton / Andrew Barto Sandip Sen / Gerhard Weiss) Agent Based Supply Chain Management
Motivation für verteiltes Planen und Problemlösen • Erhöhte Verarbeitungsgeschwindigkeit durch Parallelbearbeitung • Aufteilen von Kompetenzen und Problemlösungsfähigkeiten (Spezialisierung) • Gemeinsame Nutzung von verteilten Datenbeständen • Leichtere Aufteilung der Ergebnisse der Verarbeitungsprozesse möglich Agent Based Supply Chain Management
Verteile Aufgabenlösung I Verfahrensschritte • Zerlegung in Teilaufgaben • Zuweisung der Teilaufgaben • Erledigung der Teilaufgaben • Ergebnissynthese Agent Based Supply Chain Management
Verteile Aufgabenlösung II Beispielprobleme • Tower of Hanoi (ToH) • Distributed Sensor Network Establishment (DSNE) (Contract-Net) • Distributed Delivery (DD) Agent Based Supply Chain Management
Aufgabenzerlegung beim ToH–Problem I Agent Based Supply Chain Management
Aufgabenzerlegung beim ToH–Problem II Rekursive Zerlegung • Stochastische Zuweisung der Teilaufgaben an freie identische Agenten • Zerlegung des Problems beendet, wenn Start- und Zielzustände gleich • Ergebnis liegt vor, wenn alle Teilaufgaben an den Start-Agenten zurückgegeben wurden • Mittel-zum-Zweck Heuristik reduziert die Komplexität drastisch von bn auf O(log n) Agent Based Supply Chain Management
Aufgabenzerlegung beim ToH–Problem III Zerlegung ist nur effektiv, wenn: • Teilprobleme unabhängig lösbar sind • Hierarchische Annäherung an optimale Lösung garantiert ist • Zahl der Abstraktionsebenen mit der Problemgröße wächst • Verhältnis von Abstraktionsebenen zueinander logk beträgt • Problem in gleichgroße Unterprobleme zerlegt werden kann • Mindestens so viele Agenten wie Unterprobleme existieren • Problemzerlegung und Ergebniszusammenfassung vernachlässigbar wenig Zeit beanspruchen Agent Based Supply Chain Management
Aufgabenzerlegung für das DSNE–Problem Distributed Sensor Network Evaluation • Übertragung mit Contract-Net Protokoll • Spezifikation nach Eignung für die Aufgabe • Aufgabenabstraktion • Angebotsspezifikation • Regionale Differenzierung Agent Based Supply Chain Management
Aufgabenzerlegung in heterogenen Systemen Contract Net • Aussenden der Kontraktbereitschaft an alle Teilnehmer • Wiederholung des Kontraktangebots nach einiger Zeit • Ankündigung der Änderung des Kontraktangebots falls erforderlich • Alternative Zerlegungen sollten vom Kontraktbroker erarbeitet werden Agent Based Supply Chain Management
Zerlegung für interdependente Aufgaben Aufgabenverteilung • Agent koordiniert Unteraufgaben • Bearbeitung untergeordneter Aufgaben wird in Abhängigkeit vom Gesamtfortschritt ausgelöst • Auflösen der strengen Zeitabhängigkeiten durch das Erzeugen von Aufgabenklassen und das Erkennen und Ausnutzen von Parallelität Agent Based Supply Chain Management
Gemeinsame Verwaltung der Ergebnisse Erhöhen der Gruppenleistung durch: • Zuverlässigkeit / Vollständigkeit / Genauigkeit / Pünktlichkeit • Funktional exakt definierte Zusammenarbeit • Wiederholter Austausch von Teillösungen durch die Agenten • Konkurrenz von Partialhypothesen: z.B. Blackboard-Systeme • Iterative Verbesserung der Teillösungen Probleme • Agenten tendieren zu den selben Lösungsansätzen • Sehr hoher Kommunikationsaufwand Agent Based Supply Chain Management
Verteiltes Planen I Hierarchische Verhaltensraumsuche • Vorgehen: • Äußere Schleife: • Entscheidung auf welchem Abstraktionsniveau geplant wird • Entscheidung ob Konfliktlösung auf diesem oder einem anderen Niveau erfolgen soll • Innere Schleife: • Vorgehen nach DCHS zur Konfliktauflösung Agent Based Supply Chain Management
Verteiltes Planen II Beispiel: Distributed Delivery • R1 und R2 suchen nächsten Weg durch die Tore • Konflikt an oberen Tor (nächster Weg für R1 und R2, evtl. treffen beide gemeinsam an Tor ein) Agent Based Supply Chain Management
Verteiltes Planen III Lösung: • Bearbeitung des Problems auf verschiedenen Hierarchiestufen • Zeitliche Zerlegung • Örtliche Zerlegung Agent Based Supply Chain Management
Merkmale verteilten Lernens I • Hauptkategorien verteilten Lernens • zentral / dezentral • Grad der Dezentralisierung • Verteiltheit (zentral / MAS) • Parallelität(sequentielleinAgent/ parallel MAS) • Interaktionsspezifische Eigenschaften • Grad der Interaktion (Beobachtung / Signal- / Informationsaustausch / Verhandlung) • Fortdauer der Interaktion (kurz / lang) • Häufigkeit der Interaktion (niedrig / hoch) • Interaktionsmuster (unstrukturiert / hierarchisch) • Veränderlichkeit der Interaktion (fest / variabel) Agent Based Supply Chain Management
Merkmale verteilten Lernens II • Mitwirkungsgebundene Eigenschaften • Relevanz der Einbindung (eigene Ausführung / Anleitung) • Rolle während der Einbindung • Generalisten / Spezialisten • Zielspezifische Eigenschaften • Arten der Verbesserung beim Lernen • eigenes Handeln / gemeinschaftliche Zielerreichung • Vereinbarkeit der Lernziele • Unterscheidung: komplementäre und konfligierende Lernziele Agent Based Supply Chain Management
Merkmale verteilten Lernens III • Lernmethoden • Routinelernen • Lernen durch Anleitung • Lernen am Beispiel und aus Erfahrung • Analogielernen • Lernen durch Entdecken Agent Based Supply Chain Management
Merkmale verteilten Lernens IV • Lernkontrolle • Überwachtes Lernen: Lehrer • Rückkopplung / Aktivität wird überwacht • Bestätigungslernen (RL): Kritiker • Rückkopplung / Nutzen wird überwacht • Nicht überwachtes Lernen: Beobachter • Keine Rückkopplung / Trial and Error-Prinzip Agent Based Supply Chain Management
Reinforcement Learning I • Bekräftigungssignal als Rückkopplung: Reward r • Markovscher Entscheidungsprozess aus-gedrückt als 4er-Tupel • S : Zustandsraum • A : Aktionsraum • Wahrscheinlichkeit des Zustandsübergangs von s1 nach s2 unter Ausführung von Aktion a Agent Based Supply Chain Management
Reinforcement Learning II RL-Agent Zustand st Reward rt+1 Umgebung st+1 Bekräftigungslernender Agent in seiner Umwelt Agent Based Supply Chain Management
Reinforcement Learning III • Jeder Agent besitzt eine Entscheidungspolitik p die eine Abbildung des aktuellen Zustands s auf die nächsten Aktionen avornimmt • Die Zustandswertfunktion ist die mit diskontierte Summe der erwarteten zukünftigen Bekräftigungssignale r einer Politik p Agent Based Supply Chain Management
a3, r3 a1, r1 a4, r4 a5, r5 a2, r2 a6, r6 Reinforcement Learning IV Zustandswert-Funktion V einer beliebigen Politik Agent Based Supply Chain Management
a3, r3 a1, r1 s2 a4, r4 a5, r5 s1 a2, r2 a6, r6 Reinforcement Learning V Aktionswert-Funktion Q einer beliebigen Politik Agent Based Supply Chain Management
BekräftigungslernenArtillery Duel • Artillery Duel • Aktionsparameter: Winkel, Anfangsgeschwindigkeit • Sensorinput: Distanz Einschlag-Ziel Anfangs-geschwindigkeit Distanz Einschlag - Ziel Winkel Agent Based Supply Chain Management
BekräftigungslernenArtillery Duel - Aktionsraum Zu Beginn sind Aktionsfelder unbesetzt Lernphase erforderlich Agent verfügt über kein ballistisches Wissen Agent Based Supply Chain Management
BekräftigungslernenArtillery Duel - Input • Input: Distanz Einschlag – Ziel • Zugeordnet einem Zustand sn • Zustandsupdate: qhits: Anzahl der bisherigen Versuche auf diesem Zustand r: Distanz Einschlag/Ziel Agent Based Supply Chain Management
Bekräftigungslernen Beispiel - Zustandsupdate • Aktion: Agent feuert mit Winkel 30, Geschwindigkeit 10 • Input: Abweichung: 14 m • Diesen Zustand wird das vierte Mal angenommen • Neuer Wert: [21(4-1)+14]/4=19,25 Agent Based Supply Chain Management
BekräftigungslernenDurchlauf einer Episode Startpunkt: Zufällig eine Startkonfiguration ausgewählen Wähle nächste Aktion so, dass Übergangsdistanz maximal ist Update der jeweiligen Zustände Episode endet mit Treffer Annahme: Ziel verändert Position zwischen Episoden nur minimal Agent Based Supply Chain Management
BekräftigungslernenArtillery Duel - Resultat • Nach n Episoden: • Aktionsraum gefüllt • Agent findet optimale Einstellung ausgehend von zufälligem Startwert schneller als zu Beginn • Bei Bewegung des Ziels laufende Anpassung des Aktionsraums notwendig Agent Based Supply Chain Management
Q-Learning • Ziel: Finden einer optimalen Politik p* die für alle Zustände maximiert • Die Entscheidungspolitik schätzt den langfristigen diskontierten Reward für jedes (s,a)-Paar einer Politik • bezeichnet die Q-Werte, wobei a,p die Auswahlsequenz für a zum aktuellen Zeitpunkt unter Beachtung der Auswahlpolitik p beschreibt. (Aktionswert) Agent Based Supply Chain Management
Q-Learning • für alle : Der optimale Zustandswert ergibt sich aus dem Aktionswert unter Berücksichtigung der optimalen Politik. • Regel zum Aktualisieren des Q-Wertes beim Durchführen einer Aktion a beim Übergang zum Zustand s, welche die Bekräftigung (Reinforcement) R liefert, wobei b die Lernrate ist. Agent Based Supply Chain Management
Q-Learning Vorgehensweise: Wiederhole für jede Episode: 1. Gehe von einem bestimmten s aus 2. Wähle eine Aktion a, ausgehend von s und unter Zuhilfenahme der gewählten Verhaltenspolitik z.B. -greedy 3. Beobachte Return r und Zustand s‘ 4. Erstelle ein Update von Q folgendermaßen: 5. Gehe von s zu s‘ Agent Based Supply Chain Management