1 / 53

Gruppe A4 – „Stürmer“

Gruppe A4 – „Stürmer“. Theoretische Informatik Seminar F Stephan Neumann Michael Groß 16.10.2002. Der Playground. 0,2. 0,108. 0,06. 0,04. 0,8. 0,2. 0,17. 0,8. Automatisches Testen – die Testsuite. Aufbau einer Testsuite. 6 Teilbereiche, Startpositionen:

royal
Download Presentation

Gruppe A4 – „Stürmer“

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Gruppe A4 – „Stürmer“ Theoretische Informatik Seminar F Stephan Neumann Michael Groß 16.10.2002

  2. Der Playground 0,2 0,108 0,06 0,04 0,8 0,2 0,17 0,8

  3. Automatisches Testen – die Testsuite

  4. Aufbau einer Testsuite 6 Teilbereiche, Startpositionen: • Roboter in Blickrichtung Tor, Ball direkt vor Roboter • Roboter in Blickrichtung Tor, Ball vor Roboter, etwas entfernt • Roboter in Blickrichtung Tor, Ball direkt hinter Roboter • Roboter in Blickrichtung Tor, Ball hinter Roboter, etwas entfernt • Roboter in Blickrichtung Tor, Ball auf Roboterposition gespiegelt um die y-Achse • Zufällige Roboter & Ball Startposition

  5. Der Regler • zustandsbasiert • 8 Aktionen (Behaviors): • 1: Gehe zum Ball • 2: Weiche Hindernis aus (Kollisionsgefahr!) • 3: Drehe Dich parallel zum Hindernis und fahre vorwärts(mit Ball) • 4: Fahre vorwärts (mit Ball) • 5: Schieße (mit Ball) • 6: Fahre eine Kurve (mit Ball, Hindernis im Weg) • 7: Fahre eine Kurve (mit Ball, freie Bahn) • 0: Schieße (Selbstmord, mit Ball)

  6. Regler – verwendete Features • Abstand zum Ball (direkt davor, sonst) • Abstand zum Hindernis • Winkel zum Hindernis • Winkel zum Tor

  7. Regler - Entscheidungsbaum JA NEIN Ball genau vor Roboter? Gehe zu Ball Hindernis SEHR nahe? Hindernis Ausweichen Tor gerade voraus &Hindernis nicht im Weg? Hindernis sehr nahe? |Hindernis Winkel| < 60°? |Hindernis Winkel| < 30°? Hindernis nahe? Schießen! Selbstmord vorwärts Roboter parallel zuHindernis & Tor ‚voraus‘ ? vorwärts vorwärts Parallel zu Hindernisdrehen & vorwärts Hindernis zu nahe für Kurve? Kurve Kurve Hindernis steht Kurve im Weg? Kurve (blockiert)

  8. Regler – Ergebnisse: 65,7%

  9. ‚Bewertung‘ einer Q-Table – Difference und Total Difference

  10. Lernen - Actions • 1: Gehe zum Ball • 2: Weiche Hindernis aus (Kollisionsgefahr!) • 3: Drehe Dich parallel zum Hindernis und fahre vorwärts(mit Ball) • 4: Fahre vorwärts (mit Ball) • 5: Schieße (mit Ball) • 6: Fahre eine Kurve (mit Ball, Hindernis im Weg) • 7: Fahre eine Kurve (mit Ball, freie Bahn) • 0: Schieße (Selbstmord, mit Ball)

  11. Lernen - Statediskretisierungen • Abstand zum Ball: < 0.03; >= 0.03: 2 • Abstand zum Hindernis: < 0.075; <0.09; <0.145; <0.18; >= 0.18: 5 • |Winkel Hindernis| : < Pi / 6; < Pi / 3; < 5 Pi / 12; < Pi / 2; < 7 Pi / 6; >= 7 Pi / 6: 6 • |Winkel Tor| : < 0.05; >= 0.05 : 2 States = 2 * 5 * 6 * 2 = 120; |QTable| = States * Actions = 960

  12. Statediskretisierungen graphisch

  13. Lernreihe 1: Rewardmodell • Erfolg: 100 • Fehlschlag: -100 • Behavior beendet sich sofort: -10

  14. Lernreihe 1 - Ergebnisse

  15. Lernreihe 1 - Ergebnisse

  16. Lernreihe 1, 1524 Episoden, 25,3%

  17. Lernreihe 1, 2910 Episoden, 47,3%

  18. Lernreihe 1, 3557 Episoden, 48,0%

  19. Lernreihe 1, 5000 Episoden, 43,0%

  20. Lernreihe 1, 6459 Episoden, 46,9%

  21. Lernreihe 1, 6805 Episoden, 52,0%

  22. Lernreihe 1, 7309 Episoden, 49,1%

  23. Lernreihe 1, 7797 Episoden, 49,1%

  24. Lernreihe 1, 8332 Episoden, 50,5%

  25. Lernreihe 1, 10001 Episoden, 52,0%

  26. Lernreihe 1, 14539 Episoden, 49,5%

  27. Regler 65,7% (zum Vergleich)

  28. Lernreihe 2 - Rewardmodell • Erfolg: 100 • Timeout: -0,5 • Sonstiger Fehlschlag: -100 • Behavior beendet sich sofort: -10 • Bahavior „Selbstmord“: -50 • Abbruch nach 40x selber Action im selben State (-100)

  29. Lernreihe 2 - Ergebnisse

  30. Lernreihe 2 - Ergebnisse

  31. Lernreihe 2, 1966 Episoden, 48,7%

  32. Lernreihe 2, 2910 Episoden, 47,3%

  33. Lernreihe 2, 3222 Episoden, 50,9%

  34. Lernreihe 2, 4142 Episoden, 42,6%

  35. Lernreihe 2, 6652 Episoden, 30,3%

  36. Regler 65,7% (zum Vergleich)

  37. Lernreihe 3 - Ergebnisse

  38. Lernreihe 3 - Ergebnisse

  39. Lernreihe 3, 1966 Episoden, 48,7%

  40. Lernreihe 3, 6524 Episoden, 49,1%

  41. Lernreihe 3, 9532 Episoden, 49,8%

  42. Regler 65,7% (zum Vergleich)

  43. Alle Tests zusammen: Lernreihe 1 Lernreihe 2 Lernreihe 3

  44. Behavior RL Problem • Stetiger Zustandsraum. • Stetige Aktionen.

  45. Lösung 1: Diskretisierung • Zu grobe Einteilung – Wichtige Unterschiede im Zustandsraum können nicht erkannt werden. • Zu feine Einteilung – Riesiger Zustandsraum, lange Zeit, bis auch nur alle wesentlichen Zustände einmal auftreten. • Der Agent kann nicht von bereits bekannten Zuständen auf neu auftretende, aber ähnliche Zustände schließen. • Es ist schwer, bekanntes Wissen einzubringen.

  46. Erwünschte Eigenschaften des RL • Direktes Verarbeiten des stetigen Zustandsraum. • Direkte Ausgabe der stetigen Aktionen. • Keine versteckte Diskretisierung. • Agent soll beim Auftreten eines unbekannten Zustands eine möglichst gute Aktion wählen. • Möglichkeit, das vom Regler bekannte Wissen einzubringen.

  47. Aktion/Reward Funktion • Funktion durch n Kontrollpunkte (2 mal n Parameter) definiert. • Funktion geht garantiert durch höchsten Kontrollpunkt – leichtes ermitteln des Maximums.

  48. Wire Fitting x Zustandsvektor u Aktion(svektor) Q(x,u) erwarteter Reward c Smoothing Faktor • Position der Kontrollpunkte soll vom Zustandsvektor x abhängen, y=f(u) ist dabei der zu erwartende reward.

  49. Kontrollpunkte mit ANN bestimmen

  50. Einbringen von Vorwissen

More Related