1 / 48

Meger ősítéses Tanulás = Reinforcement Learning (RL)

Meger ősítéses Tanulás = Reinforcement Learning (RL). Szepesv ári Csaba Gépi Tanulás és Ember-Gép Interfészek Csoport MTA SZTAKI szcsaba@sztaki.hu www.sztaki.hu/~szcsaba. Gépi tanulás és Ember-Gép Interfészek Csoport MTA SZTAKI, 2 004-. Tanulás Megerősítéses tanulás Klasszifikáció

Download Presentation

Meger ősítéses Tanulás = Reinforcement Learning (RL)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Megerősítéses Tanulás=Reinforcement Learning (RL) Szepesvári Csaba Gépi Tanulás és Ember-Gép Interfészek Csoport MTA SZTAKI szcsaba@sztaki.hu www.sztaki.hu/~szcsaba

  2. Gépi tanulás és Ember-Gép Interfészek CsoportMTA SZTAKI, 2004- • Tanulás • Megerősítéses tanulás • Klasszifikáció • Jellegzetesség kivonás • Alkalmazási területek • Kontroll, játékok • Beszéd • Természetes nyelv (NKFP projekt: NYELVBÁNYÁSZ) • Pénzügyi mat. (portfólió opt.) • Kocsis Levente, PhD • Szepesvári Csaba, PhD • Szamonek Zoltán, PhD hallg. • „your name”?

  3. MA: Megerősítéses Tanulás Tartalom: Motiváció Algoritmusok, módszerek, eszközök Alkalmazások

  4. AI - „a nagy kép” • Intelligencia: • Tanulás • „Programozói” lustaság + • a feladatok komplexitásának kezelése: • Minél önállóbb tanulás

  5. Póker • Célok: • mesterszintű játék • játék aspektusok • ellenfél modellezés • Autóverseny-szimulátor • Célok: • Emberi teljesítmény mesteri reprodukciója • Autóvezetés forgalomban Hol tartunk? (MLHCI Csoport)

  6. +3 +50 -1 -1 r1 r9 r4 r5 Mi a megerősítéses tanulás (RL) ? • Nagyfokú önállóság a tanulásban • Információk: • büntetés/jutalom alapján • megfigyelések a környezetről (állapotok) • Cél: a jutalom egy függvényét maximalizálni! … … s1 s2 s3 s4 s5 s9 … a1 a2 a3 a4 a5 a9 …

  7. A k-karú bandita probléma Átlagos kifizetés (jutalom) Akciók 10 0, 0, 5, 10, 35 5, 10, -15, -15, -10 -5 Ágens 100 0

  8. Markov Döntési Folyamatok ~ Markov Decision Processes (MDPs) • Állapotok, véletlentől függő átmenetekkel • Átmenetvalószínűségek aktuális állapottól függnek • Transition matrix P, and reward function R a1 r = 2 1 1 2 r = 0 a2

  9. +3 +50 -1 -1 r1 r9 r4 r5 Hosszútávú jutalom • Ágens politikája rögzített:p • Az Rtkifizetés a t pillanat utáni össz-jutalom

  10. Érték = Hasznosság = Várható kifizetés • Rtvalószínűségi változó • Vehetjük a várható értékét! Politikától függ Rt ! • Feladat: találjuk meg azt ap*politikát amelyik a várható értéket maximalizálja, minden állapotban

  11. at at+1 at+2 st st+1 st+2 st+3 Az eddigi sztori.. • RL feladatok részei: • Több lépéses döntési feladatok • Célp*-ot megtalálni • Kritérium: Rövid távúHosszú távú rt+1 rt+2 rt+3

  12. 4 3 5 p(s) s A Bellman egyenletek • A Markov tulajdonság miatt a várható összjutalmat egy rekurzív egyenlettel is kifejezhető: ahol és Másképp: V = TVvagyBV = 0

  13. Bellman egyenletek - optimális értékelő függvény • Optimális értékelő függvény • Mohó politka: mindig a Q* szerinti legjobb akciót választja: argmax_a Q*(s,a) • Ez optimális!!! • Politika javítás algoritmus: (kiértékel, javít)*

  14. 4 3 5 p(s) s st st+1 at = p(st) rt+1 „Bootstrapping” módszerek • Pés R ismeretét feltételezve; Dinamikus Programozás • Nem ismerjükP-t és R-et, mintavételezés; „Temporal Difference learning”

  15. st st+1 at rt+1 TD(0) tanulás: Politikák kiértékelése t:=0 p is the policy to be evaluated Initialise arbitrarily for all Repeat select an action atfrom p(st) observe the transition update according to t:=t+1

  16. at rt+1 at st+1 st st st+1 rt+1 „On-”és„Off-” politika tanulás • „On politika”: az éppen követett politikát értékeljük pl. TD tanulással • „Off-politika”: más politikát követünk, mint aminek az értékét számoljuk • Pl. Q-tanulás:

  17. „Off-politika” tanulás • A Q-tanulás előnyei • Az optimális politika p* értékét becsli • miközben tetszőleges (felfedező) akciókat lehet végrehatjani • e-mohó felfedezés: • Mohó akció e valószínűséggel • Véletlen akció 1-e valószínűséggel • Garantált konvergencia, ha kellően bejárjuk az MDP-t • Meg lehet-e találnip* -ot „on-politika” algoritmussal?

  18. st+1 at at+1 st rt+1 „On politika” tanulás: Sarsa • Töröljük a „max” operátort! • Értékeljük a követett politikát: • Fokozatosan, lassan változtassuk a politikát • Konvergál! (Jaakkola,Singh,Littman,Szepesvári)

  19. st+1 at st rt+1 „On politika”tanulás: Sarsa t:=0 Initialise arbitrarily for all select an action atfrom explore( ) Repeat observe the transition select an action at+1from explore( ) update according to t:=t+1

  20. st+1 st+1 at st+1 st st rt+1 at at+1 st rt+1 Összefoglalás: TD, Q-learning, Sarsa • TD learning • One step Q-learning • Sarsa learning at rt+1

  21. at-2 at-1 at st-2 st-1 st st+1 rt-1 rt rt+1 2-es fokozat: „Eligibility traces”, TD(l) • A TD hibával a TD tanulásban csak egy állapot értékét módosítjuk: • Minden állapotra meghatározunk egy „alkalmazhatósági mértéket”: • ahol • Módosítsuk mindenállapotértékét az „alkalmazhatósági mértékkel” arányosan:

  22. at-1 at st-1 st at+1 rt rt+1 agreedy st+1 „Eligibility trace”a Q-tanulásban: Q(l) • Sokféleképpen lehet csinálni • Pl. minden s,apárra: • Nem-mohó akciónál is van információ visszaterjesztés • Elvész a konvergencia garancia! • Watkin’s megoldási javaslata: nem-mohó után e:=0 • Probléma: hatásfokot csökkenti • “Bias variance” dilemma

  23. at at+1 at+2 rt+1 rt+2 st st+1 st+2 Sarsa(l) • Másik megoldás: használjuk a Sarsa algoritmust! • Minden s,apárra: • Konvergencia tulajdonság megmarad(?)

  24. „Közelítő”RL • Miért? • Idő és tárkorlátok! (Bellman: dimenzionalítás átka) • Általánosítás új szituációkra (elégtelen mintavételezés) • Megoldások • Érték-függvény közelítése • Politika térbeli keresés • Közelítő modellek + tervezés

  25. Lineáris approximáció • Egyszerűés hasznos! • Vannak konvergencia eredmények • Most: lineáris TD(l) Súlyvektora t. időpillanatban: „Feature” vektor azsállapotra: Becslés Cél: minimalizálni..

  26. Értékfüggvény közelítés: approximátorok • Választások: pl. CMAC, RBF népszerűek • CMAC: n db. cserépdarab • „Features” • Tulajdonságok • „Coarse coding” • Szabályos fedés_jó hatásfok • Véletlen hash: memóriaigénycsökkenti

  27. Lineáris közelítések • Gradiens módszer -re • TD(l)egyenlet új alakja: • Most az E.T. n-dimenziós vektor, amit így módosítunk: • Konvergál -hoz

  28. Újabb önreklám • William D. Smart, Cs. Szepesvári, ICML’2004: • Q-learning egy formája konvergál egy megfelelő függvény-approximátorral együtt használva. • Nem gradiens módszer. • A megfelelő gradiens módszer konvergenciája nem ismert. • Sejtés: .... Konvergens?

  29. Egy különösen sikeres példa:TD-gammon • TD(l) tanulás, 1 rejtett rétegű neuronháló, Backprop • 1,500,000 játék (saját magával) • A legjobb játékosokkal azonos képességek (világbajnok) • Backgammon állapottere: ~1020 , DP nem megy!!

  30. Modell alapú RL: struktúrált modellek • Dinamikus Bayes háló aPállapotátmenetek reprezentációjára (másképp: faktorizált MDP) • V: fa • Backup: „goal regression” • Hasonlít a tervezési feladatokra

  31. ot ot+2 ot+1 at at+1 at+2 st st+1 st+2 rt+1 rt+2 RL: rejtett állapotok • POMDP, k-Markov • POMDP-ben a tervezés nem(sem) kivihető (intractable) • Faktorizált POMDP-k: igéretes • Politika keresés előnyös

  32. Politika keresés (direkt módszer) • Módszerek • Gradiens • Evolúciós (egyéb local/global search)

  33. Alkalmazások

  34. Sridhar Mahadevan UMass Robot navigációs feladat • Pavlov: Nomad 200 robot • Nomad 200 simulator

  35. Sridhar Mahadevan UMass Hierarchikus modellek – térbeli modellezésre Entire environment 575 states Corridor state 1385 states Production state

  36. Hierarchikus modellek vertical transitions entry states exit states abstract states horizontal transitions product states, which generate observations

  37. Ingress router egress router ingress router egress router (Yong Liu, Singapore) Internet forgalom-szabályozás“Multi-protocol label switching” Cél: a sok lehetséges útvonalból úgy választani, hogy a blokkolás valószínűségét minimalizáljuk

  38. Jeremy Wyatt Yoshiyuki Matsumura Matthew Todd University of Birmingham School of Computer Science Robot foci: szimulációs liga

  39. A k-lábú robot

  40. Look in the mirror Look at the road Check the speed Head & eyes Steer the wheel Put on high gear Steer the wheel Right arm Press brakes Accelerate Press brakes Legs Decision epochs Egyidejű (konkurrens) akciók Example: driving

  41. M.L.Puterman, 2002 Alkalmazások (A-tól N-ig) • Airline Meal Planning • Behaviourial Ecology • Capacity Expansion • Decision Analysis • Equipment Replacement • Fisheries Management • Gambling Systems • Highway Pavement Repair • Inventory Control • Job Seeking Strategies • Knapsack Problems • Learning • Medical Treatment • Network Control

  42. M.L.Puterman, 2002 Alkalmazások (O-tól Z-ig) • Option Pricing • Project Selection • Queueing System Control • Robotic Motion • Scheduling • Tetris • User Modeling • Vision (Computer) • Water Resources • X-Ray Dosage • Yield Management • Zebra Hunting

  43. Néhány további RLalkalmazás • Liftek vezérlése (Barto & Crites) • Ütemezési feladatok, űrsikló pakolása (Zhang & Dietterich) • Dinamikus csatorna kiosztás mobil hálózatokban (Singh & Bertsekas) • Egyensúlyozás: Járni, biciklizni, seprűt egyensúlyozni tanulás, zsonglőrködés • Ragadozó-préda (PacMan) • Portfólió optimalizálás

  44. Aktív területek • Optimális felfedező stratégiák • Struktúrált modellek • Relációs modellek • Folytonos állapot és akció-terek • Hierarchikus RL • Állapotok és akciók absztrakciói (options, macros,..) • Rejtett állapotok (eg. POMDPs) • Prediktív állapot-reprezentáció • Politika keresés • Szignifikancia tesztek

  45. Reinforcement Learning: key papers Overviews R. Sutton and A. Barto. Reinforcement Learning: An Introduction. The MIT Press, 1998. J. Wyatt, Reinforcement Learning: A Brief Overview. Perspectives on Adaptivity and Learning. Springer Verlag, 2003. L.Kaelbling, M.Littman and A.Moore, Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research, 4:237-285, 1996. Value Function Approximation D. Bersekas and J.Tsitsiklis. Neurodynamic Programming. Athena Scientific, 1998. Eligibility Traces S.Singh and R. Sutton. Reinforcement learning with replacing eligibility traces. Machine Learning, 22:123-158, 1996.

  46. Reinforcement Learning: key papers Structured Models and Planning C. Boutillier, T. Dean and S. Hanks. Decision Theoretic Planning: Structural Assumptions and Computational Leverage. Journal of Artificial Intelligence Research, 11:1-94, 1999. R. Dearden, C. Boutillier and M.Goldsmidt. Stochastic dynamic programming with factored representations. Artificial Intelligence, 121(1-2):49-107, 2000. B. Sallans. Reinforcement Learning for Factored Markov Decision ProcessesPh.D. Thesis, Dept. of Computer Science, University of Toronto, 2001. K. Murphy. Dynamic Bayesian Networks: Representation, Inference and Learning. Ph.D. Thesis, University of California, Berkeley, 2002.

  47. Reinforcement Learning: key papers Policy Search R. Williams. Simple statistical gradient algorithms for connectionist reinforcement learning. Machine Learning, 8:229-256. R. Sutton, D. McAllester, S. Singh, Y. Mansour. Policy Gradient Methods for Reinforcement Learning with Function Approximation. NIPS 12, 2000. Hierarchical Reinforcement Learning R. Sutton, D. Precup and S. Singh. Between MDPs and Semi-MDPs: a framework for temporal abstraction in reinforcement learning. Artificial Intelligence, 112:181-211. R. Parr. Hierarchical Control and Learning for Markov Decision Processes. PhD Thesis, University of California, Berkeley, 1998. A. Barto and S. Mahadevan. Recent Advances in Hierarchical Reinforcement Learning. Discrete Event Systems Journal 13: 41-77, 2003.

  48. Reinforcement Learning: key papers Exploration N. Meuleau and P.Bourgnine. Exploration of multi-state environments: Local Measures and back-propagation of uncertainty. Machine Learning, 35:117-154, 1999. J. Wyatt. Exploration control in reinforcement learning using optimistic model selection. In Proceedings of 18th International Conference on Machine Learning, 2001. POMDPs L. Kaelbling, M. Littman, A. Cassandra. Planning and Acting in Partially Observable Stochastic Domains. Artificial Intelligence, 101:99-134, 1998.

More Related