250 likes | 332 Views
Meger ősítéses tanulás 2. el őadás. Szita István, Lőrincz András. Technikai dolgok. Email szityu@eotvoscollegium.hu Annai levlista http://nipglab04.inf.elte.hu/cgi-bin/mailman/listinfo/annai/
E N D
Megerősítéses tanulás2. előadás Szita István, Lőrincz András
Technikai dolgok • Emailszityu@eotvoscollegium.hu • Annai levlistahttp://nipglab04.inf.elte.hu/cgi-bin/mailman/listinfo/annai/ • Olvasnivaló:Sutton, Barto: Reinforcement Learning: An Introductionhttp://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html • Jegyzet • Vizsga
Mi a megerősítéses tanulás? • mesterséges intelligenciakutatás egyik ága • interakcióból tanul • előzetes információ nélkül • próba-szerencse alapon • célorientált • maximális jutalom hosszú távra
Példák • játékok: blackjack, sakk, dáma, tictactoe • egyensúlyozás • újszülött őzike • mindenféle robotok • sétáló • navigáló • helikoptervezérlő • robotfoci
az RL nehéz… • a tanulóügynöknek nem mondják meg, hogy mi a helyes döntés • tanár helyett kritikus • próba-szerencse módszerrel kell megtalálni a helyes megoldást • időnként új cselekvéseket is ki kell próbálni • az így megszerzett tudást optimálisan felhasználni • dilemma: a járt út vagy a járatlan?
az RL nehéz… • a helyes döntésért járó jutalom késhet • rövidtávú nyereség $hosszútávú nyereség • miért járt a jutalom? • bizonytalan környezet … de kezelhető
A félév tervezett menete • az RL feladat megfogalmazása • matematikai modell • egyszerű megoldási módszerek • a legegyszerűbbektől indulunk… • elemzés (hatékonyság, konvergencia) • korlátok
A félév tervezett menete • néhány fejlettebb módszer • általánosítás • neuronhálózatok • policy gradient • alkalmazások • backgammon • helikopterirányítás • ember-számítógép kölcsönhatás • nyitott kérdések
Az RL feladat környezet akció állapot jutalom ügynök stratégia, modell
Az RL feladat részei • környezet: fekete doboz • tanulóügynök • állapot: az ügynök megfigyelése a környezetről • jutalom: egyetlen szám (!!!) • stratégia: állapot ! akció leképezés • akció: ez hat a környezetre • kérdés: mi az a stratégia, ami a legtöbb összjutalmat adja
Feltevések • szükség van rájuk, hogy meg lehessen támadni a feladatot • mindegyik gyengíthető – de nehezíti a feladatot • némelyikre még visszatérünk…
Feltevések • a jutalom egyetlen számmal leírható • az idő diszkrét (t = 1, 2, 3, …) • az állapottér is diszkrét és véges • az állapot teljesen megfigyelhető • és még egy (Markov tulajdonság), de erről később • nem túl erősek a megkötések?
Formalizáljuk a feladatot • idő: • állapot: • akció: • jutalom: • stratégia: • determinisztikus: • szochasztikus: • (s,a) annak a valószínűsége, hogy s-ben a-t lép
Formalizáljuk a feladatot • interakció: • környezet modellje: átmeneti valószínűségek és jutalmak • cél: maximális várható jutalom:
A Markov-feltevés • feltesszük, hogy a régmúlt nem számít: • a környezet dinamikája leírható az átmenetivalószínűség-mátrixszal:
Mi van a végén? • epizodikus, fix idejű feladat • epizodikus, nem fix idejű feladat • folytonos feladat • gond: rt végtelen lehet! • megoldás: diszkontálás. rthelyett trt , <1 • garantáltan véges • diszkontálás kényelmes, epizodikus feladatra is használni fogjuk!
Az RL feladat kezelhető modellje:a Markov döntési folyamat (MDP) • S: állapottér • A: akciótér • átmeneti valószínűségek • közvetlen jutalmak • s0: kiindulási állapot • : diszkontálási ráta
Markov döntési folyamat megoldása • környezet lépked P és R szerint: • ügynök lépked szerint: • optimális stratégia: olyan , amelyremaximális.
Példák • bot egyensúlyozása • autó a völgyben • tic-tac-toe • dáma, backgammon • póker
Optimális stratégia keresése • két fő megközelítési mód • direkt stratégiakeresési módszerek • egyszerűbbnek tűnik, de nem az • lokális minimum • félév végén lesz róla szó • értékelőfüggvény-alapú módszerek • történetileg korábbi • egyszerűbb • globális maximum!
Az értékelőfüggvény • s állapot értéke: a várható összjutalom s-ből indulva
A Bellman-egyenlet • fixpontegyenlet • egyértelmű megoldás, mindig létezik
Akcióértékelő függvény • várható összjutalom s, a után • Bellman-egyenlet: