1 / 36

Učenje pojačavanjem Reinforcement Learning

Učenje pojačavanjem Reinforcement Learning. Igor Gorečan Daniel Zrno. O čemu ćemo govoriti?. Problemi kod klasičnog pristupa strojnom učenju Svojstva agenta kod RL učenja / učenje strategije Q-učenje Proširenje modela za Q učenje TD učenje Metode generalizacije

jared
Download Presentation

Učenje pojačavanjem Reinforcement Learning

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Učenje pojačavanjemReinforcement Learning Igor Gorečan Daniel Zrno

  2. O čemu ćemo govoriti? • Problemi kod klasičnog pristupa strojnom učenju • Svojstva agenta kod RL učenja / učenje strategije • Q-učenje • Proširenje modela za Q učenje • TD učenje • Metode generalizacije • Primjeri realnih sustava temeljenih na RL

  3. Reinforcement Learning, in general • Po autoru T. Dietterich, razvoj u strojnom učenju se dijeli na 4 glavna smjera: • Ensambles of classifiers • Methods of scaling up supervised learning algorithms • Learning of complex stochastic models • Reinforcement learning

  4. Česti problemi kod klasičnog pristupa strojnog učenja • Problem odgođene nagrade (DELAYED REWARD) • Problem djelomično vidljivog okoliša (PARTIALLY OBSERVABLE STATES) • Problem istraživanja (EXPLORATION) • Problem učenja "za cijeli život" (LIFE-LONG LEARNING)

  5. Ne postoji kvalificirani učitelj koji određuje ispravnost svake akcije (kao kod supervised learning), nego se ocjenjuje samo uspješnost CIJELOG niza akcija (npr. pobjeda ili poraz u šahu)  Kako će stroj odrediti važnost svakog pojedinog koraka u nizu akcija za postizanje krajnjeg rezultata? Stroj ne zna posljedicu vlastitih akcija tj. način na koje one transformiraju stanje okoliša  Kako učiti s nepostojećim početnim znanjem? Problem odgođene nagrade (DELAYED REWARD)

  6. Stroj ne može u svakom trenutku percipirati cijelo stanje okoliša  Kako iskoristiti prošla opažanja i koje je akcije potrebno izvršiti da se poboljša percepcija/znanje o okolišu? Problem djelomično vidljivog okoliša(PARTIALLY OBSERVABLE STATES)

  7. Kako suprostaviti istraživanje nepoznatog prema iskorištavanju poznatog i naučenog  Kada smatramo da je stroj zadovoljavajuće naučio rješavati problem? Problem istraživanja (EXPLORATION)

  8. Kod učenja novih spoznaja/načina rješavanja problema, mora iskoristiti i nadograditi se na već naučeno  Kako prepoznati rješenje problema u okviru postoječeg znanja? Problem učenja "za cijeli život"(LIFE-LONG LEARNING)

  9. percipira konačan skup stanja okoliša, i za svako od njih može odabrati akciju iz konačnog skupa akcija ishod akcija je deterministički ili nedeterministički može (ili ne može) unaprijed odrediti novo stanje okoliša uzrokovano poduzetom akcijom agent osim percepcije normalnih stanja okoliša također razlikuje posebni senzorski ulaz koji odgovara osjećaju nagrade/kazne postoji (ili ne postoji) učitelj koji pokazuje optimalne nizove akcija Jel vam jasno (ili ne?) Konkretna svojstva agenta u RL primjeni

  10. u svakom diskretnom vremenskom koraku, agent percipira stanje okoliša st, odabire i obavlja akciju at feedback iz okoliša je: trenutna nagrada/kazna rt = r(st,at) (+ nagrada, - kazna) sljedeće stanje st+1 = d(st,at) Kako stvar radi? (Osnovni model)

  11. funkcije r i d ne trebaju biti unaprijed poznate agentu ne ovise o prijašnjim stanjima/akcijama  ovako zadani sustav zove se i Markov Decision Process (MDP) (zove se “Markovljev” zbog sličnog značenja kao kod Markovljevog lanca) Postoje Deterministički i Nedeterministički MDP Partially Observable MDP (POMDP) nastaje kada stanje okoliša nije vidljivo sve dok agent ne poduzme posebnu vrste akcije - promatranje kojom otkriva stanje svijeta O okolišu

  12. Cilj agenta je naučiti strategiju odabira akcije p : S  A tako da je p(st)=at U skladu sa idejom nagrađivanja, želimo onu strategiju koja će rezultirati najvećom ukupnom nagradom. Tako počevši od početnog stanja st i koristeći strategiju pza odabir akcija, dobivamo ukupnu vrijednost Vp(st): Vp(st)  rt + grt+1 + g2rt+2 + ... Cilj učenja

  13. Niz nagrada rt+i se generira počevši od stanja st, ali uz to da se smanjuje značaj odgođenih nagrada u odnosu na one dodijeljene odmah. Ovaku definiciju opravdavamo činjenicom da u većini slučajeva preferiramo nagradu prije nago kasnije. To se obavlja faktorom g (0  g < 1). Zag blizu 1, odgođene nagrade su jako bitne, dok za g=0, strategija se obazire samo na trenutni dobitak. Cilj učenja je pronaći optimalnu strategijup*tako da je p* argmax Vp(st),(s) p Cilj učenja(2)

  14. Funkciju vrijednosti zap* označavamo V*(s). Agent preferira stanje s1 od stanja s2 ako je V*(s1) > V*(s2), no on odabire akcije, ne stanja. Tako je optimalna akcija a ona koja maksimizira zbroj trenutne nagrade i vrijednosti V* sljedećeg stanja s obzirom na faktor g: p*(s)  argmax[r(s,a) + gV*(d(s,a))] a Međutim, ova formula se ne može koristiti zbog nepoznavanja funkcija r i/ili d... Da li radi (ili ne)?

  15. TD metode su klasa metoda koje su uvele revoluciju u RL po načinu na koji ujedinjavaju princip Monte Carlo metoda i Dynamic Programming metoda Dynamic Programming - klasa metoda za rješavanje sekvencijalnih problema odlučivanja a kompozicijskom strukturom cijene (kazne) akcije. Najpoznatije su Bellmanove jednadžbe. Monte Carlo - klasa metoda za učenje vrijednosnih funkcija, koje procjenjuju vrijednosti stanja tako da izvrše veći broj akcija počevši iz tog stanja a zatim izračunaju srednju vrijednost svih nagrada po pokušaju Temporal Difference metode u RL

  16. Definirajmo novu funkciju Q(s,a): Q(s,a) r(s,a) + gV*(d(s,a)) Onda je: p*(s) argmax Q(s,a) a Time cilj učenja više nije doznati funkciju vrijednosti V* nego Q. Rješenje problema  Q-učenje

  17. No pošto učenje funkcije Q odgovara učenju idealne strategije, time odgovara i učenju njene vrijednosne funkcije V*: V*(s) = max Q(s,a’) a’ Sada smo dobili rekurzivnu definiciju Q funkcije: Q(s,a) = r(s,a) + g max Q(s,a’) a’ Ovakva definicija je baza algoritma koji iterativno traži aproksimaciju funkcije . Q-učenje (2)

  18. Za svako stanje s,a inicijaliziraj polje u tablici na 0. Promatraj trenutno stanje s Zauvijek radi: odaberi akciju a i izvrši ju primi trenutnu nagradu r promotri novo stanje s promijeni polje u tablici na sljedeći način: ss’ Algoritam Q-učenja

  19. Može se pokazati da ako vrijedi: 1) sistem je deterministički MDP 2) vrijednosti r funkcije su ograničene konačnom vrijednosti 3) agent odabire akcije tako da beskonačno puta obiđe par stanje-akcija tada konvergira prema . Ovaj algoritam pokazuje kako agent uči, no nismo odgovorili na pitanje: KAKO ODABRATI AKCIJU? Rješenje bi bilo za stanje s odabrati akciju a tako da vrijedi: a = max a’ No, na ovaj način brzo ćemo upasti u lokalno optimalno rješenje dobiveno početnim vrijednostima. Konvergencija algoritma / Odabir akcije

  20. Da bi se izbjeglo upadanje u lokalne optimume u vrijednosnoj funkciji, uvodi se vjerojatnost odabira akcije: Konstanta k utječe na odnos istraživanja i iskorištavanja okoliša koje agent izvodi. Za male k, agent će odabrati akcije koje imaju manju vrijednost, stavljajući naglasak na istraživanje okoliša. Za veće k, agent će odabrati akcije koje imaju većuvrijednost, te pritommaksimalno iskorištavati dosad naučeno. Utu svrhu, agent bi na početku djelovanja trebao koristiti male k i postepeno preći na veće. Uvođenje vjerojatnosti

  21. Pošto algoritam za učenje agenta ne zahtjeva treniranje na optimalnim nizovima akcija, učenje se može izvesti nasumičnim odabirom stanja i akcije te promaranja rezultirajuće nagrade i sljedećeg stanja (sve dok se svaki par ne obiđe beskonačan broj puta!) Poboljšanje se može postići tako da tijekom izvođenja određenog broja akcija bilježimo pripadne nagrade i promjene stanja, a algoritam učenja upotrebimo na niz akcija u suprotnom smjeru od izvedenog. Također druga ideja je da zapamtimo niz stanja-akcija i njihove nagrade, te da treniranje na tom nizu preriodički ponavljamo. Ovo je pogotovo efikasno ako je interna simulacija izvođenja puno brža od realizacije u stvarnom svijetu (npr. kod robotike). Načini poboljšavanja učenja

  22. Kad razdiobe funkcijad i r ovise samo o trenutnom stanju s i akciji a, onda ovakav model sustava nazivamo nedeterministički MDP. Ovakav pristup je potreban kod čestog problema šumova u senzorima i efektorima robotskih sustava. Q funkcija se zato redefinira kao: što daje promijenjeni algoritam Q-učenja: gdje jeanfaktor koji pada s brojem iteracija, tako da su promjene funkcije sve manje (ovo je nužno kako bi se osigurala konvergencija procesa učenja). Nedeterminizam kod Q-učenja

  23. Crites i Barto primijenili su RL-učenje na ovaj problem, na primjeru 4 dizala u zgradi sa 10 katova. Metode dinamičkog programiranja nisu se pokazale dobrima jer sustav ima oko 1022 stanja (svako dizalo ima svoju poziciju, smjer kretanja, brzinu i skup stanja koji određuje na kojem katu ljudi koji su trenutno unutra žele izaći) Primjer - Elevator Dispatching

  24. Uspješnost sustava se mjeri sljedećim faktorima: prosječno vrijeme čekanja (koliko osoba čeka da lift stigne) prosječno sistemsko vrijeme (koliko se osoba vozi u liftu) postotak putnika koji čekaju više od 60 sekundi Crites i Barto koristili su one-step Q-learning uz neke dodatne početne uvjete (o smjeru kretanja, prolasku katova...) Kao nagrada agentu koristi se negativna suma kvadrata vremena čekanja svih putnika zajedno problem: ne zna se koliko putnika čeka na nekom katu, zna se samo da netko čeka rješeno neuronskom mrežom koja predviđa koliko je ljudi na pojedinom katu Složena su 2 sustava: RL1 (svako dizalo ima svoju neuronsku mrežu) i RL2 (sva dizala imaju jednu zajedničku neuronsku mrežu) Elevator Dispatching (2)

  25. Nakon 4 dana učenja na procesoru od 100 mips-a postignuti su sljedeći rezultati: SECTOR - trenutno najkorištenija metoda RL1 i RL2 - one-step Q-learning Elevator Dispatching (3)

  26. U prethodnom algoritmu pratili smo razliku u procjeni samo dva susjedna vremenska trenutka Cilj je izgraditi algoritam koji će razmatrati duže vremenske intervale (više parova stanje-akcija odjednom): TD(l)learning

  27. 1988 Sutton je uveo metodu kombiniranja ovakvih procjena različitih vremenskih pomaka. Ako isto zapišemo rekurzivno, dobivamo potrebni algoritam: Zal=0 dobivamo originalno Q-učenje (koje razmatra samo jedan korak razlike u procjeni funkcije). Povećanjem l algoritam pridaje sve veći značaj budućim aproksimacijama Q vrijednosti. TD(l)learning

  28. Problem: Kako učinkovito iskoristiti širinu frekvencijskog pojasa tako da se na mrežu može priključiti što veći broj mobilnih uređaja? Isti uređaji smiju koristiti istu frekvenciju ako su dovoljno udaljeni da ne smetaju jedan drugome Svaka bazna stanica (ćelija) dobije neke od kanala na korištenje (dio bandwidtha) npr. Ako se želimo spojiti na baznu stanicu koja nema slobodni kanal, poziv je blokiran Cilj: minimizirati broj blokiranih poziva TD learning u praksi - Dynamic Channel Allocation

  29. Poznata rješenja: Fixed Assingment Method (FA) Dynamic Assingment Method (BDCL) tipična mreža ima npr. 49 ćelija sa 70 kanala, što daje 7049 konfiguracija sustava! uzeta je najbolja dinamička metoda "Borrowing with Directional Channel Locking" (BDCL) Reinforced Learning (RL) - TD(0) "nagrada" agentu je broj poziva koji je u nekom trenutku na danoj baznoj stanici Rezultat: Dynamic Channel Allocation (2)

  30. Do sada se pretpostavilo da je ciljna funkcija Q predstavljena dvodimenzionalnim poljem stanje-akcija. To je bilo potrebno za dokaz konvergencije algoritma zbog pretpostavke da će se svaki par stanje-akcija obići beskonačno puta. Problemi ovog pristupa su: agent nije pokušavao induktivno procijeniti Q vrijednosti do tog trenutka neviđenog para stanje-akcija Kartezijev produkt prostora stanja i akcija je vrlo velik u realnim primjenama (npr. samo za šah 101) nemoguće je prikazati kontinuirane ulazne podatke Moguće rješenje je Q funkciju prikazati: neuronskom mrežom s Backpropagation algoritmom stablom odlučivanja LMS algoritmom Generaliziranje iz primjera

  31. Program koji uspješno igra Backgammon na razini svjetskog prvaka Koristi kombinaciju TD (l) učenja s nelinearnom funkcijom aproksimiranom višeslojnom neuronskom mrežom s backpropagation postupkom za TD greške Koristi se 15 bijelih i 15 crnih žetona na 24 lokacije (26 ako se računaju i pozicije “izvan ploče”) Prije svakog poteza, igrači bacaju dve kocke Za tipično bacanje, postoji oko 20 odgovora, što ako uzimamo u obzir i odgovor protivnika daje faktor grananja 20*20 = 400 Zbog toga je nemoguće koristiti EXPECTI-minimax metode, heurističke metode pretraživanja TD-Gammon

  32. Početna pozicija za igru TD-Gammon

  33. U verziji TD-Gammon 0.0, ulazi u neuronsku mrežu su bili kodirani ovako: za svaku poziciju postoje 4 binarna ulaza, ako su dva upaljena, to predstavlja 2 žetona na poziciji. Ako je više od tri žetona, onda su upaljeni svi dok je na 4. ulazu broj dodatnih žetona. 24 pozicije * 4 * 2 (crni i bijeli) = 192 + 2 ulaza za broj “pojedenih” žetona + 2 za žetone koji su došli do kraja i izašli + 2 za potez crnog ili bijelog = 198 TD-Gammon

  34. TD-Gammon 0.0 je nakon 300 000 igra protiv samog sebe pobjedio dotadašnji najbolji pobjednički program Neurogammon, temeljen također na neuronskoj mreži ali bez TD postupka. TD-Gammon

  35. Dakle, ukratko… Reinforcement Learning je učenje iz interakcije s okolišem, iz posljedica akcije, a ne eksplicitno učenje. RL je postao popularan tijekom 90ih unutar strojnog učenja i umjetne inteligencije, ali i u operacijskim istraživanjima, psihologiji i neurologiji. Uglavnom se koriste sustavi opisani kao Markov decision processes (MDPs) tj. sustavi gdje agent pokušava maksimizirati totalnu nagradu koju primi kroz vrijeme. Radi se o postupcima koji iterativno pokušavaju doći do bolje i bolje aproksimacije ciljne strategije. Ovo su metode koje namijenjene pitanju učenja i odlučivanja koje ljudi i životinje susreću u normalnom životu.

  36. S. Singh, P. Norvig, D. Cohn - How to Make Software Agents Do the Right Thing: An Introduction to Reinforcement Learning (http://envy.cs.umass.edu/People/singh/RLMasses/RL.html) Reinforcement Learning Repository, University of Massachusetts, Amherst (http://www-anw.cs.umass.edu/rlr/) R. Sutton, A. Barto - Reinforcement Learning: An Introduction (http://www-anw.cs.umass.edu/~rich/book/the-book.html) S. Russell, P. Norvig - Artificial Intelligence : A Modern Approach T. Mitchell - Machine Learning A. Gosavi - A Master's Thesis in Reinforcement Learning (http://faculty.uscolo.edu/gosavi/rl.html) T. Dietterich - Machine-Learning Research (Four Current Directions) G. Tesauro - Temporal Difference Learning and TD-Gammon R. Williams – Practical Issues in Temporal Difference Learning Literatura

More Related