1 / 16

Pastiprinājuma vadītas apmācīšanās problēmu risināšana ar neironu tīklu

Pastiprinājuma vadītas apmācīšanās problēmu risināšana ar neironu tīklu. Jānis Zuters, 06.08.2012. Ratnieki. Latvijas Universitāte Datorikas fakultāte Mākslīgā intelekta fonds. Pastiprinājuma vadīta apmācīšanās ( Reinforcement learning, RL ). Problēmu, nevis algoritmu kopums

kylar
Download Presentation

Pastiprinājuma vadītas apmācīšanās problēmu risināšana ar neironu tīklu

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Pastiprinājuma vadītas apmācīšanās problēmu risināšana ar neironu tīklu Jānis Zuters, 06.08.2012. Ratnieki Latvijas Universitāte Datorikas fakultāte Mākslīgā intelekta fonds

  2. Pastiprinājuma vadīta apmācīšanās(Reinforcement learning, RL) • Problēmu, nevis algoritmu kopums • Stāvokļi -> darbības (states -> actions) • Nav iepriekš zināms, kuras ir pareizās darbības • Tā vietā pastiprinājums – atlīdzības (rewards) katrā solī

  3. Darbības Actions MDP (Markov Decision Process) –RL problēmas formulēšanai Stāvokļi States Pārejas un atlīdzības Transitions and Rewards Politika – problēmas risinājums Policy – solution to a problem

  4. Aģenta mijiedarbība ar vidi –RL pamatideja * A.M. Schaefer, 2008

  5. RL problēmas risināšana Uzraudzītā apmācīšanās Supervised learning eksperts Problēma Problem Politika Policy Aģents Agent Pastiprinājuma vadīta apmācīšanās Reinforcement learning

  6. RL sistēmas funkcijas • Vākt paraugus (pēc noteiktas metodikas pārstaigāt stāvokļus vidē) • Meklēt risinājumu (politiku) • Exploring/exploiting dilemma

  7. Vērtību funkcijas (value function) pieeja RL problēmu risināšanā 10 -10 Vērtību tabula • Dynamic programming • Sarsa • Actor-critic methods

  8. Neironu tīkli RL problēmas risināšanā 10 Neironu tīkls kā vērtību funkcija -10 Neironu tīkls kā pilna RL sistēma A.M. Schaefer, 2008

  9. Vienslāņa neironu tīkls ar RL mehānismu input neurons down right up left

  10. Kāpēc neironu tīkls kā RL problēmas risinātājs • Vairāk atbilst RL būtībai • Potenciāls plašākas problēmu klases aptveršanā, nav obligāti MDP • Potenciāls kļūdu noturībā • Sarežģītāks un grūtāk kontrolējams algoritms

  11. RL izaicinājumi un nepieciešamie apmācīšanās mehānismi • Vēlamo darbību stimulēšanas mehānisms (value function) • Vai atlīdzība ir liela vai maza? (reinforcement comparison, reference rewards) • Stāvokļu telpas pārstaigāšanas nejaušības komponente (exploring) • Skatīšanās vairākus soļus uz priekšu

  12. x 0 0 1 0 0 0 0 0 0 x+ r r+ up right down left w y a x++ s

  13. Tīkla apmācības algoritms

  14. Viena neirona apmācīšana

  15. Izveidotā algoritma spēja risināt RL problēmas • Vēlamo darbību stimulēšanas mehānisms – algoritms strādā “proof of the concept” līmenī. • Vai atlīdzība ir liela vai maza? Tiek lietots lokālais reference reward katram ievadam • Stāvokļu telpas pārstaigāšanas nejaušības komponente – iebūvēta neirona darbināšanas algoritmā • Skatīšanās vairākus soļus uz priekšu – prot skatīties vairākus soļus uz priekšu

  16. Algoritma papildināšana

More Related