160 likes | 295 Views
Pastiprinājuma vadītas apmācīšanās problēmu risināšana ar neironu tīklu. Jānis Zuters, 06.08.2012. Ratnieki. Latvijas Universitāte Datorikas fakultāte Mākslīgā intelekta fonds. Pastiprinājuma vadīta apmācīšanās ( Reinforcement learning, RL ). Problēmu, nevis algoritmu kopums
E N D
Pastiprinājuma vadītas apmācīšanās problēmu risināšana ar neironu tīklu Jānis Zuters, 06.08.2012. Ratnieki Latvijas Universitāte Datorikas fakultāte Mākslīgā intelekta fonds
Pastiprinājuma vadīta apmācīšanās(Reinforcement learning, RL) • Problēmu, nevis algoritmu kopums • Stāvokļi -> darbības (states -> actions) • Nav iepriekš zināms, kuras ir pareizās darbības • Tā vietā pastiprinājums – atlīdzības (rewards) katrā solī
Darbības Actions MDP (Markov Decision Process) –RL problēmas formulēšanai Stāvokļi States Pārejas un atlīdzības Transitions and Rewards Politika – problēmas risinājums Policy – solution to a problem
Aģenta mijiedarbība ar vidi –RL pamatideja * A.M. Schaefer, 2008
RL problēmas risināšana Uzraudzītā apmācīšanās Supervised learning eksperts Problēma Problem Politika Policy Aģents Agent Pastiprinājuma vadīta apmācīšanās Reinforcement learning
RL sistēmas funkcijas • Vākt paraugus (pēc noteiktas metodikas pārstaigāt stāvokļus vidē) • Meklēt risinājumu (politiku) • Exploring/exploiting dilemma
Vērtību funkcijas (value function) pieeja RL problēmu risināšanā 10 -10 Vērtību tabula • Dynamic programming • Sarsa • Actor-critic methods
Neironu tīkli RL problēmas risināšanā 10 Neironu tīkls kā vērtību funkcija -10 Neironu tīkls kā pilna RL sistēma A.M. Schaefer, 2008
Vienslāņa neironu tīkls ar RL mehānismu input neurons down right up left
Kāpēc neironu tīkls kā RL problēmas risinātājs • Vairāk atbilst RL būtībai • Potenciāls plašākas problēmu klases aptveršanā, nav obligāti MDP • Potenciāls kļūdu noturībā • Sarežģītāks un grūtāk kontrolējams algoritms
RL izaicinājumi un nepieciešamie apmācīšanās mehānismi • Vēlamo darbību stimulēšanas mehānisms (value function) • Vai atlīdzība ir liela vai maza? (reinforcement comparison, reference rewards) • Stāvokļu telpas pārstaigāšanas nejaušības komponente (exploring) • Skatīšanās vairākus soļus uz priekšu
x 0 0 1 0 0 0 0 0 0 x+ r r+ up right down left w y a x++ s
Izveidotā algoritma spēja risināt RL problēmas • Vēlamo darbību stimulēšanas mehānisms – algoritms strādā “proof of the concept” līmenī. • Vai atlīdzība ir liela vai maza? Tiek lietots lokālais reference reward katram ievadam • Stāvokļu telpas pārstaigāšanas nejaušības komponente – iebūvēta neirona darbināšanas algoritmā • Skatīšanās vairākus soļus uz priekšu – prot skatīties vairākus soļus uz priekšu