280 likes | 538 Views
Mokymasis. Mokymosi būdai. Mokymasis su mokytoju Turime duomenų aibę (x1,x2..) ir turime atsakymą y -> rasti f ,kuri geriausiai apskaičiuotų y = f(x1,x2) Mokymasis be mokytojo Turimai aibei (x1,x2) sudaryk projekciją f(x1,x2) į mažesnę erdvę Mokymasis dalinai mokant Sustiprinantis mokymas.
E N D
Mokymosi būdai • Mokymasis su mokytoju • Turime duomenų aibę (x1,x2..) ir turime atsakymą y -> rasti f ,kuri geriausiai apskaičiuotų y = f(x1,x2) • Mokymasis be mokytojo • Turimai aibei (x1,x2) sudaryk projekciją f(x1,x2) į mažesnę erdvę • Mokymasis dalinai mokant • Sustiprinantis mokymas
Sustiprinantis mokymas • Agentas veikia aplinkoje ir gauna įvertinimą už nuveiktą veiksmą • Problema: kredito priskyrimo problema Agentas Pasaulis Įvertinimas
Palyginimas • Mokymasis su mokytoju: • Turime turėti adekvačių įvedimų ir atsakymų pavyzdžių, kurie nusakyti aplinką, kurioje mes veiksime • Skatinantis mokymas: • elgsena paremtas veikimas. Jis atliekamas per sąveika tarp mokymosi sistemos ir aplinkos, kurioje sistema bando pasiekti nustatytą tikslą.
Sustiprinantis mokymas ir robotika • Naudingas mokantis judėjimo valdymo • Algoritmai: • Q-mokymasis • SARSA mokymasis • TD-lambda • Sunkiai pritaikomas sudėtingiems uždaviniams
Tačiau • Backgammon (liet. Trik-trak) (Tesauro, 1994) • Lifto valdymas (Crites &Barto), 1996 • Sraigtasparnio valdymas (Bagnell & Schneider), 2001 • Daugelio robotų mokymasis (Bowling), 2004
Dinaminis programavimas • Markovo sprendimų procesas: aplinka vystosi tikimybiškai ir apima tam tikrą diskrečių reikšmių aibę • Kiekvienai aplinkos būsenai yra baigtinis pasirinktinų reikšmių skaičius • Kiekvieną kartą atliekant veiksmą įskaičiuojama tam tikra “kaina” • Būsenos peržvelgiamos, veiksmai atliekami, “kaina” apskaičiuojama diskrečiais veiksmais
Esybės • Strategija: funkcija nusakanti koks veiksmas turi būti pasirinktas kiekvienoje būsenoje • Būsenos vertė: suma paskatinimų surinktų startuojant ta būsena ir sekant fiksuota strategija iki baigtinės būsenos • Optimali strategija būtų ta, kuri pasirinktų veiksmus taip, kad maksimizuoti paskatinimų sumą • Vertės funkcija: yra funkcija kuri nusako kokį veiksmą galime pasirinkti ir yra aproksimuojama mums tinkamu aproksimatoriumi (neuroniniais tinklais, atminties sistema, radialinėm bazinėm f-jom, veiksmų lentele)
Atsitiktinė vertės funkcija • Tikslas pasiekti per kuo mažiau laiko vieną iš kampų
Vertės funkcijos suradimas ir sudaro skatinančio mokymo pagrindą
N-rankis banditas • Pasirinkti automatą, kuris duoda didžiausią išlošimą • Žvalgymas – eksplotavimas (Exploration – explotation)
Pavyzdys • Pasaulio šalys ir 39 indikatoriai, nusakantys gyvenimo kokybės faktorius, kaip sveikatą, mitybą, išsilavinimą ir t.t. • Kaip sugrupuoti šias šalis ?
Savaiminė organizacija • Neuroninis tinklas • Konkurentinis mokymasis: • Tik vienas neuronas aktyvuojamas vienu metu • Žemėlapis • Neuronai išdėstomi gardele (plokščia arba eile) • Neuronai pastoviai mokomi reaguoti į įvedimo signalus • Neuronai organizuojasi tam tikra geometrine tvarka
Topologija
Savaiminė organizacija kaip smegenų modelis • Panašu į žmogaus smegenų žievę: • Organizuota tokia tvarka, kad skirtingi sensoriniai signalai patenka į skirtingas žmogaus žievės vietas • Neuronų “žemėlapis” • Pagrindinis blokas sudarant nervų sistemos informacijos apdorojimo struktūrą • Neuronų masyvai yra kaip skirtingai optimizuoti, suderinti procesoriai, skirti atlikti skirtingas užduotis
Pradžia • Willshaw-von der Malsburg modelis, bandantis paaiškinti signalo perdavimą iš ragenos į smegenų žievę • Modelis 2 matavimai -> 2 matavimai
Kohoneno savaime organizuojantys žemėlapiai • Algoritmas: • Initializavimas • Konkurencija • Išrenkamas neuronas nugalėtojas • Bendravimas • Atrenkami aplink “nugalėtoją” esantys neuronai, kaip pagrindas “bendavimui” • Sinaptinė adaptacija • Atrinkti neuronai pamokomi pakeisti savo reikšmes taip, kad labiau atitiktų paduotą pavyzdį
Detaliau • Parenkami pakankamai maži, atsitiktiniai neurono sinapsių svoriai • Atranka: surasti artimiausią neuroną pagal naudojant euklido atstumą • Mokymas: atnaujinti neurono svorius pagal formulė:
Etapai • Organizacijos arba tvarkymosi fazė • Gali užimti apie 1000 iteracijų arba daugiau. Surandamos bendros grupės, apytiksliai pasiskirstymai žemėlapyje • turi kisti nuo 0.1 iki 0.01 • pradžiai turi apimti visus neuronus ir tik vėliau mažėti
Etapai • Supanašėjimo fazė • Prisiderinimo, mažesnių pakeitimų fazė • Iteracijų skaičius: mažiausiai 500 * neuronų skaičius tinkle • apie 0.01 • Kaimynų funkcija turi apimti tik artimiausius neuronus