1 / 28

Mokymasis

Mokymasis. Mokymosi būdai. Mokymasis su mokytoju Turime duomenų aibę (x1,x2..) ir turime atsakymą y -> rasti f ,kuri geriausiai apskaičiuotų y = f(x1,x2) Mokymasis be mokytojo Turimai aibei (x1,x2) sudaryk projekciją f(x1,x2) į mažesnę erdvę Mokymasis dalinai mokant Sustiprinantis mokymas.

niyati
Download Presentation

Mokymasis

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Mokymasis

  2. Mokymosi būdai • Mokymasis su mokytoju • Turime duomenų aibę (x1,x2..) ir turime atsakymą y -> rasti f ,kuri geriausiai apskaičiuotų y = f(x1,x2) • Mokymasis be mokytojo • Turimai aibei (x1,x2) sudaryk projekciją f(x1,x2) į mažesnę erdvę • Mokymasis dalinai mokant • Sustiprinantis mokymas

  3. Sustiprinantis mokymas • Agentas veikia aplinkoje ir gauna įvertinimą už nuveiktą veiksmą • Problema: kredito priskyrimo problema Agentas Pasaulis Įvertinimas

  4. Palyginimas • Mokymasis su mokytoju: • Turime turėti adekvačių įvedimų ir atsakymų pavyzdžių, kurie nusakyti aplinką, kurioje mes veiksime • Skatinantis mokymas: • elgsena paremtas veikimas. Jis atliekamas per sąveika tarp mokymosi sistemos ir aplinkos, kurioje sistema bando pasiekti nustatytą tikslą.

  5. Sustiprinantis mokymas ir robotika • Naudingas mokantis judėjimo valdymo • Algoritmai: • Q-mokymasis • SARSA mokymasis • TD-lambda • Sunkiai pritaikomas sudėtingiems uždaviniams

  6. Tačiau • Backgammon (liet. Trik-trak) (Tesauro, 1994) • Lifto valdymas (Crites &Barto), 1996 • Sraigtasparnio valdymas (Bagnell & Schneider), 2001 • Daugelio robotų mokymasis (Bowling), 2004

  7. Dinaminis programavimas • Markovo sprendimų procesas: aplinka vystosi tikimybiškai ir apima tam tikrą diskrečių reikšmių aibę • Kiekvienai aplinkos būsenai yra baigtinis pasirinktinų reikšmių skaičius • Kiekvieną kartą atliekant veiksmą įskaičiuojama tam tikra “kaina” • Būsenos peržvelgiamos, veiksmai atliekami, “kaina” apskaičiuojama diskrečiais veiksmais

  8. Būsenų mašina

  9. Esybės • Strategija: funkcija nusakanti koks veiksmas turi būti pasirinktas kiekvienoje būsenoje • Būsenos vertė: suma paskatinimų surinktų startuojant ta būsena ir sekant fiksuota strategija iki baigtinės būsenos • Optimali strategija būtų ta, kuri pasirinktų veiksmus taip, kad maksimizuoti paskatinimų sumą • Vertės funkcija: yra funkcija kuri nusako kokį veiksmą galime pasirinkti ir yra aproksimuojama mums tinkamu aproksimatoriumi (neuroniniais tinklais, atminties sistema, radialinėm bazinėm f-jom, veiksmų lentele)

  10. Atsitiktinė vertės funkcija • Tikslas pasiekti per kuo mažiau laiko vieną iš kampų

  11. Optimali vertės funkcija

  12. Vertės funkcijos suradimas ir sudaro skatinančio mokymo pagrindą

  13. N-rankis banditas • Pasirinkti automatą, kuris duoda didžiausią išlošimą • Žvalgymas – eksplotavimas (Exploration – explotation)

  14. http://brain.cc.kogakuin.ac.jp/~kanamaru/NN/CPRL/

  15. Savaime besiorganizuojantys žemėlapiai

  16. Pavyzdys • Pasaulio šalys ir 39 indikatoriai, nusakantys gyvenimo kokybės faktorius, kaip sveikatą, mitybą, išsilavinimą ir t.t. • Kaip sugrupuoti šias šalis ?

  17. Savaiminė organizacija • Neuroninis tinklas • Konkurentinis mokymasis: • Tik vienas neuronas aktyvuojamas vienu metu • Žemėlapis • Neuronai išdėstomi gardele (plokščia arba eile) • Neuronai pastoviai mokomi reaguoti į įvedimo signalus • Neuronai organizuojasi tam tikra geometrine tvarka

  18.                                                                                           Topologija

  19. Savaiminė organizacija kaip smegenų modelis • Panašu į žmogaus smegenų žievę: • Organizuota tokia tvarka, kad skirtingi sensoriniai signalai patenka į skirtingas žmogaus žievės vietas • Neuronų “žemėlapis” • Pagrindinis blokas sudarant nervų sistemos informacijos apdorojimo struktūrą • Neuronų masyvai yra kaip skirtingai optimizuoti, suderinti procesoriai, skirti atlikti skirtingas užduotis

  20. Smegenų žievės kolonėlė

  21. Pradžia • Willshaw-von der Malsburg modelis, bandantis paaiškinti signalo perdavimą iš ragenos į smegenų žievę • Modelis 2 matavimai -> 2 matavimai

  22. Kohoneno savaime organizuojantys žemėlapiai • Algoritmas: • Initializavimas • Konkurencija • Išrenkamas neuronas nugalėtojas • Bendravimas • Atrenkami aplink “nugalėtoją” esantys neuronai, kaip pagrindas “bendavimui” • Sinaptinė adaptacija • Atrinkti neuronai pamokomi pakeisti savo reikšmes taip, kad labiau atitiktų paduotą pavyzdį

  23. Detaliau • Parenkami pakankamai maži, atsitiktiniai neurono sinapsių svoriai • Atranka: surasti artimiausią neuroną pagal naudojant euklido atstumą • Mokymas: atnaujinti neurono svorius pagal formulė:

  24. Kaimyno funkcija

  25. Etapai • Organizacijos arba tvarkymosi fazė • Gali užimti apie 1000 iteracijų arba daugiau. Surandamos bendros grupės, apytiksliai pasiskirstymai žemėlapyje • turi kisti nuo 0.1 iki 0.01 • pradžiai turi apimti visus neuronus ir tik vėliau mažėti

  26. Etapai • Supanašėjimo fazė • Prisiderinimo, mažesnių pakeitimų fazė • Iteracijų skaičius: mažiausiai 500 * neuronų skaičius tinkle • apie 0.01 • Kaimynų funkcija turi apimti tik artimiausius neuronus

  27. http://www.cis.hut.fi/research/javasomdemo/demo2.html

More Related