1 / 13

UČENIE ODMENOU A TRESTOM

UČENIE ODMENOU A TRESTOM. doc. Ing. Kristína Machová, CSc. k ristina. m achova @tuke.sk people.tuke.sk/kristina.machova/. O SNOVA:. Charakteristika učenia odmenou a trestom Získavanie riadiacich znalostí Reprezentácia a použitie Tabuľkový prístup Proces učenia Q-learning

cara
Download Presentation

UČENIE ODMENOU A TRESTOM

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. UČENIE ODMENOU A TRESTOM doc. Ing. Kristína Machová, CSc. kristina.machova@tuke.sk people.tuke.sk/kristina.machova/

  2. OSNOVA: • Charakteristika učenia odmenou a trestom • Získavanie riadiacich znalostí • Reprezentácia a použitie • Tabuľkový prístup • Proces učenia • Q-learning • Bucket brigade • Hodnotiace poznámky

  3. CHARAKTERISTIKA UČENIA ODMENOU A TRESTOM • Rieši úlohy sekvenčného typu. • Daný je počiatočný a konečný stav v stavovom • priestore. • Hľadá cestu od počiatočného ku koncovému stavu. • Je to nekontrolované učenie. • ReinforcementLearning(RL)– posilňované učenie.

  4. ZÍSKAVANIE RIADIACICH ZNALOSTÍ • Dané: čiastočné znalosti problémovej domény • skúsenosti s prehľadávaním priestoru • Získame: presné rozhodnutie v každom stave • Učenie spočíva vo vylepšovaní rozhodnutia • Rozhodnutia – v mozgu agenta, vo fyzickom svete • Agent počas hľadania generuje vlastné experimenty • – interná odmena • Môže aj sledovať riešenie doménového experta • - externá odmena • Riadiace znalosti môžu byť získané aj vyhodnotením • úspešných (výhry) a neúspešných (prehry, sľučky) ciest

  5. ZÍSKAVANIE RIADIACICH ZNALOSTÍ • Kvalita riešenia sa posudzuje podľa: • Efektívnosti hľadaného riešenia • Spoľahlivosti plánov po realizácii v externom svete • Kvality návrhu • Riešenie sekvenčnej úlohy vyžaduje viac krokov • (informáciu o úspešnosti kroku dostane riešiteľ dlho • po jeho vykonaní). • To vedie k dvom základným istotám v učení: • Priradenie odmeny dobrým rozhodnutiam • Priradenie pokuty zlým rozhodnutiam

  6. ZÍSKAVANIE RIADIACICH ZNALOSTÍ • Jedným z prístupov k získavaniu riadiacich znalostí • je „učenie odmenou a trestom“. • Sústreďuje sa na preferenciu znalostí na výber • operátora pomocou ohodnocovacej funkcie. • Odmena – REWARD sa prideľuje viac žiadaným stavom. • Trest – NEGATIVE REWARD sa prideľuje menej • žiadaným stavom. • Stratégia učenia: priblížiť sa prvým a vyhnúť sa druhým. • Táto stratégia povedie v každom kroku k stavu • s najvyššou odmenou.

  7. REPREZENTÁCIA A POUŽITIE UČENIA ODMENOU A TRESTOM • Reprezentácia: • Pomocou tabuľky • Popisuje páry stav s – akcia a. • Každá bunka tabuľky obsahuje očakávanú odmenu, • reprezentujúcu vhodnosť vykonania akcie v danom stave Použitie: • Pomocou série rozhodnutí je možné prejsť • od počiatočného ku koncovému stavu najkratšou cestou.

  8. TABUĽKOVÝ PRÍSTUP Takúto tabuľku je možné zobraziť ako orientovaný ohodnotený graf, ktorého uzly znázorňujú stavy a hrany akcie. Hrany sú ohodnotené odmenou/trestom. Tento graf sa nazýva stavový priestor.

  9. PROCES UČENIA • Používa sa dopredné reťazenie. To vyžaduje: • Hľadanie tabuľkových vstupov pre aktuálny stav • Výber akcie s najvyšším skóre • Aplikovanie vybratej akcie na dosiahnutie nového stavu • Troj-krokový cyklus sa opakuje kým nie je dosiahnutý • požadovaný stav. • Algoritmus mení - aktualizuje predikovanú odmenu • uchovávanú v tabuľke stavov a akcií na základe skúsenosti. • Najznámejšie aktualizačné schémy sú: • Q – learning • BucketBrigade

  10. Q - LEARNING 0<γ<1 je redukčný faktor 0<β<1 je faktor rýchlosti učenia Q(s,a) je interná odmena s’ je výsledný stav po aplikácii akcie a v stave s r(s,a) je externá odmena (daná učiteľom, apriórna), nemusí byť zadaná každému páru (s,a), najväčšia býva pri konečnom stave U(s’) je maximálna z očakávaných odmien v s’ Pri dostatočnom počte TP aktualizačná schéma konverguje k nasledovnému výrazu:

  11. Q - LEARNING • Pri dostatočnom počte experimentov sa môže • algoritmus premiestniť do najžiadanejšieho stavu • z akéhokoľvek miesta v stavovom priestore. • Učenie je možné urýchliť zmenou faktoru rýchlosti • učenia β (začína sa s veľkou hodnotou pre hrubú • aproximáciu v počiatočnej etape učenia, znižovaním • sa umožní presnejšie ladenie v posledných fázach). • Stratégia Q-learningu je odvodená z metódy • dynamického programovania a Markovovských • procesov

  12. BUCKET BRIGADE • Ak algoritmus aplikuje akciu a v stave s, zníži sa Q(s,a) • o frakciu f.Q(s,a). O tú istú časť sa zvýši odmena • predchádzajúceho stavu. • Prvý stav neodovzdá časť svojej hodnoty nikomu. • Posledný nedostane internú odmenu od nikoho • (jeho zdroj je externá odmena koncového stavu). • Iba niektoré stavy majú priradené externé hodnoty • (hlavne koncové). Interná odmena odráža odhad • žiadanosti akcie a v stave s.

  13. HODNOTIACE POZNÁMKY • Výhody učenia odmenou a trestom: • nepožaduje znalosti o efektívnosti operátorov • dokáže zvládnuť neurčité a zašumené domény • môže spolupracovať s externým svetom • Nevýhody učenia odmenou a trestom: • nízka rýchlosť učenia zvlášť pri dlhých riešiacich cestách • závislosť na postupnom spätnom šírení odmien • pozdĺž hľadanej cesty • riešiteľ úlohy prechádza stavovým priestorom mnohokrát • kým odmeny dosiahnu všetky časti stavového priestoru. Riešením by mohlo byť rozdelenie priestoru na zmysluplné segmenty a oddelené trénovanie učiaceho systému nad každým segmentom.

More Related