1 / 17

Pou žitie prostriedkov výpočtovej inteligencie v riadení autonómnych systémov

Pou žitie prostriedkov výpočtovej inteligencie v riadení autonómnych systémov. Miroslav Hudec. Štruktúra Prezentácie. Reinforcement Learnig - motivácia Triedy RL metód Sekvenčná úloha, oneskorené hodnotenie ACM - HDP prístup ACM založené na ANN, NeuroFuzzy Syst. Aplikácie Tézy.

Download Presentation

Pou žitie prostriedkov výpočtovej inteligencie v riadení autonómnych systémov

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Použitie prostriedkov výpočtovej inteligencie v riadení autonómnych systémov Miroslav Hudec

  2. Štruktúra Prezentácie • Reinforcement Learnig - motivácia • Triedy RL metód • Sekvenčná úloha, oneskorené hodnotenie • ACM - HDP prístup • ACM založené na ANN, NeuroFuzzy Syst. • Aplikácie • Tézy

  3. Definícia učenia z hodnotenia • Zákon účinuku:“Ak odozva na opakujúci sa stimul je kladná (odmena), potom väzba medzi stimulom a odozvou sa postupne zosilňuje, v opačnom prípade väzba postupne zaniká“ • Zákon opakovaného používania: “Požadované správanie je výsledkom častého používania dvojice stimul akcia“

  4. RL učenie • Online (on the fly) učiaci/adaptujúci sa systém • interaguje s prostredím pomocou akcií a príjma od neho stavy prostredia • Pracuje na základe hodnotenia, zvyčajne skalárom resp. vektorom hodnotení • Exploration/exploitation dilema, temporal credit assignment problem

  5. Interakcia s prostredím p

  6. Typy RL učení Sekvenčné RL Asociatívne RL Neasociatívne RL

  7. Linear-Reward Penalty Asociatívna jednotka Selektívna zavádzacia jednotka Asociatívna jednotka odmeny a pokuty Stochastická jednotka s reálnym výstupom Perturbácia váh Metódy pre jednotlivé prístupy TD Q-learning ACM/ACD SARSA

  8. Sekvenčné úlohy • oneskorené hodnotenie - nutný odhad hodnotenia (TD metódy) • Q-learning, Sarsa, R-learning • Aproximátor Hodnotiacej Funkcie - Tabuľka • Actor-Critic Methods (ACM) • Aproximátor hodnotiacej funckcie - ANN, (N)FS

  9. ACM všeobecná schéma

  10. ACM metódy založené na ANN Dopredné ANN zvyčajne s metódou Spätného šírenia chyby (ACD J.P. Werbos) resp. RC ANN ADHDP, ADDHP a GADHDP - plná implementácia na ANN (aktor aj kritik) CMAC siete - na reprezentáciu tabuliek - slabá generalizácia, rýchle

  11. ACM metóda s BP

  12. Úlohy v BP ACM • problém gám • katastrofická interferencia • vkladanie apriori vedomostí (ak sú prístupné) • obtiažna extrakcia pravidiel • všeobecný algoritmus, dobrá generalizácia

  13. ACM založené na FUZZY Sys. (GARIC)

  14. s umelými neurónovými sieťami Riadenie pristavovania výťahov TD Gammon Riadenie satelitov Alokácia rádiových kanálov, učenie taktiky riadených striel smerovanie paketov v počítačových sieťach, detekcia DoS útokov... s neurofuzzy systémami riadenie kotviaceho lana stabilizácia polohy raketoplánu modelovanie pristávania raketoplánu Riadenie toku dát ATM sieťach, riad. inv. pendula Aplikácie

  15. Aplikácie • regulácia státia osoby s použitím Evolučných algoritmov • riadenie invertovaného pendula (systém SANE) • riadenie dvojitého inv. pendula (systém EuSANE)

  16. Souhrnný snímek • Tézy

  17. Tézy • Analýza možností ANN, NFS a GA pri riešení RL úloh • Analýza RL systému typu ACM postaveného na báze ANN, riešenie nedostatkov vyskytujúcich sa v ACM arch. a syntéza vytvorených modifikácií • Experimentálna analýza modifikovanej metódy RL učenia na úlohe typu sekvenčného RL učenia • Vytvorenie metodiky a integrovaného systému pre testovanie RL agentov a realizácia programového prostredia

More Related