170 likes | 246 Views
Pou žitie prostriedkov výpočtovej inteligencie v riadení autonómnych systémov. Miroslav Hudec. Štruktúra Prezentácie. Reinforcement Learnig - motivácia Triedy RL metód Sekvenčná úloha, oneskorené hodnotenie ACM - HDP prístup ACM založené na ANN, NeuroFuzzy Syst. Aplikácie Tézy.
E N D
Použitie prostriedkov výpočtovej inteligencie v riadení autonómnych systémov Miroslav Hudec
Štruktúra Prezentácie • Reinforcement Learnig - motivácia • Triedy RL metód • Sekvenčná úloha, oneskorené hodnotenie • ACM - HDP prístup • ACM založené na ANN, NeuroFuzzy Syst. • Aplikácie • Tézy
Definícia učenia z hodnotenia • Zákon účinuku:“Ak odozva na opakujúci sa stimul je kladná (odmena), potom väzba medzi stimulom a odozvou sa postupne zosilňuje, v opačnom prípade väzba postupne zaniká“ • Zákon opakovaného používania: “Požadované správanie je výsledkom častého používania dvojice stimul akcia“
RL učenie • Online (on the fly) učiaci/adaptujúci sa systém • interaguje s prostredím pomocou akcií a príjma od neho stavy prostredia • Pracuje na základe hodnotenia, zvyčajne skalárom resp. vektorom hodnotení • Exploration/exploitation dilema, temporal credit assignment problem
Typy RL učení Sekvenčné RL Asociatívne RL Neasociatívne RL
Linear-Reward Penalty Asociatívna jednotka Selektívna zavádzacia jednotka Asociatívna jednotka odmeny a pokuty Stochastická jednotka s reálnym výstupom Perturbácia váh Metódy pre jednotlivé prístupy TD Q-learning ACM/ACD SARSA
Sekvenčné úlohy • oneskorené hodnotenie - nutný odhad hodnotenia (TD metódy) • Q-learning, Sarsa, R-learning • Aproximátor Hodnotiacej Funkcie - Tabuľka • Actor-Critic Methods (ACM) • Aproximátor hodnotiacej funckcie - ANN, (N)FS
ACM metódy založené na ANN Dopredné ANN zvyčajne s metódou Spätného šírenia chyby (ACD J.P. Werbos) resp. RC ANN ADHDP, ADDHP a GADHDP - plná implementácia na ANN (aktor aj kritik) CMAC siete - na reprezentáciu tabuliek - slabá generalizácia, rýchle
Úlohy v BP ACM • problém gám • katastrofická interferencia • vkladanie apriori vedomostí (ak sú prístupné) • obtiažna extrakcia pravidiel • všeobecný algoritmus, dobrá generalizácia
s umelými neurónovými sieťami Riadenie pristavovania výťahov TD Gammon Riadenie satelitov Alokácia rádiových kanálov, učenie taktiky riadených striel smerovanie paketov v počítačových sieťach, detekcia DoS útokov... s neurofuzzy systémami riadenie kotviaceho lana stabilizácia polohy raketoplánu modelovanie pristávania raketoplánu Riadenie toku dát ATM sieťach, riad. inv. pendula Aplikácie
Aplikácie • regulácia státia osoby s použitím Evolučných algoritmov • riadenie invertovaného pendula (systém SANE) • riadenie dvojitého inv. pendula (systém EuSANE)
Souhrnný snímek • Tézy
Tézy • Analýza možností ANN, NFS a GA pri riešení RL úloh • Analýza RL systému typu ACM postaveného na báze ANN, riešenie nedostatkov vyskytujúcich sa v ACM arch. a syntéza vytvorených modifikácií • Experimentálna analýza modifikovanej metódy RL učenia na úlohe typu sekvenčného RL učenia • Vytvorenie metodiky a integrovaného systému pre testovanie RL agentov a realizácia programového prostredia