Pou žitie prostriedkov výpočtovej inteligencie v riadení autonómnych systémov

Použitie prostriedkov výpočtovej inteligencie v riadení autonómnych systémov Miroslav Hudec

Štruktúra Prezentácie • Reinforcement Learnig - motivácia • Triedy RL metód • Sekvenčná úloha, oneskorené hodnotenie • ACM - HDP prístup • ACM založené na ANN, NeuroFuzzy Syst. • Aplikácie • Tézy

Definícia učenia z hodnotenia • Zákon účinuku:“Ak odozva na opakujúci sa stimul je kladná (odmena), potom väzba medzi stimulom a odozvou sa postupne zosilňuje, v opačnom prípade väzba postupne zaniká“ • Zákon opakovaného používania: “Požadované správanie je výsledkom častého používania dvojice stimul akcia“

RL učenie • Online (on the fly) učiaci/adaptujúci sa systém • interaguje s prostredím pomocou akcií a príjma od neho stavy prostredia • Pracuje na základe hodnotenia, zvyčajne skalárom resp. vektorom hodnotení • Exploration/exploitation dilema, temporal credit assignment problem

Interakcia s prostredím p

Typy RL učení Sekvenčné RL Asociatívne RL Neasociatívne RL

Linear-Reward Penalty Asociatívna jednotka Selektívna zavádzacia jednotka Asociatívna jednotka odmeny a pokuty Stochastická jednotka s reálnym výstupom Perturbácia váh Metódy pre jednotlivé prístupy TD Q-learning ACM/ACD SARSA

Sekvenčné úlohy • oneskorené hodnotenie - nutný odhad hodnotenia (TD metódy) • Q-learning, Sarsa, R-learning • Aproximátor Hodnotiacej Funkcie - Tabuľka • Actor-Critic Methods (ACM) • Aproximátor hodnotiacej funckcie - ANN, (N)FS

ACM všeobecná schéma

ACM metódy založené na ANN Dopredné ANN zvyčajne s metódou Spätného šírenia chyby (ACD J.P. Werbos) resp. RC ANN ADHDP, ADDHP a GADHDP - plná implementácia na ANN (aktor aj kritik) CMAC siete - na reprezentáciu tabuliek - slabá generalizácia, rýchle

ACM metóda s BP

Úlohy v BP ACM • problém gám • katastrofická interferencia • vkladanie apriori vedomostí (ak sú prístupné) • obtiažna extrakcia pravidiel • všeobecný algoritmus, dobrá generalizácia

ACM založené na FUZZY Sys. (GARIC)

s umelými neurónovými sieťami Riadenie pristavovania výťahov TD Gammon Riadenie satelitov Alokácia rádiových kanálov, učenie taktiky riadených striel smerovanie paketov v počítačových sieťach, detekcia DoS útokov... s neurofuzzy systémami riadenie kotviaceho lana stabilizácia polohy raketoplánu modelovanie pristávania raketoplánu Riadenie toku dát ATM sieťach, riad. inv. pendula Aplikácie

Aplikácie • regulácia státia osoby s použitím Evolučných algoritmov • riadenie invertovaného pendula (systém SANE) • riadenie dvojitého inv. pendula (systém EuSANE)

Souhrnný snímek • Tézy

Tézy • Analýza možností ANN, NFS a GA pri riešení RL úloh • Analýza RL systému typu ACM postaveného na báze ANN, riešenie nedostatkov vyskytujúcich sa v ACM arch. a syntéza vytvorených modifikácií • Experimentálna analýza modifikovanej metódy RL učenia na úlohe typu sekvenčného RL učenia • Vytvorenie metodiky a integrovaného systému pre testovanie RL agentov a realizácia programového prostredia

Pou žitie prostriedkov výpočtovej inteligencie v riadení autonómnych systémov