130 likes | 307 Views
Metódy adaptívneho kritika. Ján Kašprišin. Osnova prezentácie. Základné pojmy Heuristické dynamické programovanie (HDP) Duálne heuristické programovanie (DHP) Aplikácia: Realizácia Kalmanovho estimátora stavu použitím DHP.
E N D
Metódy adaptívneho kritika Ján Kašprišin
Osnova prezentácie • Základné pojmy • Heuristické dynamické programovanie (HDP) • Duálne heuristické programovanie (DHP) • Aplikácia: Realizácia Kalmanovho estimátora stavu použitím DHP. • Zhodnotenie vhodnosti použitia metódy na riešenie daného problému
Základné pojmy • ACD • optimalizačné metódy • zahŕňajú v sebe výhody RL a dynamického programovania • Základné moduly v ACD • Action • Critic • Model
Základné pojmy • Typy ACD • Heuristické dynamické programovanie (HDP) • Duálne heuristické programovanie (DHP) • Globalizované duálne heuristické programovanie (GDHP) • Action-dependent design (Q-learning)
Heuristické dynamické programovanie • je založené na myšlienke aproximácie riešenia Bellmanovej rovnice • ktorú je možné nahradiť približným vzťahom • kde U je kvadratickým kritériom • funkcia užitočnosti J v zmysle riadenia odpovedá Ljapunovovej funkcii
Heuristické dynamické programovanie • zavedieme si nasledujúce označenie • z Pontryaginovho principu minima vyplíva, že u(k) musí byť také, že platí • na základe čoho je možné odvodiť chybu siete Action
Chyba siete Critic je na základe Bellmanovej rovnice určená ako Základná schéma HDP Heuristické dynamické programovanie
Duálne heuristické programovanie • je založené na diferenciácii Bellmanovej rovnice • chyba siete Action sa získava rovnakým spôsobom ako u (HDP), rozdiel je v získavaní chyby pre sieť Critic • výstupom siete Critic nie je odhad funkcie J, ale priamo jej derivácia • diferenciáciou Bellmanovej rovnice je možné získať žiadanú hodnotu výstupu siete Critic
Realizácia KE použitím DHP • Popis systému • Rovnice Kalmanovho estimátora • Popis duálneho systému
Zhodnotenie výsledkov • Závislosť koeficientov matice K (získaných pomocou DHP) na čase