160 likes | 404 Views
Marek Lapko lapko@neuron.tuke.sk Katedra kybernetiky a umelej inteligencie,FEI TU Košice. Riadenie štvorkolesového vozidla pomocou učenia typu Attention- Gated Reinforcement Learning (AGREL). Obsah. Inteligentné riadenie Inverzné riadenie Riadenie založené na reinforcement učení AGREL
E N D
Marek Lapko lapko@neuron.tuke.sk Katedra kybernetiky a umelej inteligencie,FEI TU Košice Riadenie štvorkolesového vozidla pomocou učenia typu Attention- Gated Reinforcement Learning (AGREL)
Obsah Inteligentné riadenie Inverzné riadenie Riadenie založené na reinforcement učení AGREL Riadená sústava (simulátor) Zhodnotenie experimentov Záver
Inteligentné riadenie Interdisciplinárna vedná oblasť umelá inteligencia, teória riadenia, operačný výskum a počítačová veda Schopnosť zvyšovať svoj výkon, učiť sa v budúcnosti na základe skúsenosti získanej v minulosti spätnou väzbou s prostredím Tri prístupy k IR Neurónové siete, fuzzy systémy, znalostné systémy
Inverzné riadenie Získanie (učenie) inverzného modelu Riadenie inverzným modelom
Inverzné riadenie Vstup s1 až s4 - informácia o tom či koleso šmýka alebo nie v – veľkosť rýchlosti d_BETA - zmenou uhla rýchlosti OMEGA - uhlovou rýchlosťou stav_1 až stav_n - stavy v čase t+1 až t+n Výstup ALFA - otočenie predných kolies v_1 - požadovaná rýchlosť (moment sily na kolesách) b - brzda Y(t) U(t) Y(t+n)
Reinforcement učenie Prírodou inšpirované Základné vlastnosti Systémom pokus -omyl vyberáme akciu tak aby sme dosiahli max. odmenu Aktuálna akcia ovplyvňuje veľkosť budúcich odmien -oneskorená odmena Ďalšie vlastnosti Na výstupe len hodnotenie (pokuta-odmena) Problém či prehľadávať, alebo skúmať Online interakcia s prostredím
AGREL(Attention Gated Reinforcement Learning) • Biologický motivovaná • zmena váh hebbovým pravidlom • Klasifikuje vstupy do tried (WTA vo výstupnej vrstve na základe aktivácií) • Asociatívny algoritmus • mapuje stav na akciu
AGREL AGREL odmena/pokuta NS - otáčanie kritik NS - rýchlosť Akčný zásah stav Vozidlo prostredie
ω v α F Riadená sústava (simulátor) • Dynamika systému → ODE dĺžka 3.5 šírka 2.5 výška 1.0 hmotnosť 1000 hmotnosť kolies 10 maximálna sila 20 trenie na ľade 0,005 trenie suchá vozovka 20
Topológia Celková chyba Rých. Dĺžka traj. Priem. chyba 57-15-10-3 101.4 1.43 1824 10.2 8-45-30-3 59 1.02 1741 5.1 57-45-30-3 108.4 0.92 1669 6.0 Inverzné riadenie - experimenty • Zmena topologie • počet neurónov v skrytých vrstvách • počet očakávaných stavov
Inverzné riadenie - experimenty Topologia 57-15-10-3 Najvyššia rýchlosť1.43 Topologia 57-45-30-3 Najkratšia prejdená trasa 1669
AGREL - experimenty • XOR problém • zmena trestu -1→ -0.1 až -0.5 • Riadenie vozidla • NS -otočenie: odmenená je každá akcia, po ktorej sa vektor rýchlosti otočí smerom k cieľovému bodu, potrestaná opačne • NS -rýchlosť, odmena ak je odmenené otočenie a súčasne sa zvýši rýchlosť, alebo ak nie je odmené otočenie a súčasne sa zníži rýchlosť
AGREL - experimenty 1 NS 2 NS
AGREL – Auto s poruchou Inverzné riadenie Inverzné riadenie a AGREL
Záver • AGREL vs. Inverzné riadenie • Lepšie inverzné riadenie (na základe prevedených experimentov) • on-line vs. off-line • výhoda on-line pri nepredvídateľných situáciách • Najlepšie výsledky IR +AGREL