Marek Lapko lapko@neuron.tuke.sk Katedra kybernetiky a umelej inteligencie,FEI TU Košice

Marek Lapko lapko@neuron.tuke.sk Katedra kybernetiky a umelej inteligencie,FEI TU Košice Riadenie štvorkolesového vozidla pomocou učenia typu Attention- Gated Reinforcement Learning (AGREL)

Obsah Inteligentné riadenie Inverzné riadenie Riadenie založené na reinforcement učení AGREL Riadená sústava (simulátor) Zhodnotenie experimentov Záver

Inteligentné riadenie Interdisciplinárna vedná oblasť umelá inteligencia, teória riadenia, operačný výskum a počítačová veda Schopnosť zvyšovať svoj výkon, učiť sa v budúcnosti na základe skúsenosti získanej v minulosti spätnou väzbou s prostredím Tri prístupy k IR Neurónové siete, fuzzy systémy, znalostné systémy

Inverzné riadenie Získanie (učenie) inverzného modelu Riadenie inverzným modelom

Inverzné riadenie Vstup s1 až s4 - informácia o tom či koleso šmýka alebo nie v – veľkosť rýchlosti d_BETA - zmenou uhla rýchlosti OMEGA - uhlovou rýchlosťou stav_1 až stav_n - stavy v čase t+1 až t+n Výstup ALFA - otočenie predných kolies v_1 - požadovaná rýchlosť (moment sily na kolesách) b - brzda Y(t) U(t) Y(t+n)

Reinforcement učenie Prírodou inšpirované Základné vlastnosti Systémom pokus -omyl vyberáme akciu tak aby sme dosiahli max. odmenu Aktuálna akcia ovplyvňuje veľkosť budúcich odmien -oneskorená odmena Ďalšie vlastnosti Na výstupe len hodnotenie (pokuta-odmena) Problém či prehľadávať, alebo skúmať Online interakcia s prostredím

AGREL(Attention Gated Reinforcement Learning) • Biologický motivovaná • zmena váh hebbovým pravidlom • Klasifikuje vstupy do tried (WTA vo výstupnej vrstve na základe aktivácií) • Asociatívny algoritmus • mapuje stav na akciu

AGREL AGREL odmena/pokuta NS - otáčanie kritik NS - rýchlosť Akčný zásah stav Vozidlo prostredie

ω v α F Riadená sústava (simulátor) • Dynamika systému → ODE dĺžka 3.5 šírka 2.5 výška 1.0 hmotnosť 1000 hmotnosť kolies 10 maximálna sila 20 trenie na ľade 0,005 trenie suchá vozovka 20

Topológia Celková chyba Rých. Dĺžka traj. Priem. chyba 57-15-10-3 101.4 1.43 1824 10.2 8-45-30-3 59 1.02 1741 5.1 57-45-30-3 108.4 0.92 1669 6.0 Inverzné riadenie - experimenty • Zmena topologie • počet neurónov v skrytých vrstvách • počet očakávaných stavov

Inverzné riadenie - experimenty Topologia 57-15-10-3 Najvyššia rýchlosť1.43 Topologia 57-45-30-3 Najkratšia prejdená trasa 1669

AGREL - experimenty • XOR problém • zmena trestu -1→ -0.1 až -0.5 • Riadenie vozidla • NS -otočenie: odmenená je každá akcia, po ktorej sa vektor rýchlosti otočí smerom k cieľovému bodu, potrestaná opačne • NS -rýchlosť, odmena ak je odmenené otočenie a súčasne sa zvýši rýchlosť, alebo ak nie je odmené otočenie a súčasne sa zníži rýchlosť

AGREL - experimenty 1 NS 2 NS

AGREL – Auto s poruchou Inverzné riadenie Inverzné riadenie a AGREL

AGREL - experimenty

Záver • AGREL vs. Inverzné riadenie • Lepšie inverzné riadenie (na základe prevedených experimentov) • on-line vs. off-line • výhoda on-line pri nepredvídateľných situáciách • Najlepšie výsledky IR +AGREL

Marek Lapko lapko@neuron.tuke.sk Katedra kybernetiky a umelej inteligencie,FEI TU Košice