1 / 16

Marek Lapko lapko@neuron.tuke.sk Katedra kybernetiky a umelej inteligencie,FEI TU Košice

Marek Lapko lapko@neuron.tuke.sk Katedra kybernetiky a umelej inteligencie,FEI TU Košice. Riadenie štvorkolesového vozidla pomocou učenia typu Attention- Gated Reinforcement Learning (AGREL). Obsah. Inteligentné riadenie Inverzné riadenie Riadenie založené na reinforcement učení AGREL

nicola
Download Presentation

Marek Lapko lapko@neuron.tuke.sk Katedra kybernetiky a umelej inteligencie,FEI TU Košice

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Marek Lapko lapko@neuron.tuke.sk Katedra kybernetiky a umelej inteligencie,FEI TU Košice Riadenie štvorkolesového vozidla pomocou učenia typu Attention- Gated Reinforcement Learning (AGREL)

  2. Obsah Inteligentné riadenie Inverzné riadenie Riadenie založené na reinforcement učení AGREL Riadená sústava (simulátor) Zhodnotenie experimentov Záver

  3. Inteligentné riadenie Interdisciplinárna vedná oblasť umelá inteligencia, teória riadenia, operačný výskum a počítačová veda Schopnosť zvyšovať svoj výkon, učiť sa v budúcnosti na základe skúsenosti získanej v minulosti spätnou väzbou s prostredím Tri prístupy k IR Neurónové siete, fuzzy systémy, znalostné systémy

  4. Inverzné riadenie Získanie (učenie) inverzného modelu Riadenie inverzným modelom

  5. Inverzné riadenie Vstup s1 až s4 - informácia o tom či koleso šmýka alebo nie v – veľkosť rýchlosti d_BETA - zmenou uhla rýchlosti OMEGA - uhlovou rýchlosťou stav_1 až stav_n - stavy v čase t+1 až t+n Výstup ALFA - otočenie predných kolies v_1 - požadovaná rýchlosť (moment sily na kolesách) b - brzda Y(t) U(t) Y(t+n)

  6. Reinforcement učenie Prírodou inšpirované Základné vlastnosti Systémom pokus -omyl vyberáme akciu tak aby sme dosiahli max. odmenu Aktuálna akcia ovplyvňuje veľkosť budúcich odmien -oneskorená odmena Ďalšie vlastnosti Na výstupe len hodnotenie (pokuta-odmena) Problém či prehľadávať, alebo skúmať Online interakcia s prostredím

  7. AGREL(Attention Gated Reinforcement Learning) • Biologický motivovaná • zmena váh hebbovým pravidlom • Klasifikuje vstupy do tried (WTA vo výstupnej vrstve na základe aktivácií) • Asociatívny algoritmus • mapuje stav na akciu

  8. AGREL AGREL odmena/pokuta NS - otáčanie kritik NS - rýchlosť Akčný zásah stav Vozidlo prostredie

  9. ω v α F Riadená sústava (simulátor) • Dynamika systému → ODE dĺžka 3.5 šírka 2.5 výška 1.0 hmotnosť 1000 hmotnosť kolies 10 maximálna sila 20 trenie na ľade 0,005 trenie suchá vozovka 20

  10. Topológia Celková chyba Rých. Dĺžka traj. Priem. chyba 57-15-10-3 101.4 1.43 1824 10.2 8-45-30-3 59 1.02 1741 5.1 57-45-30-3 108.4 0.92 1669 6.0 Inverzné riadenie - experimenty • Zmena topologie • počet neurónov v skrytých vrstvách • počet očakávaných stavov

  11. Inverzné riadenie - experimenty Topologia 57-15-10-3 Najvyššia rýchlosť1.43 Topologia 57-45-30-3 Najkratšia prejdená trasa 1669

  12. AGREL - experimenty • XOR problém • zmena trestu -1→ -0.1 až -0.5 • Riadenie vozidla • NS -otočenie: odmenená je každá akcia, po ktorej sa vektor rýchlosti otočí smerom k cieľovému bodu, potrestaná opačne • NS -rýchlosť, odmena ak je odmenené otočenie a súčasne sa zvýši rýchlosť, alebo ak nie je odmené otočenie a súčasne sa zníži rýchlosť

  13. AGREL - experimenty 1 NS 2 NS

  14. AGREL – Auto s poruchou Inverzné riadenie Inverzné riadenie a AGREL

  15. AGREL - experimenty

  16. Záver • AGREL vs. Inverzné riadenie • Lepšie inverzné riadenie (na základe prevedených experimentov) • on-line vs. off-line • výhoda on-line pri nepredvídateľných situáciách • Najlepšie výsledky IR +AGREL

More Related