協調機械システム論

協調機械システム論 (04.12.09，本郷）協調機械システム論東京大学　人工物工学研究センター淺間　一

背景自律分散型ロボットシステム高度な知能を持つロボットシステム多機能化耐故障性・信頼性柔軟性・拡張性作業効率ロボット自体の知能化だけでは技術的限界想定外事象への対応原子力プラント，レスキュー，医療・福祉など創発ロボットシステム適応性

適応機能 背景・動機知的に行動できるロボットシステムの社会ニーズ　　　　　プラント保守，レスキュー，他 • 想定外事象への対応機能 • 知能ロボットの実用化　自律分散化（群化）協調＋創発

Emergent Macro Structure (Macro Function) Local Interaction Model of Emergent System Self-organization of decentralized autonomous systems Boundary condition Constraints

機器システムの適応性

学習 • 学習と進化 • 可塑性(Plasticity) 　　脳には「可塑性（かそせい）」という能力がある．「可塑性」とは，柔らかい粘土に力を加わえた場合のように，変形して元に戻らないという意味で，脳には柔軟性，融通性，可変性があるということである． • 学習手法　　機械学習，統計的パターン認識，人工ニューラルネット（教師あり;supervised）　　　強化学習，遺伝的アルゴリズム（教師無し）

強化学習の概念 探索と知識利用ロボットが回避行動を繰り返し実行することにより　　　　適応的な回避行動を自律的に学習

学習の流れ

行動選択のスコア

回避行動の選択

回避行動の報酬に基づく学習

回避行動の評価

状態認識に用いるパラメータ

学習の収束性

シミュレーション実験

行動選択の階層化

一つの物体を回避するための行動選択

各階層の学習 (a)ゴールへ向かうた　めの行動選択 (b) 一つの障害物を　回避するための行動　選択 (d) センサグループご　との複数物体回避の　ための行動選択 (c) 一台のロボットを　回避するための行動　選択

複数物体回避のための行動選択

強化学習 ・環境から報酬が選択行動に与えられるため，自身や環境についての先見的知識はほぼ不必要・試行錯誤を通じて環境に適応複数ロボット環境：・状態遷移確率と報酬が既知でない・同じ物理的動作が異なった状態変化　　　を引き起こし，学習が進行しないイベント発生毎に意志決定（離散時間系）セミマルコフ決定過程(SMDP)環境に対応したQ学習

確率過程(Stochastic process) • 古典力学における微分方程式現在が決まると未来が決定 • マルコフ過程　確率事象の系列で，各事象の発生が直前の結果のみに依存することを仮定する確率過程 • マルコフ決定過程(Markov Decision Process) 　　離散時間系，１ステップダイナミクス（状態遷移確率は現在の状態（知覚行動対）のみに依存），定常性（状態遷移確率が時間的に定常） • セミマルコフ決定過程(Semi-Markov Decision Process) 　　　意思決定の時間間隔任意（状態変化が生じるまで一定），離散遷移での報酬を積分で与える

SMDP環境に対応したQ学習 学習アルゴリズム（１）環境の状態　を観測（２）行動選択方法に従って行動　を実行（３）イベント（状態遷移）が発生するまで環境から報酬ｒを受け取り続け，割引報酬合計　　を計算（４）イベント（状態遷移）発生後の状態　　を観測（５）以下の更新式によりQ値を更新： αは学習率，γは割引率（　　　　）（６）時間ステップ t を t+N へ進め，（１）へ戻る

行動選択法と報酬 Boltzmann選択: T:温度定数大：ランダム，小：決定的状態 x のとき行動 aを選択する確率 p(a|x): 評価関数 r=E(t)：目標地ロボットロボット障害物（壁）

協調機械システム論

協調機械システム論

Presentation Transcript