H ２１年　９月　１４日生体情報システム工学教育研究分野 M ２　岡本隆志

先端研究論文紹介ゼミ Emulation and Behavior Understanding through SharedValues －共有価値を通した手本と行動理解 H２１年　９月　１４日生体情報システム工学教育研究分野 M２　岡本隆志

もくじ • 概要 • イントロダクション • 実験の準備 • メカニズムの概要 • 実験の結果 • 結論

概要 • 神経生理学は生物の模倣行動に深く関連のあるミラーニューロンの存在を明らかにした。 • ミラーニューロンは自己の目的志向性動作の実行時と、他者の同じ行動を観察する時、類似した活動を示す。 • ミラーニューロンシステムの概念は、行動獲得と他者の意図推論が相互に関連があることを示唆している。 • つまり行動学習モジュールは、行動実行だけでなく他者の行動理解にも利用されているかもしれない。

概要 • 実験では、観測者が既に観測可能な全ての情報（強化学習における状態価値）を獲得している前提で、他者の行動を理解するために新しい方法を提案する。 • その方法は、視点の違いによる視界の差に対処するためのモデルや調整システムを必要としない。 • 本論文では、観測者が座標空間における正確なオブジェクト軌道でなく、行動観測中の価値推定によって他者行動を理解、認識できることを示す。

１　イントロダクション 現実の世界の近年のロボットは、マルチタスクを実行し、マルチエージェント環境での動作に適応し、他者とのインタラクションを通して新たな協調・競合行動を学習することが要求される。強化学習は、シングル・マルチエージェント環境におけるモータ動作学習とロボット行動獲得を学習してきた。しかしながら、それは巨大な探索空間と学習時間のために実環境における動作では、実用的に非現実的である。従って、エージェントは他者からの行動を理解するために、目的を持った行動を学習するそれらの意図を理解する必要があった。

１　イントロダクション 近年では、マルチエージェントの分野で、模倣学習、協調・競合行動の獲得などの、他エージェントの行動の認識、模倣システムの方法に関する多くの研究が行われている。エージェントはセンサや装置からのノイズやパラメータのあらゆる変化に対応しながら、センサ入力を基に、特定のタスクに対して目的を達成する。問題点：状態空間の広さ　運動軌道を完全にはカバーできない解決方法として、エージェントに目的志向性動作を模倣させること　計算モデル：モータマッピング　　　　　　　　　観測系列と自己のモータプログラムの対応付け問題エージェントは目的につながる行動のみを実行模倣には、当事者間で価値を共有し、報酬につながる行動を解釈することが要求される

１　イントロダクション 強化学習では、特定のタスク達成のための適切な行動だけでなく、エージェントが最適方策を取る間、将来受け取る報酬を割り引いた価値も生成する。その報酬の割引された報酬は”状態価値”と呼ばれる。状態価値は、大雑把には特定タスクの目的状態への近さを示す。 →　　　観測エージェントが目的を達成しそうになるというとことを理解するかもしれないことを示唆している。エージェントは観測オブジェクトとの距離や向きといった視覚情報を用いて、価値の差を推定し、単純な模倣だけでなく、意図認識に基づく協調・競合行動を実現できる

２　実験の準備 プレイヤー駆動型ロボットVolksBots2体全方向カメラ搭載オブジェクトオレンジボール青いバケツ黄色い箱基礎行動・・・オブジェクト接近、回転ロボットは各オブジェクトを移動させることで環境やエージェント同士のインタラクションを行う。観察や手本行動など

３　メカニズムの概要 強化学習による行動学習マルコフ過程下でモデル化。状態価値各時間ステップでエージェントは、 ①状態観測　②行動　③報酬取得を行う。エージェントは状態価値を後方伝播しながら、方策を更新する。エージェントは方策πに従って行動決定する。

３　メカニズムの概要 モジュラ学習システム • 　複数のエキスパートモジュールを組み合わせたモジュラ学習システム • 　行動モジュールは一つの目的志向性の行動を担当する • 　行動モジュールは行動の達成時や報酬の受取に、正の報酬を受け取る • 　行動モジュールは次の価値を予測し、価値最大となる行動を選択する • 　ゲートモジュールは行動モジュールの中から一つを選んで出力する

３　メカニズムの概要 推定価値に基づく行動分類観測者は教師行動を観測し、視点の変換を行って位置情報をマップ化する教師と観測者の視点の変換例行動モジュールは、教師の状態価値を推定し、モジュラシステムは価値が増加しているモジュールを選択する

３　メカニズムの概要 推定価値に基づく行動分類離散環境における走行タスク例状態価値の変化による意図推定 • 　エージェントはゴール到達時に報酬を受け取る。 • 　観測者は教師の意図推論に対するロバストな意図認識機構を備える必要がある。 • 　最適方策は複数存在する • 　ある方策がエージェントの行動意図を推定するのに適切であるなら、価値最大でなくとも行動推定に利用されるべきである • 　その状態価値による意図認識は、視点変換の校正誤差に対するロバスト性を持つ可能性がある

３　メカニズムの概要 推定価値に基づく行動分類行動モジュールによる行動の分類各行動モジュールは、観測された教師の推定価値に基づいた状態価値を推定し、行動セレクタに送る。セレクタは状態価値の系列を観察し、教師がその時にとっている行動として状態価値が増加している行動モジュールを選択する。観察された行動は、モジュールの価値が増加している行動に分類される。モジュールが行動を説明するのに妥当であることを意味している

３　メカニズムの概要 推定価値に基づく行動分類信頼度g 行動が分類されるのに合理性を示す指標 β=0.1は更新パラメータ推定値が上昇すると信頼度gが高くなり、下降すると低くなることを示している。０＜g＜１

４　実験の結果 自己の動作、価値、行動環境中には、2体のロボットと黄色い箱と赤いボールロボットは予め表の行動を学習する実験１　赤プレイヤーが黄色い箱に赤い　ボールを押し込むロボットのとる方策が最適であるなら、状態価値は増加し続ける

４　実験の結果 自己の動作、価値、行動ボールに接近箱に接近箱にボールを押す　行動価値他プレイヤーに接近他プレイヤーにボールを押す箱にボールを入れる間の状態価値の推移赤い線が初期段階で上がり、黄色の線が後期段階で上がるように、行動はボール接近と黄色い箱接近から成る。

４　実験の結果 実験２　教師（青プレイヤー）が観察者（赤プレイヤー）へとボールを押す観察行動の分類プレイヤーは観察時、自分の行動レパートリーに基づいて行動を分類する他プレイヤー接近は全体を通して増加傾向にある信頼度は初期値0.5から、予測価値が増加する限り、増加する予測価値信頼度

４　実験の結果 観察行動の手本新たなオブジェクト青いバケツを加えるエージェントには青いバケツに関する知識はない行動観察の手順は以下の通りである１．観察者が教師の行動を観察する２．センサからの位置情報を変換する３．教師の報酬を読み取る４．観測の間に予測した状態の価値として報酬を後方伝播する５．観測行動を手本とし、試行錯誤を通した探索によって価値を更新する

４　実験の結果 観察行動の手本縦軸：状態価値　　横軸：バケツへの距離 ①読み取った報酬 ③修正価値 ②後方伝播価値 ①教師から報酬を受け取る ②報酬の価値を後方伝播することで、状態価値を予測できる ③後方伝播された価値に基づいて、予測価値を更新する • 　予測価値は、物理的制約やセンサ情報の誤りに対して、良い関連付けを与える • 　観測行動の価値を推定した後、観察者はそれ単独で学習を行うことができる。

４　実験の結果 観察行動の手本実験３青プレイヤーはバケツを箱の中に押し込む行動を示し、赤プレイヤーはそれを観察する。青いバケツに関する新しい行動を認識し、分類できるかどうかを確認する観察者（赤）教師（青）

ボールに接近 箱に接近４　実験の結果箱にボールを押す　行動価値他プレイヤーに接近観察行動の手本他プレイヤーにボールを押すバケツを箱に押すバケツに接近予測価値信頼度予測価値は初期段階でバケツに接近し、後半でバケツを箱の方に押す行動の信頼度が増加している。青いバケツに関する情報は未知であるにも関わらず、観察者はその行動を正確に分類できていることを示している。

５　結論 • 　達成すべき目標によって決定される行動の分類として価値は定義されている。 • 　観察者は、他プレイヤーが取る行動の理解のために自身の報酬関数を使用する。→価値の共有 • 　未知の行動もまた、自己報酬関数の項に分類され理解される。 • 　エージェントは各時間ステップで次の行動を選び、その行動は強化学習アルゴリズムによる状態を通して後方伝播された報酬の経験によって選ばれる。 • 　したがって、行動の認識は常に、最も報酬を供給しそうな行動（必ずしも最適方策でない）の選択へとつながる。 • 　選択は、過去の経験によって決定されるプロセスとしての行動の選択を示す。 • 新しい観測行動の場合もまた、行動を実行するロボットは自身の行動レパートリーを使用する。 • 　これは、模倣と行動理解の単純なモデルとして提案される。

H ２１年　９月　１４日生体情報システム工学教育研究分野 M ２　岡本隆志