運動制御機構が複雑なコミュニケーションを可能にする ∼異なる内部シンボルを持つエージェントがコミュニケーションを通じて獲得する外部シンボル∼ ATR脳情報研究所 杉本徳和 シンボルを用いたコミュニケーション シミュレーション 我々をとりまく環境は単一のエージェントでは処理しきれないほ ど膨大な情報を持っている.複数のエージェントがお互いの知 識や経験を共有するコミュニケーション能力がヒトの進化を支え てきたと考えられる. ランダムに初期化 o A = M A (s A ) o B = M B (s B ) sA エージェント間で交換可能なシンボルはどのように生成されるの だろうか?この問題はコミュニケーション能力の 起源を探る上でも重要な問題であり, ロボットに社会性を持たせる為にも避けては通れない. 本研究では運動制御機構が 問題解決の鍵となることを示す. りんご sB xA 先行研究 uA uB TA θA エージェントはお互いにシンボルを送信しあい,世代交代を繰り 返すと他者のシンボルを理解できるエージェントのみが生き残る. しかし外部シンボルは環境の状態に関する情報しか持っていな い. xB TB θB A B zA FA zB FB o ? 敵だ! agent xA ! 1 environment / body ! x = z θ A A A x B = zB θ B T T z& A θ&A , u A = [ FA TA ] T T z&B θ&B , u B = [ FB TB ] n棒の高さに応じた報酬. n強化学習により報酬を最大とする制御則を学習する. n内部シンボルの構造は異なる(35×10,25×10). agent u A uB 離散状態と行動目標 の組み合わせ n外部シンボルの一致率 n約500試行で90%以上一致 外部シンボルの一致率 o : 外部シンボル x A , x B : 環境の状態 u A , u B : 行動 提案手法 協調作業(2人で荷物を持つ等)では,エージェント間には物理 的な相互作用が生じる. 試行数 n累積報酬の変化 観測するシンボルは相手の行動の 予測に有効でなければならない. n送信された外部シンボル に応じて行動選択 o n2つの設定で比較 行動目標 xA 行動目標 uA xB uB rij (x, u) ô とo の差が減少するように x& (t ) 写像Mを更新する † xˆ& ij (t ) µij ( x) fi (x, u) oˆ = M A (sˆ B ) sˆ B uˆ ij = µij (x ) † agent A o = M B (s B ) agent B sB † x (t ) 観測 iˆ(t ), ˆj (t ) = argmin x& † (t ) − xˆ& ij (t ) i, j 2 相手の軌道 試行数 まとめと今後の展開 environment / body x&ˆ ij = f i (x† , uˆ ij ) n実線: 行動目標有り n破線: 行動目標無し 累積報酬 外部シンボルはエージェントの 状態変化を抽象化する. 状態変化 xB ※ MA,MBは内部状態から外部シンボルへの写像 ※立場を交換して同様の更新を行う nエージェントの制御アルゴリズムにMOSAIC理論を実装. n他者の内部シンボルを推定し,外部シンボルを共有. n外部シンボルを用いることで協調作業が効率よく行えた. nどのような情報を外部シンボルに割り当てるか? n相手への要望? n行動の予定?
© Copyright 2024 ExpyDoc