シンボルを用いたコミュニケーション シンボルを用

運動制御機構が複雑なコミュニケーションを可能にする
∼異なる内部シンボルを持つエージェントがコミュニケーションを通じて獲得する外部シンボル∼
ATR脳情報研究所 杉本徳和
シンボルを用いたコミュニケーション
シミュレーション
我々をとりまく環境は単一のエージェントでは処理しきれないほ
ど膨大な情報を持っている.複数のエージェントがお互いの知
識や経験を共有するコミュニケーション能力がヒトの進化を支え
てきたと考えられる.
ランダムに初期化
o A = M A (s A )
o B = M B (s B )
sA
エージェント間で交換可能なシンボルはどのように生成されるの
だろうか?この問題はコミュニケーション能力の
起源を探る上でも重要な問題であり,
ロボットに社会性を持たせる為にも避けては通れない.
本研究では運動制御機構が
問題解決の鍵となることを示す. りんご
sB
xA
先行研究
uA
uB
TA
θA
エージェントはお互いにシンボルを送信しあい,世代交代を繰り
返すと他者のシンボルを理解できるエージェントのみが生き残る.
しかし外部シンボルは環境の状態に関する情報しか持っていな
い.
xB
TB
θB
A
B
zA
FA
zB
FB
o
?
敵だ!
agent
xA
!
1
environment / body
!
x =  z θ
A
 A  A

x B =  zB θ B

T
T
z& A θ&A  , u A = [ FA TA ]
T
T
z&B θ&B  , u B = [ FB TB ]
n棒の高さに応じた報酬.
n強化学習により報酬を最大とする制御則を学習する.
n内部シンボルの構造は異なる(35×10,25×10).
agent
u A uB
離散状態と行動目標
の組み合わせ
n外部シンボルの一致率
n約500試行で90%以上一致
外部シンボルの一致率
o
: 外部シンボル
x A , x B : 環境の状態 u A , u B : 行動 提案手法
協調作業(2人で荷物を持つ等)では,エージェント間には物理
的な相互作用が生じる.
試行数
n累積報酬の変化
観測するシンボルは相手の行動の
予測に有効でなければならない.
n送信された外部シンボル
に応じて行動選択
o
n2つの設定で比較
行動目標
xA
行動目標
uA
xB
uB
rij (x, u)
ô とo の差が減少するように
x& (t )
写像Mを更新する
†
xˆ& ij (t )
µij ( x)
fi (x, u)
oˆ = M A (sˆ B )
sˆ B
uˆ ij = µij (x )
†
agent A
o = M B (s B )
agent B
sB
†
x (t )
観測
iˆ(t ), ˆj (t ) = argmin x& † (t ) − xˆ& ij (t )
i, j
2
相手の軌道
試行数
まとめと今後の展開
environment / body
x&ˆ ij = f i (x† , uˆ ij )
n実線: 行動目標有り
n破線: 行動目標無し
累積報酬
外部シンボルはエージェントの
状態変化を抽象化する.
状態変化
xB
※ MA,MBは内部状態から外部シンボルへの写像
※立場を交換して同様の更新を行う
nエージェントの制御アルゴリズムにMOSAIC理論を実装.
n他者の内部シンボルを推定し,外部シンボルを共有.
n外部シンボルを用いることで協調作業が効率よく行えた.
nどのような情報を外部シンボルに割り当てるか?
n相手への要望?
n行動の予定?