X k

先端論文紹介ゼミ
1
09/10/13
B4 岡本 洋平
紹介論文


“Behavioral task processing for cognitive robots
using artificial emotions”(2009)
Evren Daglarli ,Hakan Temeltas ,Murat Yesiloglu
2
Abstract

本論文では4つのタイヤで制御される、人工感情-認知システ
ムがベースの自律ロボットを提案する。

多目的ロボット、人工感情、認知メカニズムの三つをキー
ワードに、可動ロボットの行動シミュレーションを行う。

行動遷移の推測や学習性能、人工感情による行動の生成を
シミュレーションを通してみていき、その有用性を示す。

実環境での自律ロボットの感情と振る舞いの遷移プロセスは
離散確率状態空間の数学的モデルを用いる。
3
1.Introduction
・感情と認知の必要性

人間が長期で行う行動の計画や決定を行う際、感情の活
性化、脳の認知事象が重要な役割を持っている。

人間の脳の実際の感情や認知は行動の特性を定義する
ために不可欠な機能である。

また、生きていく上で感情の動機づけ(モチベーション)の
効果は、実行中の動作とその活発さの強さを定義する。
人間の感情-認知に基づいた自律ロボットの構築を試みる。
4
1.Introduction
・自律ロボットの感情機能について

感情機能はより人間に近い一般的な振る舞いのパターンを
生成する。

行動の計画は人工の感情制御を介してスケジューリングする。

動作の影響で減ったり増えたりすることで振る舞いに影響を
与える係数、動作利得係数を各動作に割り当てる。
感情的な表現に重みをつけ、動作と関係を持たせる。
5
1.Introduction
・自律ロボットの認知機能(学習、推測、記憶など)について

センサーから得られた情報はSOM(self organization map)に
よって分類。

感情モジュール、行動選択モジュールはHMM(hidden
Markov model)に基づき構築。

ファジィ認知マップ、確率的行動選択を含む、ハイブリッド学習
アルゴリズムがベース

短期的、長期的なタスクの組織化(タスクプランニング)や認知の
機能の実行(学習、推測、記憶など)を実現する。
6
2.Computational cognitive robot control architecture
with artificial emotions paradigm

提案するシステムは以下の三つから構成される。
①行動記憶システム
様々な行動を記憶する
②行動選択モジュール
現在の状態から次の状態を予測し、出力する
③人工感情モジュール
動作利得値により行動選択に影響を与える

最終的に②の推測結果から①内にある行動を組み合
わせ、行動生成を行う。

次のスライドに全体的な図を表す。
7
2.Computational cognitive robot control architecture
with artificial emotions paradigm
8
Fig. 1. Artificial emotion and cognitive-based autonomous robot control architecture
3.Behavior selection module and transition policy
・行動選択モジュールについて

行動選択モジュールは有限オートマトンで表現され
るHMMとして表す。

モチベーションモジュールの影響を受けながら、
エージェントの目標と動機(motive)によって動作レ
ベル(筋肉運動の整合など)を決定する。


行動の優先度(Vk),モジュールの基本パラメータ,
様々な行動などはinstinctual moduleより適宜引
き出す。
Ω={ゴールに向かう、障害物を避ける、まっすぐ進む、さまよ
う(調査する)}とおき、(Ω,F,P)の確率空間を用いる。
Ω:標本空間
F:標本空間の部分集合からなる族
P:確率測度
9
3.Behavior selection module and transition policy
・次の行動の決定について

行動の優先順位は、状態遷移確率行列Aを構
成する状態遷移確率に依存する。
A:式(1)を満たす行動の状態遷移確率
ai,j :iからjに遷移する確率
Xk :現在の行動の状態
Xk+1 :推測された次の状態
Vk+1 :次の優先順位が記述された分散行列
Xk+1 = AXk + Vk+1
(1)
P(Xi,k+1|Xj,k)= ai,j P(Xj,k) (2)
⇒次のスライドで説明
10
3.Behavior selection module and transition policy
・遷移行列Aはそれぞれ重みのある格子状のニュー
ロンで作られる。
・下の図は現在の状態から次の状態が選ばれる過程
を示し、各ニューロンのつながりについて示している。
11
Fig. 5. Behavioral neural network weights with action–situation pairs.
3.Behavior selection module and transition policy
・状態遷移確率行列Aに基づく、行動選択
Fig. 2. Behavioral selection module of coordination level based on HMM
12
4.Core of the artificial emotional system
・人工感情システムについて


人工感情モジュールも有限オートマトンで表現されるHMM
として表す。
観測可能な表現が特定の感情表現に割り当てられている。
C:感情の状態遷移確率
ci,j :iからjに遷移する確率
Yk :現在の観測される感情を表す
Yk+1 :以下のような感情の象徴的なもので表す。
SE={悩む,安心する,積極的である,楽しむ..}
Wk+1 :次の感情の優先順位が記述された分散行列
Yk+1 = CXk + Wk+1
P(Yn,k+1|Xj,k)= cn,j P(Xjk)
cn,j =P(Yn,k+1=fn|Xj,k=ej)
(3)
(4)
(5)
13
4.Core of the artificial emotional system
・状態遷移確率行列Cに基づく、感情選択
14
Fig. 3. Core of emotional system
4.Core of the artificial emotional system
エージェントの構造には短期間と長期間の目標が存在す
る。
 初期の低レベルの行動は短期間のタスクで実行される。
 感情は行動や反応に対し長期間のタスクとして実行される。

Fig. 4. Working
time frame of robots
15
4.Core of the artificial emotional system
・人工感情システムの主な特徴
・状態遷移を繰り返す
⇒モチベーションシステムによる行動の実行の強化
⇒感情に基づく、一連の行動を生成する。
・用いることの利点

人工感情は様々な行動を活性化させる。

人口感情は長い期間の行動を計画し、行動履歴のよう
な自立ロボットの上級記憶を提供する。
16
5.Artificial cognitive model
・認知モデルについて

認知モデルは行動シーケンスを学習するためにSOMベースのQ学習アル
ゴリズムを用いる

Q値はロボットの行動タスクのファジールールで表わされる。

(状態、行動、Q値)はSOMの行動タスクに該当する情報の調査に使われる。

状況とQ値は行動を見つけるために使われる。周りの状況を判断し最善の行
動をとることは入力のQ値+1との最小距離を所持するニューロンによって与
えられる。
Dist =
V:現在の入力ベクトル
(6)
W:各ノードの重みベクトル
Distは現在の入力ベクトルVとノードの重みのベクトルWとの距離である。
最小距離を持つニューロンが選択され、 (状態、行動、Q値)と調和し行動を
実行する。
17
5.Artificial cognitive model

学習に用いられる式
Wは重み、Θは学習率、λは時間定数、
tは現在の時間の刻み、L(t)は勝ちニューロン
TDは誤差、βとγは学習係数、Rは強化行列



学習アルゴリズムはQ値の重みと状況と行動の重みを(9)(10)によって更新。
ニューロンは状況と行動の影響考えながら、選択を実行する。
以下の図が学習のアルゴリズムを示す。
18
Fig. 6. The artificial cognitive model implementation of Q-SOM learning for fuzzy behavioral task processing
6.Motivational model and behavioral gains
・人間にとって“motive”(動機)は確実に素早く物事をこなすために必要なものだとい
える。
・エージェントのモチーブモジュールでは複数の目標タスクの実行する際の、行動利
得係数と表現され使われる。
・motivational energy Eを直接、又はファジィルールに従い変換し、状態遷移確率
Aに移す。
・“motive”による行動活性化利得は行動の状態遷移確率を利用して、行動に刺激を
与えることができる。
19
Fig. 7. Motivational gain effects on artificial emotions.
7.Simulation results



ロボット制御構造における状態遷移確率は同じ時間間隔で観測するこ
とが可能。
時間を変えることで行動は動的に更新され、行動状態は変化する。
Matlabのstate flow toolboxを用いてシミュレーションを行った。
行動選択モジュールの行動遷移
人工感情のシーケンス
20
Fig. 8. Behavioral transitions of behavioral selection module based on HMM
Fig. 9. Sequence of artificiale motions
7.Simulation results
モーターのレスポンス
Fig. 10. Behavioral action motor responses.
学習プロセスにおける二乗誤差
を最小化していく様子
21
Fig. 11. Mean square error of learning process.
7.Simulation results
ロボットの学習性能を人工感情モデルロボットの訓練方法
を変化して比較。
 左図は目標に向かって動作する各ロボットの軌跡を表す。
 右図は二乗誤差の最小化の過程を表す。

22
Fig. 12. Emotional working and training effects of behaviors
7.Simulation results
・感情によって生成された行動シーケンスが異なる

Distress: Wander–head on–obstacle avoid–move to goal-……(w-h-o-m-…)

Aggressive: Wander–obstacle avoid–wander–obstacle avoid-…(w-o-w-o-…)

Relief: Wander–move to goal–wander–move to goal-……(w-m-w-m-…)

Enjoy: Move to goal–Head on-move to goal-head on–……(m-h-m-h-…)
感情の違いにおける目的の達成過程( Distress )
モチベーションゲインの違いによる軌跡の違い
23
Fig. 13. Behavioral sequences and resulting emotional expression
Fig. 14. Behavioral gain effect of motivation factor
8.Conclussions
本論文では感情と動機づけの利得をベースとした自律ロボット
を提案した。
 行動選択モジュールと行動の状態遷移は、隠れマルコフモデ
ルに基づきシミュレーションを行った。
 感情の違いによる行動シーケンスを生成し、その有用性を示
せた。
 モチベーションの変化による細かな行動の変化を示した。
 人工感情のファジィ化による認知システムへの有用性が示せ
た。

24