他者知識 - 認知ロボティクス研究室

コミュニケーション相手の取捨選択による
個体知能の効率的発達
室蘭工業大学 工学研究科 情報工学専攻
認知ロボティクス研究室 木島 康隆
社会へのロボットの普及
受付ロボット
掃除ロボット
エンタテイメント
ロボット
ロボットは様々な形で社会の中で活躍
個体から群へ

より便利にロボットが働くために個々のロボット
が連携・協力することが望ましい.
群
連携・協調
連携・協調ロボットの従来研究
自律分散ロボット

連携・協調
タスク
例.物体搬送
分散センシング


連携・協調の手段の1つとしてコミュニケーションが使われる
コミュニケーションの仕方によって連携・協調がうまく行われ
るかが決まる.
コミュニケーション情報を個体の知能の
発達に利用

自律分散システムのコミュニケーション情報の利
用目的
群としてのタスク達成
・コミュニケーションの他の利用目的として
個体の知能の発達に利用
群の中の個体知能の発達
各個体の経験による知識
コミュニケーションによる他者情報
学習に使用
知識
目的
知識
コミュニケーション
目的
知識
目的
単体学習よりも効率的に学習を行うことが可能
問題点
・コミュニケーション相手は設計者が設定している
・コミュニケーション相手の設定の仕方によって学習に悪影響を
与える可能性がある
・ロボットが自律的にコミュニケーション相手を選択することが望ましい
研究目的
コミュニケーション
しない
コミュニケーションする
効率的な個体発達のためのコミュニケーション相手を取捨選択する
システムの構築
アプローチ
評価値
評価値
評価値
情報
結果から他者を評価
情報
情報
結果
行動
アプローチ:他者評価までの流れ

コミュニケーション相手の選択

コミュニケーション

行動し結果を得る

結果から他者評価
アプローチ:コミュニケーション相手の選
択
評価値
評価値
評価値
自身の他者に対する評価を基に
コミュニケーション相手を決定
アプローチ:コミュニケーション
評価値
コミュニケーション
情報
情報
評価値
評価値
アプローチ:自身の知識と他者の情報を基に
行動
自身の知識と他者からの情報を
基に行動する
情報
情報
行動知識
行動
環境
結果
アプローチ:結果から自身の知識更新
評価値
評価値
行動知識
結果から
行動知識
を更新
結果から他者
の評価値を更新
結果
提案する手法の概念図
エージェント
他者選択学習部
学習機構
他者知識
情報要求
他のエージェント
他者選択
行動学習部
学習機構
行動知識
行動選択
行動
結果
環境
強化学習を適用した提案システム

本研究では強化学習を用いて提案システムを構築する
エージ ェン ト
提案学習手法
他者学習
他者知識
情報要求
他のエージ ェン ト
他者選択
提
報
情
強化学習
行動学習
行動知識
行動選択
行動
報酬
環境
供
本発表で紹介する手法
本研究では以下の2種類の環境に対して
それぞれ手法を考案した

即時報酬環境に対する手法

遅延報酬環境に対する手法
説明の流れ

行動学習部
・コミュニケーションに用いる情報
・行動選択方法
・行動学習方法

他者選択学習部
・他者の選択方法
・他者の評価方法
行動学習部
エージェント
他者選択学習部
学習機構
他者知識
情報要求
他のエージェント
他者選択
行動学習部
学習機構
行動知識
Q ( s, a )
a
行動選択
a4
a3
行動
報酬
a2
a1
環境
s1
s2
s3
s4
行動知識
s5
s
コミュニケーションに用いる情報
・行為主体者→他者
現在状態 s
行為主体者
他者
s
Qs, abest   max Qs, a 
a
状態 s
abest
・他者→行為主体者
状態 s における
・自身の最適行動 abest
・評価値 Q(s, abest )
・他者情報は意思決定のときに
使われる
行動選択方法
・行動選択
・自身の知識と他者の情報を一時的に融合
行為主体者
他者
n
Qtmp st , at   Qown st , at    tmpQ  Q j st , abest 
Qown ( s, a)
Qother ( s, a)
a
a
jM
a4
a4
a3
a3
a2
a1
s1
M  コミュニケーションし
a2
s2
s3
s4
a1
s
s5
s1
s2
s3
s4
s5
s
た相手
 tmpQ : 学習率 0   tmpQ  1
一時的に融合
Qtmp ( s, a )
a
a4
・選択手法:ε-greedy法
a3
a2
a1
s1
s2
s3
s4
s5
s
基本的に最も高い評価値の行動を選択
確率εでランダムに選択
行動学習方法
・Q学習


Qi st , at   Qi st , at    act rt 1   act max Qi (st , a)  Qi st , at 
a
Q( st , at ) : Q値; 状態 s t において行動 at をとることの価値を表す.
st
: 時刻tにおける状態.
at
: 時刻tにおいてエージェントの選択した行動.
a
: 次の状態において選択可能な行動.
rt 1 : 選択した行動に対し与えられた報酬
α : 学習率,γ: 割引率
他者選択学習部
エージェント
他者選択学習部
学習機構
他者知識
情報要求
他のエージェント
他者選択
行動学習部
学習機構
行動知識
評価V
行動選択
行動
報酬
ID
環境
1
2 3
他者知識
他者の選択方法
・最も高い評価をもつエージェントを基準としてコミュニケーションするか
どうかを全ての他者について確率的に決定する
Vi ( j )
Pi ( j ) 
Vi _ max
(i  j )
評価V
Vi _ max  max Vi (k )
k
max Vi (k ) : エージェントの中で
k
最大の評価値
Pi ( j ) : 個体iの個体 jに対する選択確率
Vi ( j ) : 個体iの個体 jに対する評価値
ID
1
2 3
他者知識
他者の評価方法:流れ



自身が報酬を入手するまでの他者情報の採用
状況を記録(どの個体の情報を基に行動したか)
自身が報酬を入手した時点から過去に遡って他
者の評価を行う
他者の評価は採用記録を基に行う
他者の評価方法:他者情報の採用
・他者の情報を採用したかどうかを保存しておく
時間
コ ミュニケーシ ョン相手
t 2
情報
t 1
ID1
ID1
ID 2
ID2
採用
採用
ID 2
ID2
採用
情報 Qst1 , a1  Qst1 , a3 
ID1
ID1
採用
情報
ID 4
ID4
Qst , a1  Qst , a1  Qst , a2  Qst , a3 
ID1
ID1
t
ID3
ID3
行為主体者
ID 2
ID2
ID3
ID3
a1
行動
a3
行動
a2
行動
ID 4
ID4
Qst1 , a2  Qst1 , a1 
ID3
ID3
ID 0
ID0
ID 4
ID4
採用
Qst2 , a2  Qst2 , a1  Qst2 , a2  Qst2 , a4 
他者の評価方法:他者情報の採用の記録
行為主体者 i の他者情報採用記録の例
他者
CommLog i (1)
Log t 2
Log t 1
Log t
1
0
1
・行為主体者 i の他者 j に対する記録
CommLogi  j   Log1
CommLog i (2)
CommLog i (3)
CommLog i (4)
1
1
Log 2  Log t 
0
0
0
1
0
0
0
1 (コミュニケーションし情報を採用した場合)
Log t  
0 (コミュニケーションしていない,または
情報を採用していない場合)
他者の評価方法:評価式
・より直近に採用した個体程重みをつけて評価する
報酬に近い状態で採用した情報ほど有益
・行為主体者 i の他者 j に対する評価 Vi  j の更新式
 ri  CommLog i  j  

Vi  j   Vi  j    V 
 Vi  j 
A
(
j
)
i



  V
t 1
V
t 2
 V
CommLogi  j   Log1

1

Log 2  Log t 
Ai  j  : 行為主体者 iが他者 jを採用した回数
 V : 学習率 0   V  1
ri : 行為主体者 iが得た報酬
 V : 割引率 0   V  1
1 (コミュニケーションし情報を採用した場合)
Log t  
0 (コミュニケーションしていない,または
情報を採用していない場合)
検証実験:概要

実験目的
コミュニケーション相手の取捨選択によって学習が効率的に
行われていることを検証する

実験対象
迷路問題(多ゴール)
実社会では全ての個体が同じ目的であることは
少ない.
検証実験:迷路タスクに適用
・各個体はランダムに
ゴールを設定
S
エージェントはそれぞれ
異なる目的をもつ
・一定ステップごとに最も古い
個体と新しい個体を入れ替え
熟達者と初心者が混在する
・報酬はゴール時に獲得
G2
G1
G3
・コミュニケーションは d 行動
毎に行う
実験設定:個体の循環
・個体上限数 M まで
迷路環境
c ステップ毎
追加
・個体上限数 M に達すると
c ステップ毎
迷路環境
追加
・1個体の寿命: L  M  c ステップ
実験パラメータ
迷路環境に関する設定
学習パラメータ設定
0.1
迷路の大きさ
21×21
他者評価初期値
スタート数
1
行動知識(Q値)初期値 0
ゴール数
3
ゴール報酬
1
エージェント数・試行回数設定
エージェント数
50
総ステップ数
600000
循環ステップ数
3000
コミュニケーション
頻度 d
1

V
V
0.05
 act
0.8
 act
0.5
 tmpQ
0.5
0.9
0.01
・1個体の寿命
L  50  3000  150000 ステップ
結果:1個体あたりの生涯獲得報酬の平均
1個体あたりの生涯獲得報酬の平均
2000
1500
1000
500
ー
シ
ョン
ー
シ
ョン
比較手法
ケ
ニ
ミュ
コ
個
て
の
全
ラ
ン
ダ
ム
体
に
コ
と
コ
ミュ
ミュ
ニ
ニ
ケ
ケ
ー
シ
ョン
法
手
案
し
な
い
0
提
生涯獲得報酬の平均
2500
結果:群全体での生涯獲得報酬の総和
35000
コミュニケーション相手を取捨選択
(提案手法)
30000
群全体の生涯獲得報酬総和
ランダムにコミュニケーション
25000
全ての個体とコミュニケーション
コミュニケーションなし
20000
15000
10000
5000
0
0
20
40
60
80
世代数
100
120
140
考察
・提案手法が他の手法よりも多くの報酬を獲得している
提案手法によって学習を効率的に行っている
提案手法を用いることでより少ない学習時間で学習を行うことが可能
・提案手法は世代数が少ないときでも多くの報酬を獲得している
コミュニケーション個体の取捨選択によって悪影響のある情報を
取り込みにくくなる
スムーズに学習することができる
まとめ


コミュニケーション個体の取捨選択を行い効
率適に学習を行うシステムを提案
迷路問題に適用し提案手法の有効性を確認
これからの課題

他タスクでの実験
群として活動するが,個々の個体の成長が重
要なタスク
・ロボットサッカー
・ロボットレスキュー

報酬以外の他者を評価する要素の考察
ご清聴ありがとうございました