群の中の個体の知能の発達 - 認知ロボティクス研究室

群の中の個体の知能の発達
室蘭工業大学 情報工学科
認知ロボティクス研究室
木島 康隆
背景:ロボットの社会への普及
清掃ロボット「RFS1」
ペットロボット「ネコロ」
留守番ロボット「ロボリア」
普及
社会
背景:普及に伴い発生した要求
ロボット
オフィス
家庭環境
自然環境
etc.
ロボットが直面する環境の多様・複雑化
人間がそれぞれの環境に合わせてロボットの行動を生成するのは不可能
ロボットが環境に合わせて自律的に行動を学習する知能の発達が必要
背景:従来研究のアプローチ
ロボット単体の知能の発達
ロボット
動作決定
機械学習法
動作
環境
身体
動作結果
動作結果
(センサ情報)
背景:人間の学習の仕方
学習
人間B
学習
学習
環境2
人間A
人間C
環境1
環境3
コミュニケーション
コミュニケーションによる情報の交換を行うことで単体での学習より
も効率的に学習
個体が集まり群を形成,コミュニケーションすることで個体の知能の発達が
促進
背景:従来研究の方向性の不足点
ロボット単体の知能の発達に関する研究
他のロボットの経験情報を利用して自己の知能を発達させる
という方向性の研究があまりされていない.
個体の知能の発達に,群による他者情報を利用する研究
の必要がある.
本研究の目的
群
知能の発達
ロボットB
知能の発達
ロボットA
コミュニケーション
知能の発達
ロボットC
群の中のロボット同士がコミュニケーションを行うことによって
ロボット個体の知能の発達を促すシステムの構築
アプローチ:流れ
研究目的
群の中のロボット同士がコミュニケーションを行うことによって
ロボット個体の知能の発達を促すシステムの構築
コミュニケーションする情報を考える.
コミュニケーションの結果得た情報を個体の知能へ反映させる
システムの提案.
アプローチ:コミュニケーションする情報
を考える(1)
 言葉の定義
• 環境 : タスクの種類
• 状況 : 個々のロボットが直面する具体的なタスク
• 身体構造 : ロボットの身体構造
• 身体 : 個々のロボットの身体
 コミュニケーションが有効となる群の条件
• 環境,身体構造が同一であること
アプローチ:コミュニケーションする情報
を考える(2)
 コミュニケーションに有効な情報を分析する
状況・身体 : 個々のロボットに強く依存する
コミュニケーションに不向き
個々のロボットに依存しにくい情報が有効
 コミュニケーションに用いる情報
本研究では学習法をコミュニケーションに用いる情報とする.
アプローチ:群の中の個体の学習
個体の学習
自己の学習
+
他の個体からの情報
他の個体
個体
学習法の
情報
提案システム:概念図
個体の学習
他の個体からの情報
学習法決定部
学習法
結果
学習法実行部
実行
結果
タスク
学習から得られた情報
作成したシステム:提案システムに強化
学習を適用
個体の学習
他の個体からの情報
学習法決定部
学習法
学習から得られた情報
結果
学習法実行部
個体の学習 : 強化学習を適用
他の個体からの情報 : 強化学習で得た経験
実行
結果
タスク
強化学習の概要
環境
ロボット
センサ
環境の状態
ロボットがとった行動により変化
行動選択手法
行動
行動学習手法
報酬
ロボットがとった行動に対する
評価を数値化したもの
環境との相互作用により試行錯誤的に学習する
強化学習の構成
強化学習
行動学習手法
+
行動選択手法
・行動学習手法
実行した行動について環境から受け取った報酬を基に
知識(Q値)を算出する.
・行動選択手法
行動学習手法で算出した知識(Q値)に基づいて次に
実行する行動を選択する.
強化学習:代表的な手法
強化学習
行動学習手法
• 標本平均手法
• 加重平均手法
• Q学習法
+ 行動選択手法
• ε- greedy法
• softmax法
• 追跡手法
例外 : 行動学習・行動選択複合型
• 強化比較法
作成したシステム:提案システムに強化
学習を適用
個体の学習
他の個体からの情報
学習法決定部
学習法
学習から得られた情報
結果
学習法実行部
個体の学習 : 強化学習を適用
他の個体からの情報 : 強化学習で得た経験
実行
結果
タスク
作成したシステム:他者情報を反映した
個体の学習
個体の学習
行動学習手法,行動選択
手法の組を決定
学習法決定部
行動学習手法
行動選択手法
選択した学習法に
より得られた報酬
学習法実行部
選択した学習法を実行
報酬
タスク
他の個体からの情報
行動選択手法・学習手
法の組と得られた報酬
作成したシステム:まとめ
群を反映した学習
ロボット
学習法決定部
学習法決定部
行動選択手法
行動学習手法
報酬
学習法実行部
行動
報酬
タスク
ロボット
行動選択手法・学
習手法の組と得ら
れた報酬
個体固有の学習
行動選択手法
行動学習手法
報酬
学習法実行部
行動
報酬
タスク
作成したシステム:学習法決定部のQ
値決定法(1)
s
a
: 状態
: 行動選択・行動学習手法の組
Q( s, a) : Q値
自己の選択した学習法のQ値の更新式
Q( s, a)  Q( s, a)   (r  Q( s, a))
他者からの情報を反映する自己のQ値の更新式
Qs, a  Qs, a   r  Qs, a
r  :他の個体からの報酬
r
:自己の報酬.

:ステップサイズパラメータ
 :割引率
• 行動選択手法は任意の手法から決定する.
作成したシステム:学習法決定部のQ
値決定法(2)
Q( s, a)  Q( s, a)   (r  Q( s, a))
学習前
a
 r  Q(s, a)
Qs, a 
a
a3 4
a
a1 2
s
s1 s2 s3 s4


学習後
a
r
a
a3 4
a2
a1
s1 s2 s3 s4
r  Qs, a 
Qs, a 
s
作成したシステム:学習法決定部のQ
値決定法(3)
Qs, a  Qs, a   r  Qs, a
Qs, a 
 r   Qs, a 
学習後

a
他者からの情報が自己の
選択したものとが同じ場合
a4
a
a2 3
a1
s1 s2 s3 s4
s
a
s1 s2 s3 s4
Qs, a
 r  Qs, a

他者からの情報が自己
の選択したものとは異な
r
る場合
a
a3 4
a1
r  Qs, a 
r
Qs, a 
他者からの情報
a2

s

r  Qs, a
Qs, a
作成したシステムの検証
本研究では提案手法を用いて,作成したシステムの検証にN本腕
バンディット問題を適用する.
実験1.コミュニケーションなしN本腕バンディット実験
様々な行動選択手法・行動学習手法を試すことでどのような手
法が高い報酬を得るかを調査する.
実験2.コミュニケーションありN本腕バンディット実験
実験1で調査した高い報酬を得る手法がコミュニケーションあり
の学習によって選択されるかどうかを確認する.
実験対象:N本腕バンディット問題
確率
1
0.52
2
0.33
n
レバーを引く
報酬
実験概要(1)
1.コミュニケーションなしN本腕バンディット実験
試行
Agent
人間
Agent
Agent
各種行動選択手法・行動学習手法
実験概要(2)
2.コミュニケーションありN本腕バンディット実験
試行
コミュニケーション
Agent
Agent
最適な行動選択・学習手法
Agent
Agent
学習により
自律的に獲得
実験概要(3)
実験1.コミュニケーションなしN本腕バンディット実験
様々な行動選択手法・行動学習手法を試すことでどのような手
法が高い報酬を得るかを調査する.
実験2.コミュニケーションありN本腕バンディット実験
実験1で調査した高い報酬を得る手法がコミュニケーションあり
の学習によって選択されるかどうかを確認する.
今後の課題
実験:コミュニケーションなしN本腕バンディッ
ト実験
各バンディットの腕の当たり確率はランダム(試行途中変動なし)
1
2
100
グループ1
Agent1
Agent2
Agent
100
手法1
Agent2
Agent
100
手法2
Agent2
Agent
100
手法10
グループ2
Agent1
グループ10
Agent1
手各
法グ
のル
組ー
をプ
割で
り異
当な
てっ
るた
.行
動
選
択
・
行
動
学
習
実験:実験設定(1)
 バンディット設定
台数 : 100
腕数 : 3本/バンディット
当たり確率 : ランダム (試行途中での変動なし)
報酬 : 当たり 1点
はずれ 0点
 エージェント設定
グループ数 : 10グループ
エージェント数 : 100体/グループ
試行回数 : 1000/バンディット
• 各グループ毎にエージェントの100回試行ごとの総報酬を記録する.
実験:実験設定(2)
10のエージェントグループの行動学習手法と行動選択手法の組み合わせ
手法
行動学習手法
手法1
標本平均手法
手法2
加重平均手法
手法3
Q学習法
手法4
標本平均手法
手法5
加重平均手法
手法6
Q学習法
手法7
標本平均手法
手法8
加重平均手法
手法9
Q学習法
手法10
その他:強化比較法
行動選択手法
ε-greedy法
softmax法
追跡手法
実験:実験設定(3)
各種行動選択手法・行動学習手法のパラメータ設定
各種手法
パラメータ設定
ε-greedy法
  0.01
softmax法
  0.24
追跡手法
  0 .1
加重平均手法
Q学習法
強化比較法
  0.1
  0.1
  0 .1
  0.1
  0.08
実験結果(1)
各行動選択・行動学習手法の組における100回試行毎の獲得報酬の推移
75
73
softmax法:標本平均
softmax法:加重平均
softmax法:Q学習
ε-greedy法:標本平均
ε-greedy法:加重平均
ε-greedy法:Q学習
追跡手法:標本平均
追跡手法:加重平均
追跡手法:Q学習
強化比較法
71
獲得報酬
69
67
65
63
61
59
57
55
100
200
300
400
500
600
試行回数
700
800
900
1000
実験結果(2)
各行動選択・行動学習手法の組と総獲得報酬
各行動選択・行動学習手法の組
強化比較法
追跡手法:Q学習
追跡手法:加重平均
追跡手法:標本平均
ε-greedy法:Q学習
ε-greedy法:加重平均
ε-greedy法:標本平均
softmax法:Q学習
softmax法:加重平均
softmax法:標本平均
600
620
640
660
総獲得報酬平均値
680
700
720
考察
各行動選択手法・行動学習手法の組み合わせによって,
学習の効率にばらつきがある.
効率よく学習するためには適切な手法を選択する必要
がある.
まとめ
研究目的
群の中のロボット同士がコミュニケーションを行うことによってロボッ
ト個体の知能の発達を促すシステムの構築
コミュニケーションする情報を定義し,自己の知識に反映するシステ
ムを提案.提案システムに強化学習を適用した.
作成したシステムの有効性を検証するための前実験として,提案手
法実装前のN本腕バンディット実験を実施
今後の課題 N本腕バンディットのコミュニ
ケーション実験(1)
各バンディットの腕の当たり確率はランダム(試行途中変動なし)
2
1
100
試行
コミュニケーション
(選択した行動選択・学習手法
そのときの報酬)
Agent1
Agent2
最適な行動選択・学習手法
Agent
Agent
100
学習により
自律的に獲得
今後の課題 N本腕バンディットのコミュニ
ケーション実験(2)

実験設定
各種学習法パラメータ,バンディット台数,バンディットの腕本数,総試行回数
コミュニケーション無しのN本腕バンディット実験と同一.
• コミュニケーション設定
コミュニケーション頻度 : n回試行毎にコミュニケーションを行う.
コミュニケーション対象 : すべてのエージェント
コミュニケーションする情報 : 行動選択手法・行動学習手法
そのとき獲得した報酬

取得データ
1.各バンディットの100回毎の総獲得報酬の推移.
2.各エージェントでの各種学習手法の選択回数の推移.
研究の流れ
中間発表
 コミュニケーションありN本腕バンディット実験を考案した.
 前実験としてコミュケーション無しN本腕バンディット実験
を行い比較データをとった.
卒研発表
コミュニケーションありN本腕バンディットの実験を実施し,
今回得られた結果と比較,作成したシステムの有効性を検
証する.
さらに実験設定を変更してN本腕バンディット実験を実施す
る.
ご清聴ありがとうございました.