群の中の個体の知能の発達 - 認知ロボティクス研究室

群の中の個体の知能の発達
室蘭工業大学 情報工学科
認知ロボティクス研究室
木島 康隆
研究背景
ロボット
ロボット
技術の進歩
工場の一画
研究室
単純・変化が少ない
人間が予測可
行動を設計可能

オフィス
家庭
自然環境
複雑・変化が多い
人間が予測不可
行動を設計不可能
ロボットが自律的に環境に合った行動をとり,タスクを達成すること
が求められる
etc.
従来研究のアプローチ



ロボット単体の知能の発達
機械学習の実装
群ロボットの協調行動
分散センシング,物体の運搬
群を使ったロボット単体の知能の発達
競合学習(捕食者・被捕食者の関係)
人間における個体知能の発達
学習
人間B
学習
学習
環境2
人間A
人間C
環境1
環境3
コミュニケーション
コミュニケーションによる情報の交換を行うことで単体での学習より
も効率的に学習
個体が集まり群を形成,コミュニケーションすることで個体の知能の発達が
促進
本研究の目的
群
知能の発達
学習
知能の発達
コミュニケーション
知能の発達
学習
学習
群の中のロボット同士がコミュニケーションを行うことによって
ロボット個体の知能の発達を促すシステムの構築
目指すシステムの概念
ロボット
自己情報
経験情報
他者情報
ロボット
自己情報
行動
ロボット
自己情報
経験情報
経験情報
他者情報
他者情報
行動
コミュニケーション
行動
コミュニケーションによる個体の学習
ロボット
学習
自己情報
他者情報
経験情報
行動
結果
環境
コミュニケーション
コミュニケーションする情報
 学習に着目すると,ロボットは学習法により学習を行う.
 学習法はロボットの直面する環境によって適切なものが
異なる.
 コミュニケーションによって個々の環境に適切な学習法
を学習するのが望ましい.
 今回は学習法をコミュニケーションする情報とし,個々の
環境に適した学習法を学習する.
提案システム:概念図
行為主体者
他の個体からの情報
学習法学習部
直面する環境に
適した学習法を学習
学習法
結果
行動学習部
個々の状況に
適した行動の学習
行動
結果
環境
学習から得られた
情報
提案システム:強化学習を適用した
システム
行為主体者
学習法学習部
行動選択手法
行動評価手法
コミュニケーションによる他者情報
行動:
学習法の選択m
他者の採用する学習法:m’
他者の得た報酬:r’
行動学習部
行動選択手法
行動評価手法
行動:動きa
報酬r
環境
学習法学習部
行為主体者
学習法学習部
行動選択手法
行動評価手法
 mth , comm :学習率( 0   mth  1 ,0   comm  1)
行動:
学習法の選択m
行動評価手法 :
行動学習部
行動選択手法
k :試行回
行動 m :学習手法の選択
報酬 rk :環境からの報酬
行動 m :他者の選択した学習法
報酬 rk :他者が得た報酬
(自己)
行動評価手法
行動:動きa
報酬r
環境


mth
mth




m
Qkmth
m

Q
m


r

Q
mth k 1
1
k
k
(他者→自己)
mth
mth






m
Qkmth
m

Q
m


r

Q
comm
k

1
1
k
k

行動選択手法 :
εグリーディー法

行動学習部
行為主体者
手法
行動評価手法 行動選択手法
学習法学習部
手法1
標本平均手法
手法2
加重平均手法
手法3
Q学習法
手法4
標本平均手法
手法5
加重平均手法 ε-greedy法
手法6
Q学習法
手法7
標本平均手法
手法8
加重平均手法 追跡手法
手法9
Q学習法
行動評価手法
行動選択手法
行動:
学習法の選択m
行動学習部
行動選択手法
行動評価手法
行動:動きa
報酬r
環境
手法10 強化比較法
softmax法
検証実験

実験目的
コミュニケーションすることによって,個々の
エージェントが直面する環境に適した学習法を
選択していることを確認する.

実験対象
非定常N本腕バンディット問題
実験対象:N本腕バンディット問題
N本腕バンディット
・n本の選択可能な腕がある
・腕 i を選択すると,ある確率で当選/落選する
・当選すると報酬 r を得られる
腕番号:当選確率
1:
目的
・得られる報酬を最大にすること
2:
p1
p2
n:
pn
レバーを引く
報酬 r
バンディットの各腕の当選確率
 変動の有無は変動頻度Thに従って確率的に決定
if ( flag  Th) → 確率変動
else → 変動しない
flag :ランダムに決定した実数 0  flag  1
Th :変動頻度 0  Th  1
 確率は変動振幅Ampに従って決定
pi n  pi n  1  Amp(2Rand  1)
pi (n) :n回目試行でのi番目の腕の当たり確率
Amp :変動振幅(変動幅の絶対値) 0  Amp  1
Rnad :ランダムに決定した実数 0  Rand  1
確率変動のイメージ
当たり確率
当たり確率
腕1
腕1
腕2
腕2
腕3
腕3
試行回数
試行回数
Th:小 Amp:小
Th:大 Amp:小
当たり確率
当たり確率
腕1
腕1
腕2
腕2
腕3
腕3
試行回数
Th:小 Amp:大
試行回数
Th:大 Amp:大
タスク環境の設定
各バンディットはマスに
Th
1.0
対応したAmpとThを設定
タスク環境の設定
100分割
Ampの範囲
[0 , 1.0]
Thの範囲
[0 , 1.0]
Amp,Thの分割数
Amp
0
100分割
1.0
100
タスク環境のイメージ
バンディットの腕の当たり確率はThとAmpに依存する
Th
max
min
min
max
Amp
コミュニケーション相手:8近傍
バンディットの設定
10000
台数
腕の数
6
報酬
1
腕番号
項目
腕の初期
確率
1
2
3
4
5
6
0.8
0.61
0.33
0.1
0.01
0.06
エージェント設定
エージェント数
10000体
総試行回数
30000回
コミュニケーション
頻度
1回試行毎
コミュニケーション
対象
自己の周囲8マスに存在するエージェント
コミュニケーション
する情報
コミュニケーション時に自己が
適用していた手法と得られた報酬
エージェントの学習パラメータ
行動学習部 : 行動選択手法
学習法学習部
各種手法
ε‐greedy法
自己の経験の
評価式
他者情報の評
価式
パラメータの値
確
率
的 強化比較法
  0.1
 mth  0.1
 comm  0.01
  0.05
  0.01
追跡手法
  0 .1
ε‐greedy法
  0.1
確
定 softmax法
的
  0.1
行動学習部 : 行動選択手法
加重平均手法
  0.1
  0.08
Q学習法
  0.05
実験結果:選択手法の推移
強化比較法
追跡手法+Q学習法
追跡手法+加重平均手法
追跡手法+標本平均手法
ε‐greedy法+ Q学習法
ε‐greedy法+加重平均手法
ε‐greedy法+標本平均手法
softmax法+Q学習法
softmax法+加重平均手法
試行30000回目
試行20000回目
試行15000回目
試行10000回目
試行5000回目
試行2000回目
試行1000回目
試行500回目
試行0回目
softmax法+標本平均手法
コミュニケーションなしの場合との比較
提案システムとコミュニケーションなしの場合の29000~30000回の間の
平均獲得報酬量の差
考察


試行回数が増加するつれ選択する手法が決まっ
ていく
提案システムの方がコミュニケーションなしの場
合よりも平均獲得報酬量が多い
自身の直面する状況に合った学習法を学習しており,
提案システムが有効であることが検証された.
まとめ


学習手法をコミュニケーション情報として個
体の知能の発達を促進させるシステムを
提案した
非定常環境N本腕バンディット問題を用い
提案システムの有効性を検証した
今後の課題

他のタスクでの実験
実ロボットを用いた実験

より高度なコミュニケーションの考察
情報の処理の仕方をロボット自身が考える
ご清聴ありがとうございました.