コミュニケーションによる学習の効率化

群の中の個体知能の発達
-コミュニケーションによる学習の効率化-
認知ロボティクス研究室
研究背景
木島康隆
研究目的
・ハードウェア技術の発展
・本研究ではコミュニケーションによる情報共有に着目
・ロボットの身体構造の複雑化
・個体が獲得する情報量の増加による学習の効率化
多センサー・多アクチュエーター
知能の発達
効率化
学習
・学習すべき空間の増大
センサー1
センサー1
次元数の増加
アクチュエータ
コミュニケーション
センサー2
アクチュエータ
他者
身体が複雑になるほど学習に時間がかかる
他者
コミュニケーションによる個体の知能の発達
を促進するシステムの構築
より効率的に学習する必要性
これまでの研究・問題点
・強化学習を適用し,強化学習の各学習手法に
関する情報をコミュニケーションするシステム
を提案.
行為主体者
学習法学習部
学 行動選択手法
習
+
法 行動評価手法
行動選択
行動評価
自己の経験を評価
他者情報を評価
行動:
学習法の選択 m
他者の直面している環境: s
他者の採用する学習法: m
他者の得た報酬: r 
行動学習部
行動選択
コミュニケーションによる他者情報
・N本腕バンディットタスクに適用,提案手法の
有効性を示した.
行動評価
問題点
行動:動きa
環境
s
報酬 r
提案システム概念図
B
A
G
C
S
D
E
max Cost
コミュニケーションによる個体学習の効率化
-有限資源環境における協調と競合-
認知ロボティクス研究室
研究背景
木島康隆
研究目的
・ハードウェア技術の発展によるロボットの身体構造の複雑化
・本研究ではコミュニケーションによる情報共有に着目
・ロボットに要求される動作環境の多様化・タスクの複雑化
・個体が獲得する情報量の増加による学習の効率化
知能の発達
・環境に適した行動を行い,タスクを達成することが求められる
効率化
学習
・機械学習による個体知能の発達
従来研究
・群ロボットの協調行動
・群を用いた個体知能の発達 注目
コミュニケーション
他者
他者
他者の存在が前提であり,他者がまわりにいない場合に学習ができ
ない
他者がいない場合も学習可能で
コミュニケーションによる個体の知能の発達を促進するシステムの構築
これまでの研究・問題点
・強化学習を適用し,強化学習の各学習手法に関する情報を
コミュニケーションするシステムを提案.
行為主体者
学習法学習部
・N本腕バンディットタスクに適用,提案手法の有効性を示した.
行動評価
自己の経験を評価
行動選択
他者情報を評価
行動:
学習法の選択 m
コミュニケーションによる他者情報
他者の直面している環境: s
他者の採用する学習法: m
行動:動きa
学 行動選択手法
習
+
法 行動評価手法
報酬 r
・実環境は資源が有限であり,他者との競合が起きる.
・有限資源環境を考え,その中でのコミュニケーションの有効性について検証
する.
提案システム概念図
配送計画問題への適用
●実験設定
●配送計画問題とは
B
A
G
C
S
・スタート都市からゴール都市
までコストを最小にできる
経路を求める問題である.
E
D
資源: あらゆる利用可能なもの
問題点
行動評価
環境 s
資源が無限の環境
他者の得た報酬: r 
行動学習部
行動選択
・バンディットタスクは無限報酬環境での学習であった.
配送計画問題
●今回考える配送計画問題(実験環境)
・今回は,各都市を結ぶ経路にキャパシティと,コスト
ペナルティを設定する.
キャパシティ: 各枝を通過することのできる個体数の上限(有限資源)
max Capa の範囲内でランダムに設定
コスト: 各枝を通過するために掛かる費用
routeCapa
routeCost  max Cost 
max Capa
ペナルティ: キャパシティを超過していた場合に課せられる
max Capa
からの超過分
・報酬はゴールノードに到達したときに一定値与えられるが実際に
エージェントが得られる報酬は次式で決定する.
Agent Re ward  goal Re ward  (totalCost  totalPenalty)
●実験目的
・個体によって獲得報酬差が出るような環境になっているかを
検証する
・卒業研究で提案した手法の有効性を検証する.
コミュニケーションによる個体学習の効率化
-有限資源環境における協調と競合-
認知ロボティクス研究室
木島康隆
研究目的
研究背景
・学習を用いたロボットの個体知能の発達に関する研究が盛んに行わ
れている
・本研究ではコミュニケーションによる情報共有に着目
・個体が獲得する情報量の増加による学習の効率化
・ロボットの学習には時間が掛かる
知能の発達
ロボットのセンサー,アクチュエーターによる広大な学習空間
から最適な動きを探索する
センサー1
効率化
学習
センサー1
次元数の増加
学習空間の増大
アクチュエータ
センサー2
アクチュエータ
コミュニケーション
他者
他者
・効率的な学習をする必要がある
・ロボット単体が獲得する情報量を増やす
コミュニケーションによる個体の知能の発達を促進するシステムの構築
これまでの研究・問題点
・強化学習を適用し,強化学習の各学習手法に関する情報を
コミュニケーションするシステムを提案.
行為主体者
学習法学習部
・N本腕バンディットタスクに適用,提案手法の有効性を示した.
行動評価
自己の経験を評価
行動選択
他者情報を評価
行動:
学習法の選択 m
コミュニケーションによる他者情報
他者の直面している環境: s
他者の採用する学習法: m
行動:動きa
学 行動選択手法
習
+
法 行動評価手法
報酬 r
提案システム概念図
配送計画問題への適用
●配送計画問題とは
S
D
・有限資源環境を考え,その中でのコミュニケーションの有効性について
検証する.
●実験設定
番号
0
G
C
・実環境は資源が有限であり,他者との競合が起きる.
・行動学習部
B
A
資源: あらゆる利用可能なもの
問題点
行動評価
環境 s
資源が無限の環境
他者の得た報酬: r 
行動学習部
行動選択
・バンディットタスクは無限報酬環境での学習であった.
・スタート都市からゴール都市
までコストを最小にできる
経路を求める問題である.
E
配送計画問題
●今回考える配送計画問題(実験環境)
1
2
行動選択手法
  greedy  a 
softmax法: soft max  a 
追跡手法: pursuit  a 
ε-greedy法:
・学習法学習部
行動選択手法:
行動評価手法

Q学習: Q  learn  Q ,  Q

実験パラメータ設定
  greedy  m 
エージェント数 100
行動回数
自身の経験の更新
10000
Q(m)  Q(m)   m (own Re ward  Q(m))
他者からの情報評価
・今回は,各都市を結ぶ経路にキャパシティと,コスト
ペナルティを設定する.
キャパシティ: 各枝を通過することのできる個体数の上限(有限資源)
max Capa の範囲内でランダムに設定
Q(m)  Q(m)   m (others Re ward  Q(m))
m, m :自身,他者が選択した学習法(番号)
 m ,  m:学習率
●実験結果・考察
コスト: 各枝を通過するために掛かる費用
routeCapa
routeCost  max Cost 
max Capa
・各個体間での差は大きくは無いが
出ているといえる
ペナルティ: キャパシティを超過していた場合に課せられる
・コミュニケーション有りの方が良い
結果が出ている.
max Capa からの超過分
・報酬はゴールノードに到達したときに一定値与えられるが,実際に
エージェントが得られる報酬は次式で決定する.
Agent Re ward  goal Re ward  (totalCost  totalPenalty)
●実験目的
・個体によって獲得報酬差が出るような環境になっているかを検証する
・卒業研究で提案した手法の有効性を検証する.
今後の課題
・個体間でより大きな差の出る有限資源について考察する
現在考えていること: 報酬を有限にする
・コミュニケーションの仕方について考察する
コミュニケーションによる個体学習の効率化
-有限資源環境における協調と競合-
認知ロボティクス研究室
木島康隆
研究目的
研究背景
・学習を用いたロボットの個体知能の発達に関する研究が盛んに行わ
れている
・本研究ではコミュニケーションによる情報共有に着目
・個体が獲得する情報量の増加による学習の効率化
・ロボットの学習には時間が掛かる
知能の発達
ロボットのセンサー,アクチュエーターによる広大な学習空間
から最適な動きを探索する
センサー1
次元数の増加
学習空間の増大
効率化
学習
センサー1
アクチュエータ
センサー2
アクチュエータ
コミュニケーション
他者
他者
・効率的な学習をする必要がある
コミュニケーションによる個体の知能の発達を促進するシステムの構築
・ロボット単体が獲得する情報量を増やす
これまでの研究・問題点
・強化学習を適用し,強化学習の各学習手法に関する情報を
コミュニケーションするシステムを提案.
行為主体者
学習法学習部
・N本腕バンディットタスクに適用,提案手法の有効性を示した.
行動評価
自己の経験を評価
行動選択
他者情報を評価
行動:
学習法の選択 m
他者の直面している環境: s
他者の採用する学習法: m
行動:動きa
行動評価
環境
s
資源が無限の環境
資源: あらゆる利用可能なもの
他者の得た報酬: r 
行動学習部
行動選択
・バンディットタスクは無限報酬環境での学習であった.
コミュニケーションによる他者情報
問題点
学 行動選択手法
習
+
法 行動評価手法
・実環境は資源が有限であり,他者との競合が起きる.
・有限資源環境を考え,その中でのコミュニケーションの有効性について
検証する.
報酬 r
提案システム概念図
配送計画問題への適用
●配送計画問題とは
S
・学習法学習部
行動選択手法 行動評価手法
G
C
使用学習法
・行動学習部
B
A
D
●実験設定
ε-greedy法
・スタート都市からゴール都市
までコストを最小にできる
経路を求める問題である.
softmax法
Q学習
実験パラメータ設定
配送計画問題
●今回考える配送計画問題(実験環境)
・今回は,各都市(ノード)を結ぶ経路にキャパシティと,コスト
ペナルティを設定する.
エージェント数
200
行動回数
10000
都市数
10
最大コスト
30
max Capa からの超過分
・報酬はゴールノードに到達したときに一定値与えられるが,実際に
エージェントが得られる報酬は次式で決定する
Agent Re ward  goal Re ward  (totalCost  totalPenalty)
●実験目的
・個体によって獲得報酬差が出るような環境になっているかを検証する
・卒業研究で提案した手法の有効性を検証する
Total Reward
ペナルティ: キャパシティを超過していた場合に課せられる
・行動回数は各エージェントが1回移動することに相当する.
・エージェントはスタートノードで使用する学習法を決定し,
以降はその学習法に従って,移動経路を学習する.
最大キャパシティ 5
ゴール報酬
・コミュニケーション対象はすべての個体とする.
100
●実験結果・考察
コスト: 各枝を通過するために掛かる費用
routeCapa
routeCost  max Cost 
max Capa
・今回はすべての都市(ノード)が互いにすべての都市と
繋がっているとする.
・ゴールした個体は報酬を受け取り他者に情報を渡した
あと再びスタートからゴールへと向かう.
キャパシティ: 各枝を通過することのできる個体数の上限(有限資源)
max Capa の範囲内でランダムに設定
自身の経験の評価更新: 加重平均手法
他者からの情報評価: 加重平均手法
追跡手法
E
行動選択手法: ε-greedy法
850000
800000
750000
700000
650000
600000
550000
550000
500000
400000
350000
コミュニケーションなし
コミュニケーションあり
・コミュニケーションなしの場合では
獲得報酬量に差が出る個体がいた.
・コミュニケーションを行うことで個体
報酬差がある程度改善された.
・提案手法が有効に作用している.
0 20 40 60 80 100 120 140 160180 200 ・しかし,コミュニケーションが悪影響
Agent ID
する場合もある.
コミュニケーションの有無による総獲得報酬量の比較
今後の課題
・他の有限資源について考察し,環境を構築する
現在考えていること: 報酬を有限にする
・コミュニケーションする情報とその利用の仕方についての考察
コミュニケーションによる個体学習の効率化
-有限資源環境における協調と競合-
認知ロボティクス研究室
木島康隆
研究目的
研究背景
・学習を用いたロボットの個体知能の発達に関する研究が盛んに
行われている.
・本研究ではコミュニケーションによる情報共有に着目
・個体が獲得する情報量の増加による学習の効率化
・ロボットの学習には時間が掛かる
知能の発達
ロボットのセンサー,アクチュエーターによる広大な学習空間
から最適な動きを探索する
センサー1
次元数の増加
効率化
学習
センサー1
アクチュエータ
センサー2
アクチュエータ
コミュニケーション
学習空間の増大
他者
他者
・効率的な学習をする必要がある
コミュニケーションによる個体の知能の発達を促進するシステムの構築
・ロボット単体が獲得する情報量を増やす
これまでの研究・問題点
・強化学習を適用し,強化学習の各学習手法に関する情報を
コミュニケーションするシステムを提案.
行為主体者
学習法学習部
・N本腕バンディットタスクに適用,提案手法の有効性を示した.
行動評価
自己の経験を評価
行動選択
他者情報を評価
行動:
学習法の選択 m
他者の直面している環境: s
他者の採用する学習法: m
行動:動きa
s
資源: あらゆる利用可能なもの
問題点
行動評価
環境
資源が無限の環境
他者の得た報酬: r 
行動学習部
行動選択
・バンディットタスクは無限報酬環境での学習であった.
コミュニケーションによる他者情報
学 行動選択手法
習
+
法 行動評価手法
・実環境は資源が有限であり,他者との競合が起きる.
報酬 r
・有限資源環境を考え,その中でのコミュニケーションの有効性について
検証する.
提案システム概念図
配送計画問題への適用
●配送計画問題とは
S
・学習法学習部
行動選択手法 行動評価手法
G
C
使用学習法
・行動学習部
B
A
D
●実験設定
ε-greedy法
・スタート都市からゴール都市
までコストを最小にできる
経路を求める問題である.
softmax法
Q学習
配送計画問題
●今回考える配送計画問題(実験環境)
・今回は,各都市(ノード)を結ぶ経路にキャパシティ,コスト,ペナルティ
を設定する.
実験パラメータ設定
・今回はすべての都市(ノード)が互いにすべての都市と
繋がっているとする.
エージェント数
200
・行動回数は各エージェントが1回移動することに相当する.
行動回数
10000
都市(ノード)数
10
・エージェントはスタートノードで使用する学習法を決定し,
以降はその学習法に従って,移動経路を学習する.
最大コスト
30
最大キャパシティ 5
ゴール報酬
100
キャパシティ: 各枝を通過することのできる個体数の上限(有限資源)
routeCapa : max Capa の範囲内でランダムに設定
routeCapa からの超過分
・報酬はゴールノードに到達したときに一定値与えられるが,実際に
エージェントが得られる報酬は次式で決定する
Agent Re ward  goal Re ward  (totalCost  totalPenalty)
●実験目的
・個体によって獲得報酬差が出るような環境になっているかを検証する
・卒業研究で提案した手法の有効性を検証する
Total Reward
ペナルティ: キャパシティを超過していた場合に課せられる
・ゴールした個体は報酬を受け取り他者に情報を渡した
あと再びスタートからゴールへと向かう.
・コミュニケーション対象はすべての個体とし,コミュニケー
ション情報は選択学習法と得られた報酬とする.
●実験結果・考察
コスト: 各枝を通過するために掛かる費用
routeCapa
routeCost  max Cost 
max Capa
自身の経験の評価更新: 加重平均手法
他者からの情報評価: 加重平均手法
追跡手法
E
行動選択手法: ε-greedy法
850000
800000
750000
700000
650000
600000
550000
550000
500000
400000
350000
コミュニケーションなし
コミュニケーションあり
・コミュニケーションなしの場合では
獲得報酬量に差が出る個体がいた.
・コミュニケーションを行うことで個体
報酬差がある程度改善された.
・提案手法が有効に作用している.
0 20 40 60 80 100 120 140 160180 200 ・しかし,コミュニケーションが悪影響
Agent ID
する場合もある.
コミュニケーションの有無による総獲得報酬量の比較
今後の課題
・他の有限資源について考察し,環境を構築する
現在考えていること: 報酬を有限にする
・コミュニケーションする情報とその利用の仕方についての考察