1 - 高知大学 理学部 情報科学教室

マルチエージェント強化学習による
協調性獲得の検証
―追跡問題を例として―
理学研究科 博士前期課程 2年
本田研究室
櫻井 祐輔
研究の背景
• 近年,ネットワークやシステムの大規模化・複
雑化が進んでいる
• それに伴い,分散処理・並列処理という観点
からマルチエージェントシステムの応用が期
待されている
2
マルチエージェント(システム)とは
• 複数の自律的に行動するエージェントで構成される
システム
• エージェントが互いに協調しあうことで,問題解決能
力の向上や処理の高速化が望める
• 扱う問題が複雑になるほど協調動作の実装が難し
い
実装方法として強化学習が有効な手段
強化学習(Reinforcement Learning)
• 強化学習とは
– 試行錯誤を繰り返すことで環境に適応していく学習法
– 報酬を頼りに行動戦略を改善することで学習
環境E
状態s
行動a
報酬r
環境E
状態s’
報酬r’
行動a’
・・・
Agent(戦略A)
Agent(戦略A’)
目標
強化学習の問題点
• 学習結果が関数など人間にとって理解
しにくい形をしている
• マルチエージェント問題で得られた行動
の協調性の検討が必要
本研究の目的
• マルチエージェント問題に対する強化学習の
効果を協調性に着目して評価する
– 追跡問題を例に
– 捕獲直前の状態に対してエージェントが獲得した
行動を抽出し,協調性を評価
• 異なる学習アルゴリズムによる協調動作の
獲得傾向の違いを見る
– Q-LearningとProfit Sharingを使用
Q-Learningの学習アルゴリズム
Q値と呼ばれる行動価値関数Q(s,a)を逐次更新する
[Watkins,1992]
Q値の更新式:
Q ( s t , a t ) ← Q ( s t , a t ) + α[ rt+1 + γmax Q ( s t + 1 , a ) - Q ( s t , a t )]
a
α=1
rt + 1
αの割合で
近づける
未来の報酬の近似値
α=0
α : 学習率 , γ :割引率(いずれも
遷移先の状態で最大の
γ maxQ( st +1 , a)
a
Q ( st , a t )
状態 s t
at
他の選択可能な行動
[ 0 ,1 ])
max Q( s
t +1
, a)
a
状態 s t +1
報酬 rt + 1
Q値を推定
a = arg max Q( st +1 , a )
a
他の選択可能な行動
Q(λ)の学習アルゴリズム
Q-Learningに適格度トレースを組み合わせた手法
Q値の更新式:
Q( st , at ) ← Q( st , at ) +α[rt+1 +γmaxQ( st +1 , a ) - Q( st , at )]
a
強化値をγλ(0≦λ≦1)で減衰しながら過去の全てのQ値を
一括強化
強化量
Q
t−3
Q(λ)
( γ λ) 3 倍
t−3
t−2
t −1
(γ λ) 2 倍
t−2
t
λの値が大きいほど
時刻
過去への伝播量が大きく
より遠くの過去へ伝播
t +1
γ λ倍
t −1
時刻
t
t +1
Profit Sharingの学習アルゴリズム
報酬を獲得した時に全てのルールの重みを一括強化
[Grefenstette,88]
z
x
x a
y
ルール
xa
yb
zb
xa
ya
ルール
の重み
F ( xa )
F ( yb)
F (zb )
F ( xa )
F ( ya )
状態
行動
b
b
f
f
3
f
f
f
0
R
強化値
1
fi =
f i − 1 , i = 1, 2 ,..., W − 1 . f 0 = R [宮崎 94]
M
M : 行動数
W : 報酬獲得までのステッ プ数
y a
a
報
酬
1
2
4
時間
追跡問題
•
ハンター(hunter)が獲物(target)を追跡・捕獲する問題
2
l × l のグリッド環境
( l = 15 )
辺で隣接したら捕獲
行動 = {上,下,左,右,停滞}
視野:{周囲8方向+視野外}の9通り
対獲物の視野:周囲7マス
対ハンターの視野:周囲1マス
1
■:ハンター,■:獲物
獲物ともう一方のハンターの位置の組
み合わせ81通りの状態を知覚
実験条件
項目
内容
問題
追跡問題(ハンター数2,獲物の数1)
学習アルゴリズム
Q(λ),λ=0,0.5,0.9
Profit Sharing
報酬
Q(λ):捕獲時に0,それ以外は-1
Profit Sharing:捕獲時に100
試行回数
100回
学習結果の例1
学習結果の例2
獲得した協調動作の例
獲得した協調動作の例
獲物を右側に各ハンターと獲物が
横一直線に並んだ状態を例に
2
譲り合い
待ち伏せ
挟み撃ち
追従
1
■:ハンター,■:獲物
各動作の獲得率(%)
赤:譲り合い
緑:待ち伏せ
黄色:挟み撃ち
水色:追従
譲り合いの獲得率が最も高く
追従の獲得率がもっとも低い
協調動作全体の獲得率
100
各行動対の獲得率(%)
90
挟み撃ち
80
70
待ち伏せ
60
50
40
追従
30
20
譲り合い
10
0
Q(0)
Q(0.5)
Q(0.9)
学習アルゴリズム
Profit
Sharing
捕獲ステップ数との比較
学習アルゴリズム
協調行動獲得率(%)
捕獲までのステップ数
Q(0)
61
377
Q(0.5)
70
46
Q(0.9)
52
72
Profit Sharing
89
47
強化値伝播のモデル
1.2
1
強化値
0.8
0.6
Profit
Sharing
Q(0.9)
0.4
Q(0.5)
0.2
Q(0)
0
T-4
T-3
T-2
時刻
T-1
T
結論と今後の課題
結論
• マルチエージェント問題に強化学習を実装すること
で協調性は獲得できる。
• Profit Sharingが最も適した学習アルゴリズムであ
り,Q-Learningはパラメータ設定に工夫が必要。
今後の課題
• より複雑な問題での協調動作の検証
• 得られた学習結果から汎用的ルールの抽出
– 決定木を用いて構造的なルールの生成
以上で発表を終わります。
ご清聴ありがとうございました。
リファレンス
•
強化学習:
Richard S.Sutton and Andrew G.Barto,三上貞芳・皆川雅章 共訳(森北
出版,2000)
• 電気通信大学 情報通信工学科/専攻 情報メディア工学講座 人間コミュニ
ケーション学専攻 メディアコミュニケーション学講座 HP
• マルチエージェント(協調)問題の調査:
藤田佳久,三木光範,廣安知之(ISDL Report No.20040802004 )
• [内海06]:
マルチエージェント強化学習におけるProfit Sharingの有効性検証~追跡問
題を例に~,高知大学理学部数理情報科学科卒業論文
• [櫻井05]
強化学習によるエージェント形成と決定木による評価~追跡問題を例に~,
高知大学理学部数理情報科学科卒業論文
• [黄04]:
強化学習による学習エージェントの構成,高知大学理学部数理情報科学科
卒業論文
実験結果2(Profit Sharingの結果)
ターゲットを右側に各ハンターとターゲットが横一直線に並んだ状態
想定される位置関係
h1とh2の行動の組み合わせの獲得回数
PS
h1 の 行 動
2 1
U
2 1
●:hunter gent ▲:target
U
D
2
L
R
S
U:上
2
1
0
D:下
5
2
0
0
L:左
0
2
0
0
h2
D
の
行 L
動
R
3
6
1
S
2
3
1
R:右
S:停滞
0
学習の流れ
• 基本的な強化学習
ゴール状態
(目標)を設定
始
状
態
と
報
酬
の
計
測
行
動
価
値
の
更
新
終
行
動
a
の
選
択
方策(行動戦略)に
基づき選択する
学習の流れを物語に例え、エピソードと呼ぶ
行
動
a
の
実
行
間接報酬の与え方
• 間接報酬による解の劣化
を避けるために
協力
– 報酬 R を割り引いた値
を間接報酬として与える
– μ Rはマルチエージェント系
におけるProfit Sharingの合
理性定理[宮崎他99]を満た
す以下の値とする
μ<
(M W
エージェント
エージェント
ゴール
(目標)
エージェント
エージェント
報酬
直接報酬
間接報酬
1
M : 行動の選択肢の数
− 1)( n − 1) W : エピソードの長さ
n : エージェントの個数
強化学習に決定木を組み合わせる
追跡問題
Agent1
強化学習
環境
Agent2
•人間にとって分かりやすい形
•汎用性の確保(環境が変化し
ても再学習の必要なし)
決定木学習
構造化された
if,thenルールの作成
決定木学習
属性1
• 決定木とは
データ項目間の関係を木構造で表示する
分析手法(葉:ラベル 根、節:属性)
YES
NO
属性2
ラベル3
YES
NO
ラベル1
ラベル2
状態と行動から決定木を学習
状態
属性
決定木化
強化学習
行動
ラベル
構造化されたif,thenルール
Profit Sharingの学習アルゴリズム
エピソード(長さW)
迂回系列
z
x
x a
y
ルール
xa
yb
zb
xa
ya
ルール
の重み
F ( xa )
F ( yb)
F (zb )
F ( xa )
F ( ya )
状態
行動
b
b
a
y a
報
酬
R
実験結果
協調性が必要とされる状態を抽出し獲得された行動の比較
ターゲットを右側に各ハンターとターゲットが一直線に並んだ状態を例に
Profit Sharing
Q学習
2 1
Q
学習
h
2
の
行
動
2 1
h1 の 行 動
PS
U D L R S
U 1 1
2 0
D 1 0
2 1
L 1 1
2 1
R 3 5
6
S 0 1
2 0
h1 の 行 動
U D L R S
h
2
の
行
動
U:上
D:下
U 2 2
1 0
D 5 2
0 0
L 0 2
0 0
R:右
R 3 6
1
S:停滞
S 2 3
1 0
L:左
Q学習はh1が右に動く傾向が強い
Profit Sharingはh1が上か下に動くと傾向が強い
●:hunter gent ▲:target
Profit Sharingは捕獲に近い状態に対しより強
い影響を受けるためだと考えられる