( Hysteretic Q-Learning)の提案。

先端論文紹介ゼミ
論文名: Hysteretic Q-Learning : an algorithm for
Decentralized Reinforcement Learning in
Cooperative Multi-Agent Teams.
著者:La¨etitia Matignon, Guillaume J. Laurent
and Nadine Le Fort-Piat
2009/11/10
B4 倉野 直
ABSTRACT
MASの協調行動の学習のいくつかのアルゴリズムにつ
いて調査を行った。
 Hysteretic Q-learningとよばれるILの拡張したQ
学習の提案。
 Hysteretic Q-learningと他のアルゴリズムとの性能
比較としていくつかのテストを行った。

INTRODUCTION(1/2)

MASの協調の典型的な強化学習は、各エージェントが
全体を観測する方法。
状態行動空間のサイズが膨大となるため、
独自の振舞いを学習するエージェントが必要
 MASの協調には3つの主な問題点がある。
・他のエージェントの限定的な視野のために環境
要素の予測ができない。
・環境は過去の動作がエージェントの現在の行動
に影響を与えてしまう。
・マルチエージェントの協調行動の問題。
INTRODUCTION(2/2)
新しい情報やエージェント間のコミュニケーションが必
要とならない強化学習法( Hysteretic QLearning)の提案。
 Hysteretic Q-Learningと他のアルゴリズム
(Centralized Q-learning,Decentralized Qlearning, Distributed Q-learning、FMQ)との
性能比較。

FULLY COOPERRATIVE REPEATED
GAMES(1/4)
Penalty gameでは2つの最適な協調による
誤った強調行動が提示されている。
FULLY COOPERRATIVE REPEATED
GAMES(2/4)

Q値の更新式は
Qi (ai )  Qi (ai )   (r  Qi (ai ))
(1)
aはエージェントのとった行動、Q(a)はエージェン
トが取った行動に対する値、αは学習率[0:1]
 Distributed Q-Learningの更新式
  r  Qi (ai )
if
Qi (ai )  
Qi (ai )  
Qi (ai )
else
 0
(2)
FULLY COOPERRATIVE REPEATED
GAMES(3/4)

Hysteretic Q-learningのQ値更新式
  r  Qi (ai )
Qi (ai )  
Qi (ai )  
Qi (ai )  
α、βはQ値の増減値。
if
 0
else
(3)
FULLY COOPERRATIVE REPEATED
GAMES(4/4)
学習率αはすべての方法で0.1、β( Hysteretic)は0.01、重みc
(FMQ)は10と設定。 行動政策はBoltzmann政策を選択。Tは
T=T×0.99、 Tの初期値は5000.
STOCHASTIC GAMES(1/8)
推定ゲームとして、ball balancing taskとpursuit
domainによる調査を行った。
 両ゲームともCentralized Q-learning、
Decentralized Q-learning, Distributed Qlearningとの比較を行った。

STOCHASTIC GAMES(2/8)

Centralized Q-learningのQ値の更新式
Q( s, a1 ,..., an )  (1   )Q( s, a1 ,..., an ) 
 r   max Q( s ' , a'1 ,..., a'n )


a '1 ,..., a 'n

Decentralized Q-learningのQ値の更新式

Qi ( s, ai )  (1   )Qi ( s, ai )   r   max Q( s ' , a' )
a'
(4)

(5)
STOCHASTIC GAMES(3/8)

Hysteretic Q-learningのQ値の更新式
  r   max Qi ( s' , a' )  Qi ( s, ai )
a'
Qi ( s, ai )  
Qi ( s, ai )  
Qi ( s, ai )  
if
 0
else
(6)
STOCHASTIC GAMES(4/8)

Ball balancing task
 h1  h2 
mx  cx  mg

l


m=0.5、g=9.8, l=2, c=0.01
(7 )
STOCHASTIC GAMES(4/8)

Ball balancing task
状態空間を100×50で離散化
サンプリングタイムは0.03秒
制御は[-1:1]を15分割。
centralized Q-learningのQ値表のサイズは100  90  152
Decentralized Q-learningは
100  90 15
試行は初期状態x=(0.5、0.1)から始まり、20秒制御する。また机から
落ちた場合は試行終了
報酬の式は
r  0.8e
x2

0.252
 0.2e
x 2

0.252
(8)
STOCHASTIC GAMES(5/8)

Ball balancing task (result)
STOCHASTIC GAMES(6/8)

Pursuit domain
・2体のハンターと1体の獲物
・10×10のトーラス平面
・ハンターの行動は5個(上、下、右、左、静止)、獲物は5個の
行動をランダムに取る。
STOCHASTIC GAMES(7/8)

Pursuit domain
この問題ではエージェントは全体の環境の情報を持つ。
2
centralized Q-learningは 99  98  5 の状態行動
の組を持つ。
Decentralized Q-learning は 99  98  5 の状態
行動の組を持つ。
・獲物を捕獲した場合r=37.5の報酬が与えられる。
・同じマスに2体のハンターが重なった場合はr=-10が与えられ、
ハンターは空いたマスへ移動させられる。
STOCHASTIC GAMES(8/8)

Pursuit domain
PARTIALLY OBSERVABLE STOCHASTIC
GAMES(1/2)

Partially Observable Pursuit domain
・7×7のトーラス平面
・4体のハンターと1体の獲物
・ハンターの知覚範囲は周囲8マス
・エージェントはfig5cの状況で報酬r=25を得る。
PARTIALLY OBSERVABLE STOCHASTIC
GAMES(2/2)

Partially Observable Pursuit domain
CONCLUSIONS



本誌では、MASの主な問題点として、協調行動の問題
を取り上げ、追加的なコミュニケーションのいらない学習
法を提案した。
4つの実験を行い、Hysteretic Q-Learningの性能
を調査した。
行った4つの実験結果より、 Hysteretic QLearningは二つの学習率を利用することにより、協調
行動の獲得に成功した。