Multiagent Reinforcement Learning with the Partly High

10/23先端論文ゼミ発表会
“Multiagent Reinforcement Learning with the
Partly High-Dimensional State Space”
-状態空間の部分的高次元化手法を用いたマルチエージェント強化学習法-
B4 兼平 龍
1. Introduction - 初めに 


マルチエージェント強化学習には複雑なタスクを行う大規
模なシステム制御への応用が期待されている
↓(しかし・・・)
不完全知覚問題、同時学習問題、報酬分配問題、次元
の呪いなど様々な問題がある
↓(そこで・・・)
本研究では「次元の呪い」について、モジューラQ学習法
を改善することでこの問題を解決しようとする
2.Curse of Dimensionality – 次元の呪い 

エージェント数が増加するにあたり状態空間の
大きさが指数的に増大すること
強化学習において状態空間の増大は学習速
度を低下させ、莫大なメモリを必要としてしま
います
Modular Q-learning - モジューラQ学習法 

エージェント4体の場合でMediator moduleは
各 Learning moduleからのQ値の合計値が
最大となる行動を優先する

モジューラQ学習法は状態
空間の爆発を防ぐために提
案された手法
自分と他の1体のエージェン
トから構成される状態空間を
用いるため、状態空間を常
に一定にすることができる
しかし、部分状態のみを観
測するので不完全知覚状態
を招き、学習性能を低下さ
せる欠点がある
Fig.2(モジューラQ学習における学習性能の低下の例)の説明




エージェント3体の場合
S0とS5で同じ部分状態S1,2が観測され
る。
ここで、 状態S5においてQ(s1,s2,a)
が最大である時、状態S6(ゴールへ
向かう)へ遷移すると仮定する
状態S0においてもQ(s1,s2,a)がある
ためにS5と同じ行動をとってしまう可
能性が高い、しかし、S0ではこの行
動を行ってもゴールに近づくことはで
きず、S5でゴールへ向かう
Q(s1,s2,a)の値が小さくなってしまう。
3. Proposed Technique: Hybrid Modular Q-Learning
- 提案手法:HMQL法 





モジューラQ学習法では部分状態のみを観測しているために、不完
全知覚状態が生じて学習性能が低下した
そこで、図2でのS5のようにQ値が低下すると学習に大きな影響が出
てしまう場合、部分状態S1,2、S1,3を用いるのではなく、高次元化した
S1,2,3={s1,s2,s3}を用いることで学習性能の低下を防ぐことにする
つまり、先ほどの例の場合では状態S0からの遷移でQ(s1,s2,a)の値
が低下しても状態S5は影響を受けないことになる
ここでS0を高次元化しても、ゴールから遠いため価値は低く、遷移す
る確率も小さいため性能改善の効果は期待できない。
また、多くの状態で高次元化を行うと、状態数が増えてしまうため学
習速度が低下しまう
↓(よって)
S5のような状態のみ高次元化し、不完全知覚を取り除くHMQL法を
提案する
3.1. Method of increasing the dimensionalit
- 高次元化手法 –



部分状態の価値を表す状態価値関数Viを用いて状態の識
別を行う、学習式は下式になる。
状態価値関数Viはゴール状態(報酬がもらえたり、ゴール
への遷移の際)へ近いほど、価値Vの値が大きくなる
ここで、閾値ηを使い状態の区別(ηより大きいか小さいか)
を行い高次元化する状態を決める。
γはVに用いた割引率であり、λを無限大にすると、ηが0となり、通常のQ学習。
λを小さくすると、ηが無限大となり、モジュールQ学習となる
3.2. Structure of an agent – エージェントの構成 



Check Module:次元数に応じて学習器
を選択。2次元部分状態をState-Value
Moduleに渡す
State-Value Module:高次元判定と高次
元生成を行う。 Check Moduleから2次
元部分状態受け取り閾値η用い、判定を
行う
N-dimensional Learning module:N次元状
態の学習を行う。Q学習を行い、Q値を
Selectorに渡す
Selector:受け取ったQ値を用いて行動
選択を行う。Q値の合計値が最大となる
行動を優先。
3.3. Learning algorithm
- 学習アルゴリズム -
(1).各Learning moduleがもつ、Q値を初期化。 Check Moduleに記憶して
いる次元数を、最小次元(二次元)に設定。
(2).環境を観測
(3). Check Moduleを用いて、高次元状態が存在するか調べ、対応した
次元のLearning moduleを選択する。
(4).選択されたLearning moduleはQ値をSelectorに渡す。
(5).Q値をもらったSelectorはQ値の合計値をもとに計算する。
(6).環境を観測し、報酬に基づきQ値、状態価値を更新。
(7).高次元状態に基づいて、状態の高次元化を行う。
(8).ゴール状態なら終了、そうでなければ(3)へ。
4. Evaluation Experiments - 評価実験 
追跡問題
・2次元トーラス平面(5×5、9×9)
・ハンター3体、獲物1体
・ハンター移動(上下左右+停止)、
・獲物移動(上:40%、右:40%、停止:20%)
・捕獲することにハンター、獲物ランダム配置
・捕獲条件:獲物の3方向にハンターが接する
とき
・エージェントの状態は獲物との相対位置で
表現
・獲物捕獲時に報酬:1.0、それ以外-0.05
4.2. Learning by using policy estimates
- 政策推定による学習1 
他エージェントの政策推定法
他エージェントkの政策Iとし、状態St-1で行動aを実行する確率を表す。更新式
は以下に示す

政策推定を利用したマルチエージェント強化学習法
現在の環境状態において、エージェントkは(8)式から算出されるQ(バー)を用
いて政策πにより行動を確率的に選択する。また、行動選択法にはボルツマン選
択(10)を用いる。
4.2. Learning by using policy estimates
- 政策推定による学習2 

選択した行動を実行し、Q関数値を式(9)によっ
て更新する。また、状態stにおける関数Iを式(5)
によって更新する。
学習の終了状態を満たしていれば学習終了、そう
でなければtに1を加えて(8)式へもどる
4.3. Experimental results - 実験結果1 ・5×5
縦軸:ステップ数
横軸;エピソード数
・9×9
最終的なステップ数
5×5,9×9どちらの場合も提案手法は、モジューラQに比べ学習速度は劣るもの
のステップ数でよい結果が得られていることが分かる。
4.3. Experimental results - 実験結果2 

今回提案手法が優れていたの
は、図8のような部分状態によ
る不完全知覚の排除ができた
からだと考えられる
しかし、高次元化を実現したた
めモジュールQ学習より多くの
状態が必要となり必要なメモリ
量が多くなってしまったがQ学
習より抑えることができた。
5. Conclusions - まとめ 

マルチエージェント環境で提案手法は、十分な学習速度、
少ないメモリ量で学習性能改善を確認することができた。
今回は学習にQ学習を用いた。マルチエージェント環境
では、他エージェントの政策変化によって環境の状態遷
移確率が変化するためMDP環境としてモデル化すること
ができない。よって、学習に状態遷移先のQ値が必要と
なりQ学習をそのまま用いるということの合理性に疑問が
残る点があり、今後このような課題を考えなければならな
い。