10/23先端論文ゼミ発表会 “Multiagent Reinforcement Learning with the Partly High-Dimensional State Space” -状態空間の部分的高次元化手法を用いたマルチエージェント強化学習法- B4 兼平 龍 1. Introduction - 初めに マルチエージェント強化学習には複雑なタスクを行う大規 模なシステム制御への応用が期待されている ↓(しかし・・・) 不完全知覚問題、同時学習問題、報酬分配問題、次元 の呪いなど様々な問題がある ↓(そこで・・・) 本研究では「次元の呪い」について、モジューラQ学習法 を改善することでこの問題を解決しようとする 2.Curse of Dimensionality – 次元の呪い エージェント数が増加するにあたり状態空間の 大きさが指数的に増大すること 強化学習において状態空間の増大は学習速 度を低下させ、莫大なメモリを必要としてしま います Modular Q-learning - モジューラQ学習法 エージェント4体の場合でMediator moduleは 各 Learning moduleからのQ値の合計値が 最大となる行動を優先する モジューラQ学習法は状態 空間の爆発を防ぐために提 案された手法 自分と他の1体のエージェン トから構成される状態空間を 用いるため、状態空間を常 に一定にすることができる しかし、部分状態のみを観 測するので不完全知覚状態 を招き、学習性能を低下さ せる欠点がある Fig.2(モジューラQ学習における学習性能の低下の例)の説明 エージェント3体の場合 S0とS5で同じ部分状態S1,2が観測され る。 ここで、 状態S5においてQ(s1,s2,a) が最大である時、状態S6(ゴールへ 向かう)へ遷移すると仮定する 状態S0においてもQ(s1,s2,a)がある ためにS5と同じ行動をとってしまう可 能性が高い、しかし、S0ではこの行 動を行ってもゴールに近づくことはで きず、S5でゴールへ向かう Q(s1,s2,a)の値が小さくなってしまう。 3. Proposed Technique: Hybrid Modular Q-Learning - 提案手法:HMQL法 モジューラQ学習法では部分状態のみを観測しているために、不完 全知覚状態が生じて学習性能が低下した そこで、図2でのS5のようにQ値が低下すると学習に大きな影響が出 てしまう場合、部分状態S1,2、S1,3を用いるのではなく、高次元化した S1,2,3={s1,s2,s3}を用いることで学習性能の低下を防ぐことにする つまり、先ほどの例の場合では状態S0からの遷移でQ(s1,s2,a)の値 が低下しても状態S5は影響を受けないことになる ここでS0を高次元化しても、ゴールから遠いため価値は低く、遷移す る確率も小さいため性能改善の効果は期待できない。 また、多くの状態で高次元化を行うと、状態数が増えてしまうため学 習速度が低下しまう ↓(よって) S5のような状態のみ高次元化し、不完全知覚を取り除くHMQL法を 提案する 3.1. Method of increasing the dimensionalit - 高次元化手法 – 部分状態の価値を表す状態価値関数Viを用いて状態の識 別を行う、学習式は下式になる。 状態価値関数Viはゴール状態(報酬がもらえたり、ゴール への遷移の際)へ近いほど、価値Vの値が大きくなる ここで、閾値ηを使い状態の区別(ηより大きいか小さいか) を行い高次元化する状態を決める。 γはVに用いた割引率であり、λを無限大にすると、ηが0となり、通常のQ学習。 λを小さくすると、ηが無限大となり、モジュールQ学習となる 3.2. Structure of an agent – エージェントの構成 Check Module:次元数に応じて学習器 を選択。2次元部分状態をState-Value Moduleに渡す State-Value Module:高次元判定と高次 元生成を行う。 Check Moduleから2次 元部分状態受け取り閾値η用い、判定を 行う N-dimensional Learning module:N次元状 態の学習を行う。Q学習を行い、Q値を Selectorに渡す Selector:受け取ったQ値を用いて行動 選択を行う。Q値の合計値が最大となる 行動を優先。 3.3. Learning algorithm - 学習アルゴリズム - (1).各Learning moduleがもつ、Q値を初期化。 Check Moduleに記憶して いる次元数を、最小次元(二次元)に設定。 (2).環境を観測 (3). Check Moduleを用いて、高次元状態が存在するか調べ、対応した 次元のLearning moduleを選択する。 (4).選択されたLearning moduleはQ値をSelectorに渡す。 (5).Q値をもらったSelectorはQ値の合計値をもとに計算する。 (6).環境を観測し、報酬に基づきQ値、状態価値を更新。 (7).高次元状態に基づいて、状態の高次元化を行う。 (8).ゴール状態なら終了、そうでなければ(3)へ。 4. Evaluation Experiments - 評価実験 追跡問題 ・2次元トーラス平面(5×5、9×9) ・ハンター3体、獲物1体 ・ハンター移動(上下左右+停止)、 ・獲物移動(上:40%、右:40%、停止:20%) ・捕獲することにハンター、獲物ランダム配置 ・捕獲条件:獲物の3方向にハンターが接する とき ・エージェントの状態は獲物との相対位置で 表現 ・獲物捕獲時に報酬:1.0、それ以外-0.05 4.2. Learning by using policy estimates - 政策推定による学習1 他エージェントの政策推定法 他エージェントkの政策Iとし、状態St-1で行動aを実行する確率を表す。更新式 は以下に示す 政策推定を利用したマルチエージェント強化学習法 現在の環境状態において、エージェントkは(8)式から算出されるQ(バー)を用 いて政策πにより行動を確率的に選択する。また、行動選択法にはボルツマン選 択(10)を用いる。 4.2. Learning by using policy estimates - 政策推定による学習2 選択した行動を実行し、Q関数値を式(9)によっ て更新する。また、状態stにおける関数Iを式(5) によって更新する。 学習の終了状態を満たしていれば学習終了、そう でなければtに1を加えて(8)式へもどる 4.3. Experimental results - 実験結果1 ・5×5 縦軸:ステップ数 横軸;エピソード数 ・9×9 最終的なステップ数 5×5,9×9どちらの場合も提案手法は、モジューラQに比べ学習速度は劣るもの のステップ数でよい結果が得られていることが分かる。 4.3. Experimental results - 実験結果2 今回提案手法が優れていたの は、図8のような部分状態によ る不完全知覚の排除ができた からだと考えられる しかし、高次元化を実現したた めモジュールQ学習より多くの 状態が必要となり必要なメモリ 量が多くなってしまったがQ学 習より抑えることができた。 5. Conclusions - まとめ マルチエージェント環境で提案手法は、十分な学習速度、 少ないメモリ量で学習性能改善を確認することができた。 今回は学習にQ学習を用いた。マルチエージェント環境 では、他エージェントの政策変化によって環境の状態遷 移確率が変化するためMDP環境としてモデル化すること ができない。よって、学習に状態遷移先のQ値が必要と なりQ学習をそのまま用いるということの合理性に疑問が 残る点があり、今後このような課題を考えなければならな い。
© Copyright 2024 ExpyDoc