先端論文紹介ゼミ 論文名: Hysteretic Q-Learning : an algorithm for Decentralized Reinforcement Learning in Cooperative Multi-Agent Teams. 著者:La¨etitia Matignon, Guillaume J. Laurent and Nadine Le Fort-Piat 2009/11/10 B4 倉野 直 ABSTRACT MASの協調行動の学習のいくつかのアルゴリズムにつ いて調査を行った。 Hysteretic Q-learningとよばれるILの拡張したQ 学習の提案。 Hysteretic Q-learningと他のアルゴリズムとの性能 比較としていくつかのテストを行った。 INTRODUCTION(1/2) MASの協調の典型的な強化学習は、各エージェントが 全体を観測する方法。 状態行動空間のサイズが膨大となるため、 独自の振舞いを学習するエージェントが必要 MASの協調には3つの主な問題点がある。 ・他のエージェントの限定的な視野のために環境 要素の予測ができない。 ・環境は過去の動作がエージェントの現在の行動 に影響を与えてしまう。 ・マルチエージェントの協調行動の問題。 INTRODUCTION(2/2) 新しい情報やエージェント間のコミュニケーションが必 要とならない強化学習法( Hysteretic QLearning)の提案。 Hysteretic Q-Learningと他のアルゴリズム (Centralized Q-learning,Decentralized Qlearning, Distributed Q-learning、FMQ)との 性能比較。 FULLY COOPERRATIVE REPEATED GAMES(1/4) Penalty gameでは2つの最適な協調による 誤った強調行動が提示されている。 FULLY COOPERRATIVE REPEATED GAMES(2/4) Q値の更新式は Qi (ai ) Qi (ai ) (r Qi (ai )) (1) aはエージェントのとった行動、Q(a)はエージェン トが取った行動に対する値、αは学習率[0:1] Distributed Q-Learningの更新式 r Qi (ai ) if Qi (ai ) Qi (ai ) Qi (ai ) else 0 (2) FULLY COOPERRATIVE REPEATED GAMES(3/4) Hysteretic Q-learningのQ値更新式 r Qi (ai ) Qi (ai ) Qi (ai ) Qi (ai ) α、βはQ値の増減値。 if 0 else (3) FULLY COOPERRATIVE REPEATED GAMES(4/4) 学習率αはすべての方法で0.1、β( Hysteretic)は0.01、重みc (FMQ)は10と設定。 行動政策はBoltzmann政策を選択。Tは T=T×0.99、 Tの初期値は5000. STOCHASTIC GAMES(1/8) 推定ゲームとして、ball balancing taskとpursuit domainによる調査を行った。 両ゲームともCentralized Q-learning、 Decentralized Q-learning, Distributed Qlearningとの比較を行った。 STOCHASTIC GAMES(2/8) Centralized Q-learningのQ値の更新式 Q( s, a1 ,..., an ) (1 )Q( s, a1 ,..., an ) r max Q( s ' , a'1 ,..., a'n ) a '1 ,..., a 'n Decentralized Q-learningのQ値の更新式 Qi ( s, ai ) (1 )Qi ( s, ai ) r max Q( s ' , a' ) a' (4) (5) STOCHASTIC GAMES(3/8) Hysteretic Q-learningのQ値の更新式 r max Qi ( s' , a' ) Qi ( s, ai ) a' Qi ( s, ai ) Qi ( s, ai ) Qi ( s, ai ) if 0 else (6) STOCHASTIC GAMES(4/8) Ball balancing task h1 h2 mx cx mg l m=0.5、g=9.8, l=2, c=0.01 (7 ) STOCHASTIC GAMES(4/8) Ball balancing task 状態空間を100×50で離散化 サンプリングタイムは0.03秒 制御は[-1:1]を15分割。 centralized Q-learningのQ値表のサイズは100 90 152 Decentralized Q-learningは 100 90 15 試行は初期状態x=(0.5、0.1)から始まり、20秒制御する。また机から 落ちた場合は試行終了 報酬の式は r 0.8e x2 0.252 0.2e x 2 0.252 (8) STOCHASTIC GAMES(5/8) Ball balancing task (result) STOCHASTIC GAMES(6/8) Pursuit domain ・2体のハンターと1体の獲物 ・10×10のトーラス平面 ・ハンターの行動は5個(上、下、右、左、静止)、獲物は5個の 行動をランダムに取る。 STOCHASTIC GAMES(7/8) Pursuit domain この問題ではエージェントは全体の環境の情報を持つ。 2 centralized Q-learningは 99 98 5 の状態行動 の組を持つ。 Decentralized Q-learning は 99 98 5 の状態 行動の組を持つ。 ・獲物を捕獲した場合r=37.5の報酬が与えられる。 ・同じマスに2体のハンターが重なった場合はr=-10が与えられ、 ハンターは空いたマスへ移動させられる。 STOCHASTIC GAMES(8/8) Pursuit domain PARTIALLY OBSERVABLE STOCHASTIC GAMES(1/2) Partially Observable Pursuit domain ・7×7のトーラス平面 ・4体のハンターと1体の獲物 ・ハンターの知覚範囲は周囲8マス ・エージェントはfig5cの状況で報酬r=25を得る。 PARTIALLY OBSERVABLE STOCHASTIC GAMES(2/2) Partially Observable Pursuit domain CONCLUSIONS 本誌では、MASの主な問題点として、協調行動の問題 を取り上げ、追加的なコミュニケーションのいらない学習 法を提案した。 4つの実験を行い、Hysteretic Q-Learningの性能 を調査した。 行った4つの実験結果より、 Hysteretic QLearningは二つの学習率を利用することにより、協調 行動の獲得に成功した。
© Copyright 2024 ExpyDoc