先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning M1 倉野 直 目次 Abstract Introduction Collaborative multiagent MDPs and einforcement learning Role-based context-specific Q-learning Experiments Conclusion 2011/1/21 先端論文紹介ゼミ 2 Abstract マルチエージェント強化学習における主な問題はエージェ ント数に従い行動状態空間サイズが指数関数的に増大 すること。 本稿では行動空間の増加を軽減するために「roles and context - specific coordination graphs」を利用する。 全体結合Q関数を部分的Q関数に分解する。 部分的Q関数は小グループのエージェントで構成され価 値ルールの組で構成される。 自動的に各価値ルールの重みを学習するマルチエージェ ントQ学習アルゴリズムを提案する。 2011/1/21 先端論文紹介ゼミ 3 Introduction マルチエージェントシステムとは複数のエージェントとの 相互作用で共存するエージェント群。 マルチエージェントシステムの研究ではエージェントの行 動管理の問題に焦点を当てている。 本稿では全てのエージェントが共通の目標をもつ完全集 中型マルチエージェントシステムに焦点を当てる。 エージェントの個々の行動を確認するプロセスはグルー プ全体の最適政策を学習する。 2011/1/21 先端論文紹介ゼミ 4 Introduction マルチエージェントシステムを単一の「大きな」エージェント として扱い、最適政策を学習させる方法。 行動空間が指数関数的に増加するため詳細な設計が難しい 各エージェントが独立した自身の政策を学習する方法。 各エージェントが他のエージェントの情報なしに学習を行う。 収束が学習エージェントの政策に依存するため、安定しない。 2011/1/21 先端論文紹介ゼミ 5 Introduction 行動空間のサイズを軽減するために最近の研究は “context-specific coordination graph (CG)”を使用する。 CGの考え方: エージェントが個々に行動できる中で少数のエージェン トの行動の調整を行う。 例)ロボットサッカーにおいて他のロボットが自己の独立した 行動をするなかで、ボールの保持者やその周りのプレイ ヤーの行動を調整する必要がある。 2011/1/21 先端論文紹介ゼミ 6 Introduction 本論文ではCGに基づいたマルチエージェントQ学習を提 案する。 オフライン設計段階では役割に対する価値ルールを定義 する。 オンライン割り当て段階では、役割割当アルゴリズムを用 いて、エージェントに役割を割当て、エージェントが役割に 対応した価値ルールを得る。 提案手法ではCGの重みを学習する。 CGの重みはQ学習から派生した更新式を利用する。 2011/1/21 先端論文紹介ゼミ 7 Collaborative multiagent MDPs (CMMDP)and reinforcement learning マルコフ決定過程を拡張したCMMDP構造を使用する。 CMMDPは5つの要素<n,S,A,R,T>より成り立つ。 (n:エージェント数、 S:有限状態空間、 A:行動空間、 R:報酬、 T:状態sのエージェントが行動aを選択し状態s’に遷移した場合に取 る行動の確率) Q学習は以下の式を用いて更新される。 Q( s, a) Q( s, a) R( s, a) max Q( s' , a' ) Q( s, a) a' (1) γは報酬割引率、αは学習率とする。 2011/1/21 先端論文紹介ゼミ 8 Collaborative multiagent MDPs (CMMDP)and reinforcement learning Joint action learners (JAL) この手法はマルチエージェントシステム(MASの)を単一の「大きな」 エージェントとして扱う。 エージェントの状態-行動の組は結合状態空間と元のMASの結合 行動空間である。 「大きな」エージェントの学習にはQ学習を用いる。 欠点: 学習エージェントの状態と行動の組がエージェント数に従い指数関 数的に増加する。 2011/1/21 先端論文紹介ゼミ 9 Collaborative multiagent MDPs (CMMDP)and reinforcement learning Independent learners (IL) この手法はエージェントが他のエージェントの情報なしに独立した学 習を行う。 指数関数的な結合行動空間を考慮する必要はない。 欠点: 他のエージェントの政策に依存するため、学習の収束が安定しない。 2011/1/21 先端論文紹介ゼミ 10 Role-based context-specific Q-learning Context-specific coordination graphs and roles 協調の依存関係はCGを用いて表すことができる。 価値ルールはエージェントが協調行動を実行する文脈を 定義する。 協調の依存関係をG=(V,E)で定義する。 全体結合Q関数を部分的Q関数の和で近似される。 2011/1/21 先端論文紹介ゼミ 11 Role-based context-specific Q-learning Context-specific coordination graphs and roles 定義2: 価値ルール s a : v は現在の状態がsであり、 統一行動aを行った時、 ( s, a) v となる。それ以外は0と する。 定義3: Agent[Qi ] { Ai A | Ai Dom[Qi ]} Qi ( s, a) (2) n j 1 j ( s, a ) (3) ここで Agent[ j ] Agent[Qi ] 0 2011/1/21 先端論文紹介ゼミ 12 Role-based context-specific Q-learning Context-specific coordination graphs and roles 定義4: 「役割」の要素は m, Pm , ri ,m とする。 (m:役割の数、 Pm:役割mに関連付けられておる価値ルールの組、 ri , m :はエージェントiが現在の状態で役割mが適当であるかのポテン シャル関数) 「役割」を2つの段階を用いてCGに内蔵する。 ・オフライン設計段階 ・オンライン割当段階 2011/1/21 先端論文紹介ゼミ 13 Role-based context-specific Q-learning Context-specific coordination graphs and roles オフライン設計段階 エージェントに対する価値ルールの定義の代わりに役割に対する価 値ルールを定義する。 オフライン設計段階 エージェントに役割を割り当てる役割割当アルゴリズムを使用する。 エージェントは割り当てられた役割から価値ルールを得る。 2011/1/21 先端論文紹介ゼミ 14 Role-based context-specific Q-learning Context-specific coordination graphs and roles 役割割当アルゴリズム |M|>nのとき配列Mを定義する。(M:役割の数、n:エージェント数) 役割の重要度により順序付けされる。 同じ役割は複数のエージェントに割り当てることができる。 エージェントが複数の役割をもつことはできない。 エージェントiと役割mからポテンシャル ri , m を算出する。 2011/1/21 先端論文紹介ゼミ 15 Role-based context-specific Q-learning Q-learning in context-specific coordination graphs 定義5: Q i ( s, a ) はエージェントiに対する部分的Q値 Q i ( s, a ) j ij (s, a) nj (4) ij ( s, a) はエージェントiを含む価値ルール。 njはエージェントiを含むそのルールに関係するエージェントの数。 2011/1/21 先端論文紹介ゼミ 16 Role-based context-specific Q-learning Q-learning in context-specific coordination graphs 定理1:価値ルール j ( s, a )は以下の式で更新する。 Q i ( s, a) j ( s, a ) j ( s, a ) ni i 1 nj (10) njはρjに関するエージェントの数。 niは状態sで統一行動aが一致しているインスタンスの価値ルール のエージェントiの出現回数。 2011/1/21 先端論文紹介ゼミ 17 Role-based context-specific Q-learning Q-learning in context-specific coordination graphs 学習アルゴリズム 2011/1/21 先端論文紹介ゼミ 18 Experiments 提案手法RQをJAL、ILと比較する。 問題設定は追跡問題を適用する。 10*10のグリッド平面に2体のハンターと1体の獲物を配 置 ハンターと獲物の行動は上下左右静止の5行動。 獲物はランダム行動を行う。 捕獲条件は獲物と同セルおよび 隣接セルに両ハンターが移動。 2011/1/21 先端論文紹介ゼミ 19 Experiments RQアルゴリズムにおいて役割を二つ用意する。 capture:獲物を捕獲するように行動する。 Supporter:捕獲者のサポートをする行動を取る。 役割割当の配列 は M {capture, sup porter} となる。 captureの役割のポテンシャルはハンターと獲物のマン ハッタン距離に基づく。 1 ri ,capture (15) max( 1, d i , p ) Where d i , p is the distance between predator i and the prey 2011/1/21 先端論文紹介ゼミ 20 Experiments 各ハンターが得る報酬は以下に示す。 50.0 エージェント iが他のハンターの支援 を受けて捕獲した場合 50.0 他のハンターと衝突 した場合 Ri ( s, a) ( 16) 10 . 0 エージェント i が支援なしに獲物の方 へ移動する場合 1.0 それ以外 2011/1/21 先端論文紹介ゼミ 21 Experiments 実行結果 2011/1/21 先端論文紹介ゼミ 手法 平均捕獲ス テップ RQ 12.92 JAL 12.78 IL 17.02 22 Conclusion role-based context-specific multiagent Q-learning手法 を提案。 Role and context-specific coordinarion graphsを使用。 自動的に各価値ルールの重みを学習するQ学習アルゴリ ズムを提案。 実験は従来のマルチエージェント強化学習より大幅に速 い学習速度で同じ政策に収束することを示した。 2011/1/21 先端論文紹介ゼミ 23 ご清聴ありがとうございました。 2011/1/21 先端論文紹介ゼミ 24 Role-based context-specific Q-learning 補足1 例)状態sと状態s0が以下の規則をもつ。 1 ; s a1 : v1 5 ; s ' a1 : v5 2 ; s a1 a 2 : v 2 6 ; s ' a1 a 2 : v6 3 ; s a 2 a3 : v3 7 ; s ' a 2 a3 : v7 4 ; s a 2 a3 : v 4 8 ; s ' a 2 a3 : v8 エージェントは状態sに協調行動a={a1,a2,a3}を行い、状態はs’に * 遷移する。状態s’での最適行動は a {a1 , a2 , a3 } である。 従って状態sにおいてルールρ1、ρ2、ρ4が表れ、状態s’において ルールρ5とρ7が表れる。 2011/1/21 先端論文紹介ゼミ 25 Role-based context-specific Q-learning 補足1 次のようにρ1、ρ2、ρ4を更新する。 v5 v v 1 2 1 2 1 v7 v v Q 2 ( s , a ) R 2 ( s , a ) 2 4 2 2 2 v7 v Q 3 ( s , a ) R3 ( s , a ) 4 2 2 Q 1 ( s , a ) 1 ( s, a ) v1 2 Q 1 ( s , a ) Q 2 ( s , a ) 2 ( s, a ) v 2 2 2 Q 1 ( s , a ) R1 ( s , a ) 3 ( s, a ) v3 2011/1/21 Q 2 ( s , a ) Q 3 ( s , a ) 2 1 先端論文紹介ゼミ 26 Experiments 補足2:生成される価値ルールの一例 1captuer ; ai moveTo(dir ) : 100 2captuer ; has role sup porter ( j ) is adjacent to prey ( j ) ai moveToprey() a j moveTo(center) : 100 価値ルールρ1は捕獲者の役割が他の支援者となるハンターの支援 がなくても獲物をほかうしようとするべきと示す。 ルールρ2は捕獲者が獲物の位置に動き、支援者が現在の位置で静 止する連携文脈である。 2011/1/21 先端論文紹介ゼミ 27
© Copyright 2024 ExpyDoc