マルチエージェント強化学習による 協調性獲得の検証 ―追跡問題を例として― 理学研究科 博士前期課程 2年 本田研究室 櫻井 祐輔 研究の背景 • 近年,ネットワークやシステムの大規模化・複 雑化が進んでいる • それに伴い,分散処理・並列処理という観点 からマルチエージェントシステムの応用が期 待されている 2 マルチエージェント(システム)とは • 複数の自律的に行動するエージェントで構成される システム • エージェントが互いに協調しあうことで,問題解決能 力の向上や処理の高速化が望める • 扱う問題が複雑になるほど協調動作の実装が難し い 実装方法として強化学習が有効な手段 強化学習(Reinforcement Learning) • 強化学習とは – 試行錯誤を繰り返すことで環境に適応していく学習法 – 報酬を頼りに行動戦略を改善することで学習 環境E 状態s 行動a 報酬r 環境E 状態s’ 報酬r’ 行動a’ ・・・ Agent(戦略A) Agent(戦略A’) 目標 強化学習の問題点 • 学習結果が関数など人間にとって理解 しにくい形をしている • マルチエージェント問題で得られた行動 の協調性の検討が必要 本研究の目的 • マルチエージェント問題に対する強化学習の 効果を協調性に着目して評価する – 追跡問題を例に – 捕獲直前の状態に対してエージェントが獲得した 行動を抽出し,協調性を評価 • 異なる学習アルゴリズムによる協調動作の 獲得傾向の違いを見る – Q-LearningとProfit Sharingを使用 Q-Learningの学習アルゴリズム Q値と呼ばれる行動価値関数Q(s,a)を逐次更新する [Watkins,1992] Q値の更新式: Q ( s t , a t ) ← Q ( s t , a t ) + α[ rt+1 + γmax Q ( s t + 1 , a ) - Q ( s t , a t )] a α=1 rt + 1 αの割合で 近づける 未来の報酬の近似値 α=0 α : 学習率 , γ :割引率(いずれも 遷移先の状態で最大の γ maxQ( st +1 , a) a Q ( st , a t ) 状態 s t at 他の選択可能な行動 [ 0 ,1 ]) max Q( s t +1 , a) a 状態 s t +1 報酬 rt + 1 Q値を推定 a = arg max Q( st +1 , a ) a 他の選択可能な行動 Q(λ)の学習アルゴリズム Q-Learningに適格度トレースを組み合わせた手法 Q値の更新式: Q( st , at ) ← Q( st , at ) +α[rt+1 +γmaxQ( st +1 , a ) - Q( st , at )] a 強化値をγλ(0≦λ≦1)で減衰しながら過去の全てのQ値を 一括強化 強化量 Q t−3 Q(λ) ( γ λ) 3 倍 t−3 t−2 t −1 (γ λ) 2 倍 t−2 t λの値が大きいほど 時刻 過去への伝播量が大きく より遠くの過去へ伝播 t +1 γ λ倍 t −1 時刻 t t +1 Profit Sharingの学習アルゴリズム 報酬を獲得した時に全てのルールの重みを一括強化 [Grefenstette,88] z x x a y ルール xa yb zb xa ya ルール の重み F ( xa ) F ( yb) F (zb ) F ( xa ) F ( ya ) 状態 行動 b b f f 3 f f f 0 R 強化値 1 fi = f i − 1 , i = 1, 2 ,..., W − 1 . f 0 = R [宮崎 94] M M : 行動数 W : 報酬獲得までのステッ プ数 y a a 報 酬 1 2 4 時間 追跡問題 • ハンター(hunter)が獲物(target)を追跡・捕獲する問題 2 l × l のグリッド環境 ( l = 15 ) 辺で隣接したら捕獲 行動 = {上,下,左,右,停滞} 視野:{周囲8方向+視野外}の9通り 対獲物の視野:周囲7マス 対ハンターの視野:周囲1マス 1 ■:ハンター,■:獲物 獲物ともう一方のハンターの位置の組 み合わせ81通りの状態を知覚 実験条件 項目 内容 問題 追跡問題(ハンター数2,獲物の数1) 学習アルゴリズム Q(λ),λ=0,0.5,0.9 Profit Sharing 報酬 Q(λ):捕獲時に0,それ以外は-1 Profit Sharing:捕獲時に100 試行回数 100回 学習結果の例1 学習結果の例2 獲得した協調動作の例 獲得した協調動作の例 獲物を右側に各ハンターと獲物が 横一直線に並んだ状態を例に 2 譲り合い 待ち伏せ 挟み撃ち 追従 1 ■:ハンター,■:獲物 各動作の獲得率(%) 赤:譲り合い 緑:待ち伏せ 黄色:挟み撃ち 水色:追従 譲り合いの獲得率が最も高く 追従の獲得率がもっとも低い 協調動作全体の獲得率 100 各行動対の獲得率(%) 90 挟み撃ち 80 70 待ち伏せ 60 50 40 追従 30 20 譲り合い 10 0 Q(0) Q(0.5) Q(0.9) 学習アルゴリズム Profit Sharing 捕獲ステップ数との比較 学習アルゴリズム 協調行動獲得率(%) 捕獲までのステップ数 Q(0) 61 377 Q(0.5) 70 46 Q(0.9) 52 72 Profit Sharing 89 47 強化値伝播のモデル 1.2 1 強化値 0.8 0.6 Profit Sharing Q(0.9) 0.4 Q(0.5) 0.2 Q(0) 0 T-4 T-3 T-2 時刻 T-1 T 結論と今後の課題 結論 • マルチエージェント問題に強化学習を実装すること で協調性は獲得できる。 • Profit Sharingが最も適した学習アルゴリズムであ り,Q-Learningはパラメータ設定に工夫が必要。 今後の課題 • より複雑な問題での協調動作の検証 • 得られた学習結果から汎用的ルールの抽出 – 決定木を用いて構造的なルールの生成 以上で発表を終わります。 ご清聴ありがとうございました。 リファレンス • 強化学習: Richard S.Sutton and Andrew G.Barto,三上貞芳・皆川雅章 共訳(森北 出版,2000) • 電気通信大学 情報通信工学科/専攻 情報メディア工学講座 人間コミュニ ケーション学専攻 メディアコミュニケーション学講座 HP • マルチエージェント(協調)問題の調査: 藤田佳久,三木光範,廣安知之(ISDL Report No.20040802004 ) • [内海06]: マルチエージェント強化学習におけるProfit Sharingの有効性検証~追跡問 題を例に~,高知大学理学部数理情報科学科卒業論文 • [櫻井05] 強化学習によるエージェント形成と決定木による評価~追跡問題を例に~, 高知大学理学部数理情報科学科卒業論文 • [黄04]: 強化学習による学習エージェントの構成,高知大学理学部数理情報科学科 卒業論文 実験結果2(Profit Sharingの結果) ターゲットを右側に各ハンターとターゲットが横一直線に並んだ状態 想定される位置関係 h1とh2の行動の組み合わせの獲得回数 PS h1 の 行 動 2 1 U 2 1 ●:hunter gent ▲:target U D 2 L R S U:上 2 1 0 D:下 5 2 0 0 L:左 0 2 0 0 h2 D の 行 L 動 R 3 6 1 S 2 3 1 R:右 S:停滞 0 学習の流れ • 基本的な強化学習 ゴール状態 (目標)を設定 始 状 態 と 報 酬 の 計 測 行 動 価 値 の 更 新 終 行 動 a の 選 択 方策(行動戦略)に 基づき選択する 学習の流れを物語に例え、エピソードと呼ぶ 行 動 a の 実 行 間接報酬の与え方 • 間接報酬による解の劣化 を避けるために 協力 – 報酬 R を割り引いた値 を間接報酬として与える – μ Rはマルチエージェント系 におけるProfit Sharingの合 理性定理[宮崎他99]を満た す以下の値とする μ< (M W エージェント エージェント ゴール (目標) エージェント エージェント 報酬 直接報酬 間接報酬 1 M : 行動の選択肢の数 − 1)( n − 1) W : エピソードの長さ n : エージェントの個数 強化学習に決定木を組み合わせる 追跡問題 Agent1 強化学習 環境 Agent2 •人間にとって分かりやすい形 •汎用性の確保(環境が変化し ても再学習の必要なし) 決定木学習 構造化された if,thenルールの作成 決定木学習 属性1 • 決定木とは データ項目間の関係を木構造で表示する 分析手法(葉:ラベル 根、節:属性) YES NO 属性2 ラベル3 YES NO ラベル1 ラベル2 状態と行動から決定木を学習 状態 属性 決定木化 強化学習 行動 ラベル 構造化されたif,thenルール Profit Sharingの学習アルゴリズム エピソード(長さW) 迂回系列 z x x a y ルール xa yb zb xa ya ルール の重み F ( xa ) F ( yb) F (zb ) F ( xa ) F ( ya ) 状態 行動 b b a y a 報 酬 R 実験結果 協調性が必要とされる状態を抽出し獲得された行動の比較 ターゲットを右側に各ハンターとターゲットが一直線に並んだ状態を例に Profit Sharing Q学習 2 1 Q 学習 h 2 の 行 動 2 1 h1 の 行 動 PS U D L R S U 1 1 2 0 D 1 0 2 1 L 1 1 2 1 R 3 5 6 S 0 1 2 0 h1 の 行 動 U D L R S h 2 の 行 動 U:上 D:下 U 2 2 1 0 D 5 2 0 0 L 0 2 0 0 R:右 R 3 6 1 S:停滞 S 2 3 1 0 L:左 Q学習はh1が右に動く傾向が強い Profit Sharingはh1が上か下に動くと傾向が強い ●:hunter gent ▲:target Profit Sharingは捕獲に近い状態に対しより強 い影響を受けるためだと考えられる
© Copyright 2024 ExpyDoc