強化学習と決定木による汎用 エージェントの構成の試み 理学部 数理情報科学科 本田研究室 黄 嵩 学籍番号:B003G025k 発表の流れ ・本研究の背景 ・本研究の目的 ・エージェントの行動様式の学習法 ・強化学習 ・決定木 ・エージェント汎用ルールの習得実験 ・問題設定と前提条件 ・強化学習の結果 ・決定木による汎用ルールのマイニング ・実験Demo ・結論と課題 研究の背景 エージェント(Agent):環境を知覚し、自分の内部には行 動規範を持ち、それに従って、自律的に行動する知的シス テム。 センサ群 単純エージェント 認識 静的に、変化しない エージェント 環境 新環境 (行動規範) 行動 ? 報酬 学習エージェント 動的に、更新される 問題点: 強化学習によって得られた行動ルールは必 ずしも新しい環境に適用できるとは限らない 強化学習 探査的な行動を行い、目的に沿った行動をした時に報酬を与 え、報酬によって行動規範を改善していく 本研究の目的 ・強化学習と決定木による汎用エージェントの構成 強化学習 環境1 Agent 環境2 行動 環境 クラス 属性 決定木学習 汎用Agent 環境3 汎用ルール 強化学習 ・報酬に基づいて行動規範を学習する 例:Q学習 知覚 st 環境 s Agent Q(s,a) 行動 at 方策 π 報酬 rt t:ステップ 行動価値 関数 Max選択 ε-greedy選択 Q(st,at)=Q(st,at)+α(rt+γr’t+1-Q(st,at)) 学習率 割引度 Max選択: 最大の行動価値を持つ行動arg maxa Q(s, a) を選択する ε-greedy選択: 確率εでランダムな行動を選択し、それ以外は,最大の 行動価値を持つ行動arg maxa Q(s, a) を選択する 決定木による汎用ルールのマイニング 決定木とは: データ項目間の関係を木構造で 表示する分析手法 (葉:クラス 根、節:条件式) 行動 環境 決定木学習アルゴリズム C4.5(Quinlan,1993) 条件式1 No Yes クラス3 条件式2 Yes クラス1 S S1 エントロピー (データ集合(S)内のクラス分布の乱雑さの指標) H(S)=-∑pj log pj(j:クラス、 pj:クラスjの出現確率) No クラス2 S2 汎用ルール 相互情報量ゲイン率 (分割の効率の指標) Gain=H(S)-(|S1|*H(S1)+|S2|*H(S2))/|S| 分割前 分割後 分割テストの際に、相互情報量ゲイン率を最大化する条件式を選択 しながら木構造を成長させることによって、最適な決定木を学習 エージェント汎用ルールの習得実験 問題設定 2次元空間内で、壁に沿って時計回りするエージェント 環境:座標 行動:上、下、左、右のいずれかへ移動 孤立した障害物、幅が1になる通路は存在しないと仮定 強化学習の手法 報酬(r): 0 (case1 & case2の時) = -1 (それ以外の時) Case1 ←A Case2 ←A 動線の左に壁が存在 角から壁上に戻り、かつ動線の 左に壁が存在 ・方策:Max選択、ε-greedy選択{ε=0.1, 0.3, 0.5, 0.7} ・エピソード数:150 ・1エピソードのステップ数:1000 強化学習の学習結果 エピソード:1 エピソード:150 ε-greedy選択(ε=0.5) 赤:報酬0 緑:報酬-1 決定木の学習に使用するデータ(強化学習によりサンプリング) 強化学習の結果からMax選択 で取得 a=argmax Q(s,a) 左上 左 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1:壁 0:通路 環境 左下 上 下 右上 1 1 0 1 1 0 1 0 1 1 0 1 1 0 0 0 1 0 1 0 1 1 0 1 1 0 0 0 ・ 属性 ・ ・ 行動 右 右下 0 0 rightward 0 1 upward 0 0 rightward 0 0 upward 0 1 upward 0 0 rightward 0 0 upward サンプル数:147 C4.5に投入 クラス C4.5によって形成された決定木(汎用ルール) 左 エラー率:40% 周りに壁がない場合を除く エラー率:0% 下 0 0 左下 0 1 右 0 右上 0 1 上 0 下移動 右移動 1 上移動 右移動 0 1 左移動 1 下移動 1 上 左移動 右下 0 1 上移動 1:壁 0:通路 1 右移動 汎用ルールの異なる環境への適用実験 学習に用いたマップ 新しいマップ(環境) 結論 ・強化学習の結果から汎用ルールを決定木として習得し、汎用 エージェントを構成する枠組みを提示した ・壁に沿って時計回りに移動するエージェントの学習に適用し、 その有効性を確認した 課題 ・難しい或は現実的な問題に対する適用性の追及 ・強化学習の学習法の変更(Profit Sharingなど)によって、汎用 エージェント構成の検証 強化学習とエージェントの関係 機械学習の1つである強化学習は,報酬を利用して方策を 最適化することで,エージェントを環境に適応させることを 目的とする.強化学習エージェントが得た知識を利用して, 方策を改善する手法を提案する. 動的計画法(DP) 最適方策を計算するためのアルゴリズムであり、環境の完全なモデ ルがマルコフ決定過程(MDP)として与えられている場合に適用できる。 マルコフ決定過程(MDP) 行動の決定が現在の状態の観察のみに基づく過程 Vπ0 I 方策評価: E π0 E π1 E Vπ1 方策改善: I I π2 E ・・・ I π* E V* モンテカルロ法 ・モンテカルロ法は、サンプル収益を平均化することに基づいて 強化学習問題を解く方法である。 ・モンテカルロ法は環境の完全な知識を仮定しない、経験 (experience)のみを必要とする。 制御:一般化方策反復(GPI) 評価 Q Qπ π Q π greedy(Q) 改善 目的 本研究 強化学習と決定木によるエージェント 汎用行動ルールの習得 目的 ・強化学習による学習エージェントの構成 ・決定木によるエージェント汎用行動ルールの習得 ・行動ルールの汎用性についての検証 学習エージェントとは 通常のエージェント 目的に沿った行動をするようにルールを作りこむ 学習するエージェント 経験に基づいて自律的に行動規範を見つける 振る舞いを改善できない 学習しないエージェント 経験に基づいて 振る舞いを改善できる 学習するエージェント 強化学習 ・報酬に基づいて行動規範を学習する ・各行為の推定価値を元に試行錯誤を通じて自立的に学習する 強化学習の構成要素 方策(policy): (π) ある時点での学習エージェントの振舞い方を定義する。 報酬関数(reward function): (r) 強化学習問題において目標を定義する。 価値関数(value functions): (Q;V) 最終的に何が良いのかを指定する。 モデル(model): 環境の挙動を模倣するような何かである。 TD制御(時間的差分学習;Temporal Difference Learning) 環境のダイナミクスのモデルを用いずに、経験から直接学習することができ、 最終結果を待たずに、他の推定値の学習結果を一部利用し、推定値を更新する。 ①Sarsa:方策オン型TD制御(St,at,rt+1,st+1,at+1) s:状態 a:行動 r:報酬 t:時刻 最初に状態価値関数ではなく、行動価値関数を学習するよう ②Q学習:方策オフ型TD制御 1ステップQ学習 学習で獲得される行動価値関数Qは、使われている方策とは独 立にQ*(最適行動価値関数)を直接近似する left(0) lowerleft(0) lowerleft(1) leftward right(0) upperright(1) rightward upperright(0) down(0) upperleft(0) lowerright(0) leftward right(1) lowerright(1) down(0) downward upperleft(1) up(0) down(1) upward leftward downward 図 up(1) down(1) leftward left(1) up(0) up(1) rightward upward rightward オールゼロ属性を含まない場合の決定木 Q-learning ・現在の状態における行動の評価値を学習 Q(st,at) Q(st,at)+α[r(t+1)+γmaxQ(st+1,at+1)-Q(st,at)] at+1 αの割合で近づける ように更新 rt r(t+1)+γmaxQ(st+1,at+1) Q(st,at) maxQ(st+1,at+1) 状態St+1 状態St 報 酬 rt Q:行動価値関数 α:学習率 γ:割引率 遷移先の状態における行動で 最大のQ値を持つものを探す Q-learningのアルゴリズム ・ Q(s, a) を任意に初期化 ・ 各エピソードに対して繰り返し: ・ s を初期化 ・ エピソードの各ステップに対して繰り返し: ・ Q から導かれる方策(例えばQ に対するεgreedy 方策) を使って, s での行動a を選択する ・ 行動a を取り,r,st+1を観察する ・ Q(s, a) ← Q(s, a) + α[r + γ maxaQ(st+1, at+1) − Q(s, a)] ・ s ← st+1 ・ s が終端状態ならば繰り返しを終了 強化学習の結果 各エピソードにおける報酬の合計 100 0 -100 -200 -300 Max選択 ε=0.5 -400 -500 -600 -700 -800 -900 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 エピソード数
© Copyright 2025 ExpyDoc