エージェントアプローチ 人工知能 B4 片渕 聡 1 目次 17章 複雑な意思決定 18章 経験からの学習 2 17章 時間の伴う確率的推論 目次 逐次意思決定問題 マルコフ意思決定過程 価値反復 方策反復 部分マルコフ意思決定過程 ゲーム理論 まとめ 3 17章 時間の伴う確率的推論 目次 逐次意思決定問題 マルコフ意思決定過程 価値反復 方策反復 部分マルコフ意思決定過程 ゲーム理論 まとめ 4 逐次意思決定問題 16章では1回限りの意思決定について扱った -効用理論 17章では逐次意思決定問題を扱う -効用を用いて一連の動作を決定 5 逐次意思決定問題 (例題:4×3問題) -0.04 (報酬) -0.04 S -0.04 -0.04 -0.04 -0.04 -0.04 -0.04 G +1 G -1 -0.04 意図した方向 0.8 0.1 0.1 環境:完全観測可能 環境全体及び自分の位置を知ることができる 6 17章 時間の伴う確率的推論 目次 逐次意思決定問題 マルコフ意思決定過程 価値反復 方策反復 部分マルコフ意思決定過程 ゲーム理論 まとめ 7 マルコフ意思決定過程 完全観測可能な環境での逐次意思決定問題 -初期状態:S0 -遷移モデル:T(s,a,s’) 状態sから行動aが行われた時,状態s’に遷移する確率 -報酬関数(各状態での報酬を規定):R(s) 状態sにおける報酬 8 方策 エージェントが何をすべきなのかを示す π(s):状態sにおいて方策πが推奨する行動 最適方策 -環境の履歴に対する期待効用が最大となる方策 現在の知覚を元に行動π*(s)を実行 9 リスクと報酬のバランス 現在のR(s)の範囲によって最適方策が異なる -動き続けるのがつらい時(R(s)≦-1.63) 「-1」のゴールであろうと出口に向かう -あまり動きたくない時(-0.43≦R(s)≦-0.09) リスクを冒してでも「+1」のゴールに向かう(リスク指向) -動いても問題がない時(R(s)>-0.02) 「-1」のゴールだけは避けたい(リスク忌避的) 10 逐次意思決定問題の効用 報酬関数から効用関数を求める2つの方法がある -加法的報酬:報酬関数の単純な加算 Uh([s0,s1,…])=R(s0)+R(s1)+R(s2)+… -割引報酬:割引率γ(0~1)の採用 Uh([s0,s1,…])=R(s0)+γR(s1)+γ²R(s2)… 割引報酬は選好に良い結果を齎すことが多い 11 17章 時間の伴う確率的推論 目次 逐次意思決定問題 マルコフ意思決定過程 価値反復 方策反復 部分マルコフ意思決定過程 ゲーム理論 まとめ 12 価値反復 各状態の効用を計算して最適方策を導出 -最大期待効用の原理を利用 次状態の期待効用の最大化 EUπ*(s’)=maxΣT(s,a,s’)U(s’) a s’ (状態sにおける効用値) = (状態sの報酬) + (次の状態の割引期待効用) U(s)=R(s)+γEUπ*(s’) Bellman方程式 13 価値反復アルゴリズム 状態sにおける効用値の更新 Ui+1(s)R(s)+γmaxΣT(s,a,s’)Ui(s’) a s’ Bellman更新 14 17章 時間の伴う確率的推論 目次 逐次意思決定問題 マルコフ意思決定過程 価値反復 方策反復 部分マルコフ意思決定過程 ゲーム理論 まとめ 15 方策反復 次の2つのステップを反復して実行 -方策評価 ・方策πiを行ったと仮定した時の効用Ui=Uπiを計算 -方策改善 ・ 効用Uiを用いて新しい方策πi+1を計算 s’ Ui(s)=R(s)+γΣT(s, πi ,s’)Ui(s’) 16 価値反復と方策反復の相違 最適方策の導出法 価値反復:全ての効用値からMaxを導出 方策反復:ある方策から徐々に改善 性能差 計算量の少なさ 価値反復<方策反復 17 17章 時間の伴う確率的推論 目次 逐次意思決定問題 マルコフ意思決定過程 価値反復 方策反復 部分マルコフ意思決定過程 ゲーム理論 まとめ 18 部分マルコフ意思決定過程 (Partically Obsevable MDP;POMDP) 部分観測可能な環境での逐次意思決定問題 -自分の現在の状態を把握できないetc 遷移モデル:T(s,a,s’) 報酬関数:R(s) 観測モデル:O(s,o) -状態sにおける観測結果oを知覚する確率 信念状態:b -全ての可能な状態における確率分布 例:b(s0)=<1/9,1/9,1/9,1/9,1/9,1/9,1/9,1/9,1/9,0,0> 19 POMDPの意思決定プロセス 行動aを起こすと信念状態は変化 新しい信念状態b’(s’)の導出 b’(s’)=αO(s’,o)ΣT(s,a,s’)b(s) s POMDPの意思決定サイクル 1.現在の信念状態bからa=π*(b)を導出 2.観測結果oを受け取る 3.上記の式より新たな信念状態b’を導出 4.1~3を繰り返す 20 17章 時間の伴う確率的推論 目次 逐次意思決定問題 マルコフ意思決定過程 価値反復 方策反復 部分マルコフ意思決定過程 ゲーム理論 まとめ 21 ゲーム理論 複数のエージェントが相互作用する環境での意思決定 -競売、国防etc エージェント設計 -エージェントの決定を解析し最適方策を導出 機構設計 -複数のエージェント間の相互作用のルールを定義 ・マルチエージェントシステムの構築に利用可能 22 17章 時間の伴う確率的推論 目次 逐次意思決定問題 マルコフ意思決定過程 価値反復 方策反復 部分マルコフ意思決定過程 ゲーム理論 まとめ 23 まとめ 逐次意思決定問題:一連の動作の決定 マルコフ意思決定過程 -完全観測可能な環境における逐次意思決定問題 価値反復 方策反復 部分マルコフ意思決定過程 -自分の状態を把握できない中での意思決定 24 ここまで17章 25 18章 経験からの学習 目次 学習とは 帰納学習 決定木の学習 アンサンブル学習 計算論的学習理論 まとめ 26 18章 経験からの学習 目次 学習とは 帰納学習 決定木の学習 アンサンブル学習 計算論的学習理論 まとめ 27 機械学習とは 人間と同様な学習能力を機械で実現する技術 -行動結果及びサンプルデータを解析 -有用な規則を導く -エージェントの行動を改善 28 学習の形式 教師あり学習 -入出力事例から「関数」を導き出す 例:IF-THENルール 教師なし学習 -入出力事例の無い状態から入力パターンを解析 強化学習(21章) -行動結果(報酬)から効用関数の要素を導き出す 29 18章 経験からの学習 目次 学習とは 帰納学習 決定木の学習 アンサンブル学習 計算論的学習理論 まとめ 30 帰納学習 教師あり学習では特定の入出力例から関数を導く -対(x,f(x)) (x:入力 f:関数) 帰納学習 -fの例集合に対して近似する関数h(仮説)を求める よい近似かを判断するのは困難 同じ入出力例から複数の関数を得てしまう 31 オッカムの剃刀 入出力例に無矛盾な仮説のうち 最も簡潔な仮説が好ましいという考え方 ・同じ例に対して複数の仮説が存在する時は 最も単純な仮説を選ぶ ※選んだ仮説が正しいとは限らない 32 18章 経験からの学習 目次 学習とは 帰納学習 決定木の学習 アンサンブル学習 計算論的学習理論 まとめ 33 決定木 入出力事例をグラフで表現 -例:レストランで待つかどうかの決定木 客の入り 皆無 No 属性 入力値 満員 そこそこ 待ち時間 Yes 20分以上 腹具合 Yes No 20分以内 Yes 出力値 No Yes 34 決定木の学習 入出力例から決定木を生成 レストラン問題の 入出力例 例 X1 X2 X3 X4 X5 X6 X7 客 None Full None Some Full Full Some 待 20↓ 20↓ 20↓ 20↓ 20↑ 20↑ 20↓ 腹 No No Yes Yes Yes No No 出力 No Yes No Yes No Yes Yes 35 決定木の生成(1/2) 根ノード属性の選択 -最も分類を促進するノード(深さの最小化を目指す) 悪いノード 良いノード 腹具合 Yes 客の入り No No Yes X3, X4 X5 X1, X2 X6, X7 出力がばらばら No X1, X3 Yes 属性2 X4, X7 X2,X6, X5 出力がある程度まとまってる 36 決定木の生成(1/2) 入出力例から生成された決定木 客の入り No X1, X3 腹具合 Yes X4, X7 実際の決定木と異なる No Yes X5 X2,X6 37 属性選択 属性選択に用いるノード=情報量の最小となるノード n -情報量:I(P(v1,…,vn))=Σ(-P(vi)log2P(vi)) i=1 表裏が公平なコインの場合情報量 -I(½,½)=-½log2½-½log2½=1(bit) 38 アルゴリズムの性能評価 1.例をたくさん集める 2.それを訓練集合とテスト集合の2つの排反集合に分別 -訓練集合:仮説Hを生成に用いる -テスト集合:Hが正しいか検査するテストに用いる 3.学習アルゴリズムを訓練集合に適用して仮説Hを生成 4.Hによって正しく分類されたテスト集合の百分率をとる 5.訓練集合の大きさ及び例を変えて2~4を繰り返す。 テスト 成功率 訓練集合のサイズ 39 18章 経験からの学習 目次 学習とは 帰納学習 決定木の学習 アンサンブル学習 計算論的学習理論 まとめ 40 アンサンブル学習 複数の予測結果から多数決で最良の予測値を決める -例:同一の訓練集合から百個の異なる決定木を生成 新しい例がきた時、 Yesを返す決定木が60個 Noを返す決定木が40個の場合 この例の予測値はYesとする 仮説が1つの時と比べ誤分類する確率は大幅に減少 41 ブースティング法 アンサンブル法の代表的な手法 -ある訓練集合を元に仮説H1を生成 -その訓練集合でH1の検査を行う ・正しく分類された例には重みwを少なくする ・誤分類された例には重みwを多くする -分類成功率から仮説H1じたいにも重みzをつける -重み付けされた訓練集合からH2を作成 -同様の操作を行い仮説をN個作成 -重みzの最も高い仮説を返す 42 18章 経験からの学習 目次 学習とは 帰納学習 決定木の学習 アンサンブル学習 計算論的学習理論 まとめ 43 計算論的学習理論 学習における計算量や仮説モデルの表現力を研究 一般的に 仮説モデルの表現力(精度・誤分類率の低さ) トレードオフ サンプル計算量(例の個数)・時間計算量 44 18章 経験からの学習 目次 学習とは 帰納学習 決定木の学習 アンサンブル学習 計算論的学習理論 まとめ 45 まとめ 学習の形式は教師あり、教師なし、強化学習 帰納学習は例に無矛盾な仮説を求める -オッカムの剃刀 決定木により単純かつ無矛盾な仮説が求まる アンサンブル学習は単独の学習より精度が良い -ブースティング法 仮説の精度と計算量間にはトレードオフが存在 46
© Copyright 2024 ExpyDoc