強化学習 3回目の内容 RT モンテカルロ法とは… とりあえず数回ランダムに試行して 結果の平均で対象のパラメタを推定 εソフト方策オン型モンテカルロ制御 すべてのs∈S, a∈A(s)に対してランダムに初期化: Q(s,a)←任意,Returns(s,a) ←空のリスト π←任意のε ソフト方策, π(s,a) ←(s, a)の選択確率 ●無制限に繰り返す: (a)πを用いてエピソード(s,aのシーケンス)を1個作成 (b)エピソード中に出現する各s,aの対について: R ←s,aの初回発生後の総収益 Returns(s,a) にRを追加 Q(s,a)←average(Returns(s,a)) (c)エピソード中の各sについて: a*←arg max_a Q(s,a) すべてのa∈A(s)について: π(s,a) ← 1- ε+ ε/|A(s)| (if a=a*) ε/|A(s)| (else) 参考サイト • http://www.cs.ualberta.ca/~sutton/book/ebo ok/node54.html 応用(Second Life) • Merrick, K.: (2007) Modelling Motivation for Adaptive Non-Player Characters in Dynamic Computer Game Worlds, ACM Computers in Entertainment, Newton Lee (Ed.), (to appear). • http://www.cs.usyd.edu.au/~kkas0686/publi cations/CiE-merrick-revised.pdf SLにおけるかじ屋と大工屋の学習 (溶錬) (炉) (つるはし) (ろくろ) (おの) かじ屋と大工屋の学習結果 モンスターの登場 (外部による環境変化) モンスター登場前と後の大工屋の 学習結果
© Copyright 2025 ExpyDoc