PowerPoint プレゼンテーション

強化学習
3回目の内容
RT
モンテカルロ法とは…
とりあえず数回ランダムに試行して
結果の平均で対象のパラメタを推定
εソフト方策オン型モンテカルロ制御
すべてのs∈S, a∈A(s)に対してランダムに初期化:
Q(s,a)←任意,Returns(s,a) ←空のリスト
π←任意のε ソフト方策, π(s,a) ←(s, a)の選択確率
●無制限に繰り返す:
(a)πを用いてエピソード(s,aのシーケンス)を1個作成
(b)エピソード中に出現する各s,aの対について:
R ←s,aの初回発生後の総収益
Returns(s,a) にRを追加
Q(s,a)←average(Returns(s,a))
(c)エピソード中の各sについて:
a*←arg max_a Q(s,a)
すべてのa∈A(s)について:
π(s,a) ←
1- ε+ ε/|A(s)| (if a=a*)
ε/|A(s)|
(else)
参考サイト
• http://www.cs.ualberta.ca/~sutton/book/ebo
ok/node54.html
応用(Second Life)
• Merrick, K.: (2007) Modelling Motivation
for Adaptive Non-Player Characters in
Dynamic Computer Game Worlds, ACM
Computers in Entertainment, Newton Lee
(Ed.), (to appear).
• http://www.cs.usyd.edu.au/~kkas0686/publi
cations/CiE-merrick-revised.pdf
SLにおけるかじ屋と大工屋の学習
(溶錬)
(炉)
(つるはし)
(ろくろ)
(おの)
かじ屋と大工屋の学習結果
モンスターの登場
(外部による環境変化)
モンスター登場前と後の大工屋の
学習結果