成功、失敗の報酬

強化学習(サッカーエージェント)
強化学習とは
• ある環境内におけるエージェントが、現在の
状態を観測し、取るべき行動を決定する問題
を扱う機械学習の一種.
• エージェントは行動を選択することで環境か
ら報酬を得る.
• 強化学習は一連の行動を通じて報酬が最も
多く得られるような方策を学習.
Q-Learningについて
1. 強化学習とは?
エージェント
行動選択
成功、失敗の報酬
環境
上式は、Q値の更新式なのですが。正直
訳が分からないと思います。
とりあえず、式の説明ですね!!
ある状態 s_t における最良な行動 a を
選ぶための基準を、各状態における各
行動での評価値 Q(s_t, a) を更新する
ような処理をしたいってことです。
もっと砕けた感じでいうと………
基本的な学習では、良い報酬につながるような行動を選ぶようにし
たいので、良い報酬を得られる行動 a は良い行動. その報酬を得ら
れる行動ができる状態に行けるための行動もちょっぴり良い行動と
いったような感じで良い報酬に近づいていく行動に対して、良い重み
づけをしていくようなイメージ. 悪い行動に対しても同様に悪い重み
を与える.
行動A
S1
行動A
行動A
S2
S3
G
Gをゴールだとして考えると、S3における行動Aはよい行動(重みのある)、なので
S3が良い行動であるのなら、S2での行動Aもちょっぴりよい行動になる(S3での
行動Aよりは低い価値)。といったように行動の価値が伝搬していく形になっている。
• Q-Learningは、先ほどのべたようになってい
る.
• 強化学習では
自分が報酬を決めることができるので報酬次第
で行動は変化していく.
初めから答えを教えるのではなく、人が学ぶ
のと同じように試行錯誤を通じて学んでいく.
自分でプログラムしても意図しない行動が見れた
りもするところも面白い部分.
現在の研究
• このQ-Learningを用いて研究を行っている.
内容
学習のモデルはサッカーのミニゲーム
動画で見てみよう!!