1 前回からの課題 2 行ったこと 3 今後の課題

第 40 回 月例発表会( 2001 年 6 月)
知的システムデザイン研究室
並列分散知能
中村 康昭
1
• システムが出力すべきデータが教師からは与えられ
前回からの課題
ず,システムが実際に行った出力に対する評価とい
• 研究室卒業生の論文を読み,知的化の概念を理解
する.
う形で与えられる.
• システム出力に対する評価が即座に与えられず,行
為の系列に対する評価が遅れて与えられる.
• 強化学習のうちで,特に Q-Learning について学ぶ.
2
Q-Learning
行ったこと
2.1
強化学習の実現方法は様々なものが提案されている.
強化学習について調べる
この中で,三木研究室卒業生は Q-Learning を用いてい
学習の機能を実現する手法は,様々なものがあるが,
たため,これについて調べた. Q-Learning ではどの
三木研究室卒業生は,強化学習を用いている.よって,
ように強化学習を実現しているかということを見てみ
強化学習について調べることとした.以下に調べたこと
る.現在の状態を s とし,行動を a,その行動によって
の概要について記す.
得られる報酬を r として,Q 値を Q(s, a) と置く.
強化学習は,本来,動物心理学あるいは動物行動学の
1. エージェントは現在の環境の状態 s を観測する.
分野の用語である.動物にある行動を起こした時だけ,
2. エージェントは任意の行動選択方法(探索戦略)に
エサなどの報酬を与えるという操作を繰り返すと,その
行動パターンが徐々に“ 強化 ”され,ついには,報酬が
従って,行動 a を実行する.
与えられなくても,同様な状況におかれるとその行動を
3. 環境から報酬 r を受け取る.
起こすようになる.このように「条件付け」といわれる
一連の適応現象を実現する学習を「強化学習」と呼んで
4. 状態遷移後の状態 s を観測する.
いる.
5. 以下の更新式によって,Q 値を更新する.
機械学習の側から捉えなおすと,
“ 強化学習 ”はある
Q(s, a) = (1 − α)Q(s, a) + α{r + γ max Q(s , a )}
a
種の学習問題のクラスを示す言葉となる.学習者はある
α:学習率( 0 < α 1 ),γ:割引率( 0 γ < 0 )
環境の中で行動を起こすエージェントが想定される.学
6. 時間ステップを一つ進めて( 1 )へ戻る.
習者は,各時間ステップにおいて得られる感覚入力から
行動を決定し,実際にとった行動に対して,環境から報
Q-Learning には,収束定理があり,すべての行動を
酬が与えられる.学習の目的は,ある時間長さにわたる
十分な回数選択しさえすれば 行動選択方法に依存せず,
報酬の重み和を最大化することである.形式的に記述す
最適な Q 値に収束するということが分かっている.よっ
れば,次のようになる.時刻 t における強化信号(報酬)
て行動選択はランダムでも良いのだが,強化学習ではま
の大きさを rt とすると,現在から未来にわたる信号の
だ Q 値が収束していない学習の途中においてもなるべ
重み和
く多くの報酬を得るような行動選択を求められることが
vt =
多い.行動選択方法として代表的な 2 つを以下にあげる.
γ i−t・ri
1. e-greedy 選択:e の確率でランダム,それ以外は最
i=t
大の Q 値を持つ行動を選択.
を最大化することとなる.ただし,γ は 0 γ < 1 からな
2. Boltzmann 選択:exp(Q(s, a)/T ) に比例した確率
る定数で,割引率 (diswcount rate) と呼ばれる.γ = 0
で行動選択.ただし,T は時間と共にゼロに近づく.
の時は,現在の状況のみに着目し,未来を無視すること
3
になる.つまり,行動の評価はきわめて日和見的なもの
となる.逆に,γ が1に近いと,どんなに遠い未来でも
今後の課題
• Java を習得し ,Q-Learning を実装させてみる.
よいから大きな報酬が得られる方がよいことになり,行
• 学習を用いて何をさせるかを考える.
動の評価はきわめて長期的なものとなる.つまり,行動
の評価は極めて長期的なものとなる.
強化学習における問題の特徴は次の通りである.
1