第 40 回 月例発表会( 2001 年 6 月) 知的システムデザイン研究室 並列分散知能 中村 康昭 1 • システムが出力すべきデータが教師からは与えられ 前回からの課題 ず,システムが実際に行った出力に対する評価とい • 研究室卒業生の論文を読み,知的化の概念を理解 する. う形で与えられる. • システム出力に対する評価が即座に与えられず,行 為の系列に対する評価が遅れて与えられる. • 強化学習のうちで,特に Q-Learning について学ぶ. 2 Q-Learning 行ったこと 2.1 強化学習の実現方法は様々なものが提案されている. 強化学習について調べる この中で,三木研究室卒業生は Q-Learning を用いてい 学習の機能を実現する手法は,様々なものがあるが, たため,これについて調べた. Q-Learning ではどの 三木研究室卒業生は,強化学習を用いている.よって, ように強化学習を実現しているかということを見てみ 強化学習について調べることとした.以下に調べたこと る.現在の状態を s とし,行動を a,その行動によって の概要について記す. 得られる報酬を r として,Q 値を Q(s, a) と置く. 強化学習は,本来,動物心理学あるいは動物行動学の 1. エージェントは現在の環境の状態 s を観測する. 分野の用語である.動物にある行動を起こした時だけ, 2. エージェントは任意の行動選択方法(探索戦略)に エサなどの報酬を与えるという操作を繰り返すと,その 行動パターンが徐々に“ 強化 ”され,ついには,報酬が 従って,行動 a を実行する. 与えられなくても,同様な状況におかれるとその行動を 3. 環境から報酬 r を受け取る. 起こすようになる.このように「条件付け」といわれる 一連の適応現象を実現する学習を「強化学習」と呼んで 4. 状態遷移後の状態 s を観測する. いる. 5. 以下の更新式によって,Q 値を更新する. 機械学習の側から捉えなおすと, “ 強化学習 ”はある Q(s, a) = (1 − α)Q(s, a) + α{r + γ max Q(s , a )} a 種の学習問題のクラスを示す言葉となる.学習者はある α:学習率( 0 < α 1 ),γ:割引率( 0 γ < 0 ) 環境の中で行動を起こすエージェントが想定される.学 6. 時間ステップを一つ進めて( 1 )へ戻る. 習者は,各時間ステップにおいて得られる感覚入力から 行動を決定し,実際にとった行動に対して,環境から報 Q-Learning には,収束定理があり,すべての行動を 酬が与えられる.学習の目的は,ある時間長さにわたる 十分な回数選択しさえすれば 行動選択方法に依存せず, 報酬の重み和を最大化することである.形式的に記述す 最適な Q 値に収束するということが分かっている.よっ れば,次のようになる.時刻 t における強化信号(報酬) て行動選択はランダムでも良いのだが,強化学習ではま の大きさを rt とすると,現在から未来にわたる信号の だ Q 値が収束していない学習の途中においてもなるべ 重み和 く多くの報酬を得るような行動選択を求められることが vt = 多い.行動選択方法として代表的な 2 つを以下にあげる. γ i−t・ri 1. e-greedy 選択:e の確率でランダム,それ以外は最 i=t 大の Q 値を持つ行動を選択. を最大化することとなる.ただし,γ は 0 γ < 1 からな 2. Boltzmann 選択:exp(Q(s, a)/T ) に比例した確率 る定数で,割引率 (diswcount rate) と呼ばれる.γ = 0 で行動選択.ただし,T は時間と共にゼロに近づく. の時は,現在の状況のみに着目し,未来を無視すること 3 になる.つまり,行動の評価はきわめて日和見的なもの となる.逆に,γ が1に近いと,どんなに遠い未来でも 今後の課題 • Java を習得し ,Q-Learning を実装させてみる. よいから大きな報酬が得られる方がよいことになり,行 • 学習を用いて何をさせるかを考える. 動の評価はきわめて長期的なものとなる.つまり,行動 の評価は極めて長期的なものとなる. 強化学習における問題の特徴は次の通りである. 1
© Copyright 2024 ExpyDoc