Actor-Criticを用いた 知的ネットワークシステムの提案 廣安 知之(同志社大学) 三木 光範(同志社大学) ○中村 康昭(同志社大学 大学院) 研究背景 近年の人工物には知的性質を備えているものが存在する Ex.) 自動温度調節を行う電子レンジ 人の存在を感知する照明 人の存在で風量を調節する空調 知的人工物 人工物におけるパラメータを環境に合わせて変更可能 利用者や環境にとってより高い効用をもたらす人工物 Intelligent Systems Design Lab. Doshisha Univ. 知的メカニズムの発現 状態を認識するSense部 適切な行動判断を行うJudge部 判断に従うAct部 自身に組み込まれたセンサ,駆動部から目的達成 Intelligent Systems Design Lab. Doshisha Univ. 知的ネットワークシステム 知的人工物が持つ知的性質を利用して,目的をネットワークに 与えることにより自律的に動作するネットワークシステム 柔軟な対応が不可欠 柔軟なJudge部 強化学習の適用 Intelligent Systems Design Lab. Doshisha Univ. 強化学習 教師が存在せず,報酬を手がかりに学習を進める 試行錯誤から選択すべき行動を学習する 代表的な強化学習手法 • Q-Learning • Actor-Critic Intelligent Systems Design Lab. Doshisha Univ. Q-Learning それぞれの状態に,状態と行動のセットで評価値が存在 S+A S +A -A S-A Boltzman選択 :exp(Q(s,a)/T)に比例して行動選択 ε-greedy選択:確率εでランダム,それ以外で最高評価の行動を選択 Intelligent Systems Design Lab. Doshisha Univ. Actor-Critic 状態評価部と行動選択部が独立して存在 状態評価部 行動選択部 確率設定可能 確率変動可能 状態S 良い状態へ遷移したとき 標準偏差: 外:標準偏差を広げる 内:標準偏差を縮める 中心値:行動方向へ移動 - 0 A + Intelligent Systems Design Lab. Doshisha Univ. シミュレーション:知的照明システム 目標:人を快適にする (快適=100±5 [lx]) 状態数:0~300 [lx]を60分割 ライト:1.5m間隔で3台設置 人:中央のライトの下に存在 Sense:人のいる地点の照度 各ライトのSense・Judge・Act Judge:判断基準との比較 Act:ライトの光度の変更 Intelligent Systems Design Lab. Doshisha Univ. システムの動作 照度計算 [逐点法] I I cos I E 2 cos3 h I:ライトの光度 E:人のいる地点の照度 1ステップ ネットワークに接続された 各照明が全て1回の動作を 行ったとき 1回の学習 人のいる地点が快適な 照度に達したとき Intelligent Systems Design Lab. Doshisha Univ. システムへの学習手法の適用 Q-Learning 各照明は±X[cd]という二つの行動から選択 ε-greedy選択を用いて行動を選択(ε=0.2) Actor-Critic 各照明は正規分布に基づいて値を出力させ,それに従い行動 正規分布の初期中心値を0とする 中心値と標準偏差の変化は実際にとった行動との1/2 Intelligent Systems Design Lab. Doshisha Univ. 人のいる地点の照度の履歴 学習により目標状態へ到達するまでのステップ数が少なくなる Intelligent Systems Design Lab. Doshisha Univ. 目標状態までのStep数の収束 大きな値を選択させるとステップ数は小さくなる Intelligent Systems Design Lab. Doshisha Univ. 機器が故障したときの柔軟な対応 各学習手法で100回の学習後,目標に到達したときの障害を想定 他の機器が柔軟に対処することが望ましい 行動選択 Q-Learning:±200[cd]から選択 Actor-Critic:初期標準偏差=200 Intelligent Systems Design Lab. Doshisha Univ. 障害時の行動(Q-Learning) 一つのライトの動作が大きいため,柔軟な対応が不可能 Intelligent Systems Design Lab. Doshisha Univ. 障害時の行動(Actor-Critic) 個々の機器が少しずつ明るくなることによって調整を行う Intelligent Systems Design Lab. Doshisha Univ. まとめ 知的ネットワークシステムの提案 知的人工物をネットワークに接続することにより 様々な要求に対応可能なシステムを目指す Q-LearningとActor-Criticの比較 Q-Learningではパラメータへの依存が大きい Actor-Criticではパラメータへの依存が少ない Actor-Criticが有効である Intelligent Systems Design Lab. Doshisha Univ. Intelligent Systems Design Lab. Doshisha Univ. 以降:参考資料 Intelligent Systems Design Lab. Doshisha Univ. 知的ネットワークシステム 知的人工物をネットワークに接続するシステム 他の機器のセンス・アクトを利用可能 システム全体で利用の可能性が広がる Intelligent Systems Design Lab. Doshisha Univ. Judge部の問題点 判断基準 書き換え部 判断基準が固定 柔軟な対応が困難 判断基準の書き換え 実動作部 強化学習 Intelligent Systems Design Lab. Doshisha Univ. TD誤差学習 St+1 St α γ 報酬R TD誤差 V (St+1) -V(St) V(St) TD誤差>0:良い状態へ遷移した TD誤差<0:悪い状態へ遷移した V(St+1 ) γ:割引率(0≦γ ≦ 1) α:学習率(0<γ ≦ 1 ) Intelligent Systems Design Lab. Doshisha Univ. Actor-Criticにおける正規分布の中心値 Intelligent Systems Design Lab. Doshisha Univ.
© Copyright 2024 ExpyDoc