研究報告(5月26日)

研究報告(5月26日)
昨年行ってきたことの流れ
1. 知的照明システムの理解
2. 知的照明システムに組み込む学習制御の考察
3. Actor-Criticを組み込んだ知的照明システムの検討
4. Actor-Criticを組み込んだ知的家電システムの検討
5. Q-LearningとActor-Criticとの比較をきちんと行う
シミュレーション:知的照明システ
ム
目標:人を快適にする
(快適=100±5 [lx])
状態数:0~300 [lx]を60分割
Sense:人のいる地点の照度
Judge:判断基準との比較
各ライトのSense・Judge・Act
Act:ライトの光度の変更
Q-LearningとActor-Criticの比
較
Actor-Criticがより少ないステップで目標に到達する
知的家電システム
照明と共に,空調をネットワークに接続する
シミュレーション結果
目標:150回の学習を行う
結果:学習の成功率は約50%
学習が成功したときの平均(55試行)
抽象的な目的に対して
学習により判断基準を
生成することで自身の
目的を判断することが
できるようになる
学習の成功確率を
あげる必要がある
学習が失敗した例
シミュレーション:知的照明システ
ム
目標:人を快適にする
(快適=100±5 [lx])
状態数:0~300 [lx]を60分割
ライト:1.5m間隔で3台設置
人:中央のライトの下に存在
Sense:人のいる地点の照度
Judge:判断基準との比較
各ライトのSense・Judge・Act
Act:ライトの光度の変更
人のいる地点の照度の履歴
学習により目標状態へ到達するまでのステップ数が少なく
目標状態までのStep数の収束
大きな値を選択させるとステップ数は小さく
機器が故障したときの柔軟な対応
各学習手法で100回の学習後,目標に到達したときの障害を想定
他の機器が柔軟に対処することが望ましい
行動選択
Q-Learning:±200[cd]から選択
Actor-Critic:初期標準偏差=200
障害時の行動(Q-Learning)
一つのライトの動作が大きいため,柔軟な対応が不可能
障害時の行動(Actor-Critic)
個々の機器が少しずつ明るくなることによって調整
現在と今後
現在
GAのプログラム作成
学習手法の勉強(蟻モデルなど学習効果のあるもの)
ゴールドバーグの研究調査
今後
効果的な学習手法の確立モデルGAへの適用