Deep Reinforcement Learningを適用した

平成 27 年度 卒業論文概要
Deep Reinforcement Learning を適用した
スワームロボティクスシステムによる群れ行動の生成
B126556 片岡 駿一
【背景と目的】
近年,Deep Neural Network(DNN) の学習手法である Deep Learning と,強化学習の一手法であ
る Q-Learning を組み合わせた機械学習手法の一種である Deep Reinforcement Learning(DRL) が,
パターン認識をはじめ様々な分野で良好な成果を記録し注目を集めている.DRL は Q-Learning
においてエージェントの行動選択の指標となる行動価値関数 Q(s,a) の関数近似に DNN の一種で
ある Deep Q-Network(DQN) を用いる手法である.DRL ではセンサからの情報を直接,入力信
号として利用可能であり,人間の手による設計が必要な特徴表現の学習が可能となると言われて
いる.また,先行研究においてはロボットの制御器に適用した際にも高い学習能力を記録してい
る.そこで本研究では,Swarm Robotics System(SRS) の制御器設計に DRL を適用し群れ行動
の生成を試みる.また,活性化関数,センサレンジ,DQN の層の数の違いによる学習能力の違い
について調査を行う.
【実験設定】
本研究では SRS のタスクのうちの 1 つである Aggregation タスクを行う制御器の学習を試みる.
30m × 30m の環境内に 25 台の自律移動型ロボットを格子状に配置し集合行動を学習させる. 全て
のロボットには同一の DQN を搭載する.入力としてロボット外周に等間隔に他ロボット,壁を
感知するセンサを各 72 本設置する.ロボットの出力は,最大速度での前進,右旋回,左旋回と最
大速度の半分での前進,右旋回,左旋回と出力なしの 7 種類から選択する.
DQN の活性化関数,センサレンジ,DQN の層の数を変化させ,
変化による DQN の学習能力の違いを評価する.評価指標には環境
内のロボットが構成している集団の数を表すサブグループ数を用い
る.活性化関数は従来の Neural Network(NN) の学習で一般的に用
いられているシグモイド関数と,Deep Learning の研究で開発され
Deep Learning の問題点の一つである勾配消失問題に有効とされて
いる ReLU 関数の 2 種類から選択する.センサは,センサレンジを
3m,5m,10m とする.DQN の構造は従来の 3 層 NN と DQN との
学習能力の違いおよび,DQN の中間層の層の数による学習能力の
違いを調査するために,中間層を 1 層,3 層,4 層,5 層とする.
Fig. 1: Example of Aggregation
実験時間は 1000 タイムステップを 1 エピソードとし,1 エピソー
ドごとにロボットを初期位置に再配置する.50 エピソードを 1 試行
として実験を行う.
27
26
25
24
23
22
【結果と考察】
Fig.1 の示す通り,本研究では DRL を適用した SRS での集合
行動の生成に成功した. 本概要では活性化関数による結果の違い
について考察する.実験結果より各エピソードごとにサブグルー
プ数の平均を取り,50 エピソードでの推移を確認した (Fig.2).
グラフより,ReLU 関数を使用した ANN のほうが,シグモイド
関数を使用した ANN よりサブグループ数が少なく,よりまと
まった集団を形成していることがわかる.このことから,本実
Fig. 2: Transition of the subgroup
装においても,ReLU 関数は ANN の学習に効果的に作用してい
る可能性があると考えられる.
またこれらのことから,Aggregation タスクにおいては DRL の SRS への適用は有効であると
示せた.他タスクへの適用においても,活性化関数に ReLU 関数を用いることにより効果的な結
果を得られると期待できる.
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
0
5
10
15
20
25
30
35
40
45
50