自律ロボットソフトウェア の経路学習

自律ロボットソフトウェア
の経路学習
H207004
伊藤
謙
研究背景
多くの環境で対応できるエージェントの作成。
適応するため知的能力を持たせる。
知的能力として学習能力に着目。
環境に適応するため、環境と実行者の相互作
用の学習として機械学習の強化学習を導入
する。
研究概要
環境に適したエージェントにするため、仮想空
間を形成するK4を対象にする。
K4エージェントにたいして強化学習を導入する。
実験として単純な命令に対する学習結果を評
価する。
参考として既存のK4エージェントの比較も行う。
K4
CG処理と言語処理から構成されたソフトウェア。
仮想空間とエージェントの相互作用から言語の
理解を目的に開発。
操作としてはエージェントの空間操作による
ユーザの目標達成を行う。
K4画面
K4エージェント
目標:ユーザの命令実行。
BehaviorManager
動作:
命令を分析
DiscourceManager
↓
Planner
プランニング
↓
ActionManager
実行
改変K4
目標とするK4の知的エージェント
・ユーザの命令を効率良く達成できる学習能力
を持つ知的エージェント。
・学習として強化学習のQ学習を実装。
・行動生成にε‐greedy方策を行う。
強化学習:方策
ε-greedy方策:
確率εでランダムに行動選択を行い、確率1-ε
でgreedy方策を行う。
greedy方策:
最も良い行動(最も高い評価値)を選択。
実装時の確率:0.1
学習が行なわれた後、頻繁にランダムな選択
を行わせないため。
強化学習-手法
1stepQ学習:
Q( st , at )  Q( st , at )   [rt   max Q( st 1 , at 1 )  Q( st , at )]
Q : 行動評価関数s : 状態
r : 利益  : ステップサイズ・パラ
at
a : 行動 t : time
メータ  : 割引率
α:0.6 γ:0.9(学習促進)
r:目標達成 10 オブジェクト -1 その他 0
ターム
・目標達成。
・一定の行動生成
以上の条件を満たした時、エピソードを終了。
次エピソードに移行。
改変K4の状態・行動表現
状態表現: s  S
仮想空間のx座標とz座標の2次元座標。
行動表現: a  A
K4エージェントに実装されている動作。
Walk , Hold , Put , LookAt , Turn
z
y
x
改変K4学習フローチャート
起動
仮想世界
の初期化
エージェント
動作
エージェントの
行動選択選択
評価値更新
NO
目標の
達成
YES
全体の流れ
メインクラスMain内で処理。
常に目標条件を達成しているかの監視。
達成時には、の初期化を行う。
環境の初期化
初期化内容
・オブジェクトの位置:
エージェントを含む全てのオブジェクトを起動
時の位置へと再配置する。
・エージェントの初期化:
エージェントの受け取っている命令の情報、ス
ケジューラの予定を消去する。
実験
対象:K4、改変K4
(改変K4は2種類の状態表現。)
内容:命令の実行の観察。
命令:「青いボールを取って」
試行回数:70回(K4_1の問題のため)
実験結果 改変K4_1 改変K4_2
・K4_1 状態表現:座標を0.1単位で分割
141*141*5の状態表現
ターム:行動回数を1000回
成功回数:11回
・K4_2 状態表現:座標を1.0単位で分割
15*15*5の状態表現
ターム:行動回数を500回
成功回数:35回
改変 K4_1 K4_2 達成数
7
6
5
4
K4_1
3
K4_2
2
1
0
~10
~20
~30
~40
~50
~60
~70
改変K4_1 評価値
2.5
2
2-2.5
1.5
1.5-2
1
1-1.5
z13
0.5
z9
z5
z1
x15
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
x11
x12
x13
x14
0
0.5-1
0-0.5
改変K4_2 評価値
10
8
8-10
6
6-8
4
4-6
z13
2
z9
z5
z1
x15
x14
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
x11
x12
x13
0
2-4
0-2
実験結果K4
実行回数:10回
経路決定によるポテンシャルの確認。
結果:
動作時間 20秒
ポテンシャルの変動はなし。
考察
状態表現が大きすぎて学習が進まない。
空間の座標のずれが大きい。
やはり、既存のK4の性能にはかなわない。
対象の位置や初期地等の少しの変更に対して
も再学習の必要性がある。
まとめ
静的環境のみに対応。
状態と仮想空間の座標の差がある。
メモリの問題上、状態が大きいと対応できない。
展望
改変K4_1の状態で可能にする。
より複雑な状況に対応するため、状態表現を改
良。
↓
他のオブジェクトの座標、命令等の情報も使
用。
状態削減方法:自己増殖型ニューラルネット
ありがとうございました。
自己増殖型ニューラルネット
入力パターン
整合度 < r
ニューロン作成
Stem neuron
整合度 => r
内部ポテンシャル > g
ニューロン分割