自律ロボットソフトウェア の経路学習 H207004 伊藤 謙 研究背景 多くの環境で対応できるエージェントの作成。 適応するため知的能力を持たせる。 知的能力として学習能力に着目。 環境に適応するため、環境と実行者の相互作 用の学習として機械学習の強化学習を導入 する。 研究概要 環境に適したエージェントにするため、仮想空 間を形成するK4を対象にする。 K4エージェントにたいして強化学習を導入する。 実験として単純な命令に対する学習結果を評 価する。 参考として既存のK4エージェントの比較も行う。 K4 CG処理と言語処理から構成されたソフトウェア。 仮想空間とエージェントの相互作用から言語の 理解を目的に開発。 操作としてはエージェントの空間操作による ユーザの目標達成を行う。 K4画面 K4エージェント 目標:ユーザの命令実行。 BehaviorManager 動作: 命令を分析 DiscourceManager ↓ Planner プランニング ↓ ActionManager 実行 改変K4 目標とするK4の知的エージェント ・ユーザの命令を効率良く達成できる学習能力 を持つ知的エージェント。 ・学習として強化学習のQ学習を実装。 ・行動生成にε‐greedy方策を行う。 強化学習:方策 ε-greedy方策: 確率εでランダムに行動選択を行い、確率1-ε でgreedy方策を行う。 greedy方策: 最も良い行動(最も高い評価値)を選択。 実装時の確率:0.1 学習が行なわれた後、頻繁にランダムな選択 を行わせないため。 強化学習-手法 1stepQ学習: Q( st , at ) Q( st , at ) [rt max Q( st 1 , at 1 ) Q( st , at )] Q : 行動評価関数s : 状態 r : 利益 : ステップサイズ・パラ at a : 行動 t : time メータ : 割引率 α:0.6 γ:0.9(学習促進) r:目標達成 10 オブジェクト -1 その他 0 ターム ・目標達成。 ・一定の行動生成 以上の条件を満たした時、エピソードを終了。 次エピソードに移行。 改変K4の状態・行動表現 状態表現: s S 仮想空間のx座標とz座標の2次元座標。 行動表現: a A K4エージェントに実装されている動作。 Walk , Hold , Put , LookAt , Turn z y x 改変K4学習フローチャート 起動 仮想世界 の初期化 エージェント 動作 エージェントの 行動選択選択 評価値更新 NO 目標の 達成 YES 全体の流れ メインクラスMain内で処理。 常に目標条件を達成しているかの監視。 達成時には、の初期化を行う。 環境の初期化 初期化内容 ・オブジェクトの位置: エージェントを含む全てのオブジェクトを起動 時の位置へと再配置する。 ・エージェントの初期化: エージェントの受け取っている命令の情報、ス ケジューラの予定を消去する。 実験 対象:K4、改変K4 (改変K4は2種類の状態表現。) 内容:命令の実行の観察。 命令:「青いボールを取って」 試行回数:70回(K4_1の問題のため) 実験結果 改変K4_1 改変K4_2 ・K4_1 状態表現:座標を0.1単位で分割 141*141*5の状態表現 ターム:行動回数を1000回 成功回数:11回 ・K4_2 状態表現:座標を1.0単位で分割 15*15*5の状態表現 ターム:行動回数を500回 成功回数:35回 改変 K4_1 K4_2 達成数 7 6 5 4 K4_1 3 K4_2 2 1 0 ~10 ~20 ~30 ~40 ~50 ~60 ~70 改変K4_1 評価値 2.5 2 2-2.5 1.5 1.5-2 1 1-1.5 z13 0.5 z9 z5 z1 x15 x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 0 0.5-1 0-0.5 改変K4_2 評価値 10 8 8-10 6 6-8 4 4-6 z13 2 z9 z5 z1 x15 x14 x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 0 2-4 0-2 実験結果K4 実行回数:10回 経路決定によるポテンシャルの確認。 結果: 動作時間 20秒 ポテンシャルの変動はなし。 考察 状態表現が大きすぎて学習が進まない。 空間の座標のずれが大きい。 やはり、既存のK4の性能にはかなわない。 対象の位置や初期地等の少しの変更に対して も再学習の必要性がある。 まとめ 静的環境のみに対応。 状態と仮想空間の座標の差がある。 メモリの問題上、状態が大きいと対応できない。 展望 改変K4_1の状態で可能にする。 より複雑な状況に対応するため、状態表現を改 良。 ↓ 他のオブジェクトの座標、命令等の情報も使 用。 状態削減方法:自己増殖型ニューラルネット ありがとうございました。 自己増殖型ニューラルネット 入力パターン 整合度 < r ニューロン作成 Stem neuron 整合度 => r 内部ポテンシャル > g ニューロン分割
© Copyright 2024 ExpyDoc