群の中の個体の知能の発達 室蘭工業大学 情報工学科 認知ロボティクス研究室 木島 康隆 研究背景 ロボット ロボット 技術の進歩 工場の一画 研究室 単純・変化が少ない 人間が予測可 行動を設計可能 オフィス 家庭 自然環境 複雑・変化が多い 人間が予測不可 行動を設計不可能 ロボットが自律的に環境に合った行動をとり,タスクを達成すること が求められる etc. 従来研究のアプローチ ロボット単体の知能の発達 機械学習の実装 群ロボットの協調行動 分散センシング,物体の運搬 群を使ったロボット単体の知能の発達 競合学習(捕食者・被捕食者の関係) 人間における個体知能の発達 学習 人間B 学習 学習 環境2 人間A 人間C 環境1 環境3 コミュニケーション コミュニケーションによる情報の交換を行うことで単体での学習より も効率的に学習 個体が集まり群を形成,コミュニケーションすることで個体の知能の発達が 促進 本研究の目的 群 知能の発達 学習 知能の発達 コミュニケーション 知能の発達 学習 学習 群の中のロボット同士がコミュニケーションを行うことによって ロボット個体の知能の発達を促すシステムの構築 目指すシステムの概念 ロボット 自己情報 経験情報 他者情報 ロボット 自己情報 行動 ロボット 自己情報 経験情報 経験情報 他者情報 他者情報 行動 コミュニケーション 行動 コミュニケーションによる個体の学習 ロボット 学習 自己情報 他者情報 経験情報 行動 結果 環境 コミュニケーション コミュニケーションする情報 学習に着目すると,ロボットは学習法により学習を行う. 学習法はロボットの直面する環境によって適切なものが 異なる. コミュニケーションによって個々の環境に適切な学習法 を学習するのが望ましい. 今回は学習法をコミュニケーションする情報とし,個々の 環境に適した学習法を学習する. 提案システム:概念図 行為主体者 他の個体からの情報 学習法学習部 直面する環境に 適した学習法を学習 学習法 結果 行動学習部 個々の状況に 適した行動の学習 行動 結果 環境 学習から得られた 情報 提案システム:強化学習を適用した システム 行為主体者 学習法学習部 行動選択手法 行動評価手法 コミュニケーションによる他者情報 行動: 学習法の選択m 他者の採用する学習法:m’ 他者の得た報酬:r’ 行動学習部 行動選択手法 行動評価手法 行動:動きa 報酬r 環境 学習法学習部 行為主体者 学習法学習部 行動選択手法 行動評価手法 mth , comm :学習率( 0 mth 1 ,0 comm 1) 行動: 学習法の選択m 行動評価手法 : 行動学習部 行動選択手法 k :試行回 行動 m :学習手法の選択 報酬 rk :環境からの報酬 行動 m :他者の選択した学習法 報酬 rk :他者が得た報酬 (自己) 行動評価手法 行動:動きa 報酬r 環境 mth mth m Qkmth m Q m r Q mth k 1 1 k k (他者→自己) mth mth m Qkmth m Q m r Q comm k 1 1 k k 行動選択手法 : εグリーディー法 行動学習部 行為主体者 手法 行動評価手法 行動選択手法 学習法学習部 手法1 標本平均手法 手法2 加重平均手法 手法3 Q学習法 手法4 標本平均手法 手法5 加重平均手法 ε-greedy法 手法6 Q学習法 手法7 標本平均手法 手法8 加重平均手法 追跡手法 手法9 Q学習法 行動評価手法 行動選択手法 行動: 学習法の選択m 行動学習部 行動選択手法 行動評価手法 行動:動きa 報酬r 環境 手法10 強化比較法 softmax法 検証実験 実験目的 コミュニケーションすることによって,個々の エージェントが直面する環境に適した学習法を 選択していることを確認する. 実験対象 非定常N本腕バンディット問題 実験対象:N本腕バンディット問題 N本腕バンディット ・n本の選択可能な腕がある ・腕 i を選択すると,ある確率で当選/落選する ・当選すると報酬 r を得られる 腕番号:当選確率 1: 目的 ・得られる報酬を最大にすること 2: p1 p2 n: pn レバーを引く 報酬 r バンディットの各腕の当選確率 変動の有無は変動頻度Thに従って確率的に決定 if ( flag Th) → 確率変動 else → 変動しない flag :ランダムに決定した実数 0 flag 1 Th :変動頻度 0 Th 1 確率は変動振幅Ampに従って決定 pi n pi n 1 Amp(2Rand 1) pi (n) :n回目試行でのi番目の腕の当たり確率 Amp :変動振幅(変動幅の絶対値) 0 Amp 1 Rnad :ランダムに決定した実数 0 Rand 1 確率変動のイメージ 当たり確率 当たり確率 腕1 腕1 腕2 腕2 腕3 腕3 試行回数 試行回数 Th:小 Amp:小 Th:大 Amp:小 当たり確率 当たり確率 腕1 腕1 腕2 腕2 腕3 腕3 試行回数 Th:小 Amp:大 試行回数 Th:大 Amp:大 タスク環境の設定 各バンディットはマスに Th 1.0 対応したAmpとThを設定 タスク環境の設定 100分割 Ampの範囲 [0 , 1.0] Thの範囲 [0 , 1.0] Amp,Thの分割数 Amp 0 100分割 1.0 100 タスク環境のイメージ バンディットの腕の当たり確率はThとAmpに依存する Th max min min max Amp コミュニケーション相手:8近傍 バンディットの設定 10000 台数 腕の数 6 報酬 1 腕番号 項目 腕の初期 確率 1 2 3 4 5 6 0.8 0.61 0.33 0.1 0.01 0.06 エージェント設定 エージェント数 10000体 総試行回数 30000回 コミュニケーション 頻度 1回試行毎 コミュニケーション 対象 自己の周囲8マスに存在するエージェント コミュニケーション する情報 コミュニケーション時に自己が 適用していた手法と得られた報酬 エージェントの学習パラメータ 行動学習部 : 行動選択手法 学習法学習部 各種手法 ε‐greedy法 自己の経験の 評価式 他者情報の評 価式 パラメータの値 確 率 的 強化比較法 0.1 mth 0.1 comm 0.01 0.05 0.01 追跡手法 0 .1 ε‐greedy法 0.1 確 定 softmax法 的 0.1 行動学習部 : 行動選択手法 加重平均手法 0.1 0.08 Q学習法 0.05 実験結果:選択手法の推移 強化比較法 追跡手法+Q学習法 追跡手法+加重平均手法 追跡手法+標本平均手法 ε‐greedy法+ Q学習法 ε‐greedy法+加重平均手法 ε‐greedy法+標本平均手法 softmax法+Q学習法 softmax法+加重平均手法 試行30000回目 試行20000回目 試行15000回目 試行10000回目 試行5000回目 試行2000回目 試行1000回目 試行500回目 試行0回目 softmax法+標本平均手法 コミュニケーションなしの場合との比較 提案システムとコミュニケーションなしの場合の29000~30000回の間の 平均獲得報酬量の差 考察 試行回数が増加するつれ選択する手法が決まっ ていく 提案システムの方がコミュニケーションなしの場 合よりも平均獲得報酬量が多い 自身の直面する状況に合った学習法を学習しており, 提案システムが有効であることが検証された. まとめ 学習手法をコミュニケーション情報として個 体の知能の発達を促進させるシステムを 提案した 非定常環境N本腕バンディット問題を用い 提案システムの有効性を検証した 今後の課題 他のタスクでの実験 実ロボットを用いた実験 より高度なコミュニケーションの考察 情報の処理の仕方をロボット自身が考える ご清聴ありがとうございました.
© Copyright 2025 ExpyDoc