プラント保守，レスキュー - 知能システム分野

協調機械システム論
(04.12.09，本郷）
協調機械システム論
東京大学人工物工学研究センター
淺間一
背景
自律分散型ロボットシステム
システム
システム
通信による協調
システム
多機能化
耐故障性・信頼性
柔軟性・拡張性
作業効率
高度な知能を持つ
ロボットシステム
システム
ロボット自体の知能化だけでは技術的限界
想定外事象への対応
原子力プラント，レスキュー，
医療・福祉など
創発ロボットシステム
適応性
環境
背景・動機
知的に行動できるロボットシステムの社会ニーズ
プラント保守，レスキュー，他
適応機能
● 想定外事象への対応機能
● 知能ロボットの実用化
自律分散化（群化）
協調
＋創発
Model of Emergent System
Emergent Macro Structure
(Macro Function)
Self-organization of
decentralized autonomous systems
Boundary condition
Constraints
Local Interaction
機器システムの適応性
他の機器システム
ユーザ
手段
目的
機器システム
壁
搬送物
床
拘束条件
障害物
環境
対象
学習
●
学習と進化
●
可塑性(Plasticity)
脳には「可塑性（かそせい）」という能力がある．「可塑性」とは，柔らかい粘土に力を加わえ
た場合のように，変形して元に戻らないという意味で，脳には柔軟性，融通性，可変性があ
るということである．
●
学習手法
機械学習，統計的パターン認識，人工ニューラルネット（教師あり;supervised）
強化学習，遺伝的アルゴリズム（教師無し）
強化学習の概念
探索と知識利用
ロボットが回避行動を繰り返し実行することにより
適応的な回避行動を自律的に学習
学習の流れ
行動選択のスコア
・回避行動を回避方向および回避速度で表す．
s
・回避方向　i および回避速度　j に対してスコア ij を導入する．
・スコアは回避行動の選択確率を決定する指標である．
回避方向 i
0 ≦ i ≦ 7 : （８方向）
回避速度 j
0 ≦ j ≦ 3 : （ 0 , 1 0 , 2 0 , 3 0 [cm /s]）
状態表
取得情報 A
スコア表
.. .
取得情報 B
.. .
回避方向 : i
スコア : s ij
.. .
回避速度 : j
.. .
回避行動の選択
ロボットは選択確率にしたがって
ランダムに回避行動を選択する．
回避行動の選択確率
rij =
sij
m n smn
i：
j：
回避方向
回避速度
→　正規化
回避行動の報酬に基づく学習
回避行動の評価
評価値
E(t) =  d w (t) +  dr (t) -  dg (t) d w (t) : 障害物とロボットの距離
d r (t) : ロボットとロボットの距離
 dw (t) = dw (t) - dw (t-t)
dg (t) : ゴールとロボットの距離
 d r (t) = d r (t) - d r (t-t)
 ,  ,  : 重み係数
 dg (t) = dg (t) - dg (t-t)
dg (t) : ゴールとロボットの距離
ゴール
d r (t) : ロボットと
ロボット
ロボットの距離
d w (t) : 障害物（
壁）と
ロボットの距離
障害物（壁）
ロボット
状態認識に用いるパラメータ
学習の収束性
0.8
Ratio
0.6
0.4
0.2
0.0
0
200
400
600
Learning steps
800
1000
[times]
シミュレーション実験
行動選択の階層化
一つの物体を回避するための行動選択
各階層の学習
(a)ゴールへ向かうた
めの行動選択
(b) 一つの障害物を
回避するための行動
選択
(c) 一台のロボットを
回避するための行動
選択
(d) センサグループご
との複数物体回避の
ための行動選択
複数物体回避のための行動選択
強化学習
・環境から報酬が選択行動に与えられるため，
自身や環境についての先見的知識はほぼ不必要
・試行錯誤を通じて環境に適応
複数ロボット環境：
・状態遷移確率と報酬が既知でない
・同じ物理的動作が異なった状態変化
を引き起こし，学習が進行しない
イベント発生毎に意志決定（離散時間系）
セミマルコフ決定過程(SMDP)環境に対応したQ学習
確率過程(Stochastic process)
●
古典力学における微分方程式
現在が決まると未来が決定
●
マルコフ過程
確率事象の系列で，各事象の発生が直前の結果のみに依存することを仮定する確率過程
●
マルコフ決定過程(Markov Decision Process)
離散時間系，１ステップダイナミクス（状態遷移確率は現在の状態（知覚行動対）のみに依
存），定常性（状態遷移確率が時間的に定常）
●
セミマルコフ決定過程(Semi-Markov Decision Process)
意思決定の時間間隔任意（状態変化が生じるまで一定），離散遷移での報酬を積分で与
える
SMDP環境に対応したQ学習
学習アルゴリズム
（１）環境の状態 St を観測
（２）行動選択方法に従って行動 at を実行
（３）イベント（状態遷移）が発生するまで環境から報酬ｒ
を受け取り続け，割引報酬合計 Rsum を計算
Rsum  rt  rt 1   2 rt  2       N 1rt  N 1
（４）イベント（状態遷移）発生後の状態 St  N を観測
（５）以下の更新式によりQ値を更新：

Q(st , at )  (1   )Q(st , at )   Rsum   N max Q(st  N , a' )
αは学習率，γは割引率（
a'
0   ）1
（６）時間ステップ t を t+N へ進め，（１）へ戻る

行動選択法と報酬
Boltzmann選択:
p (a | x) 
exp( Q( x, a) / T )
 exp( Q( x, b) / T )
T: 温度定数
大：ランダム，小：決定的
b possibleactions
状態 x のとき行動 aを選択する確率 p(a|x):
評価関数 r=E(t)：
E (t ) κexp(  rw / K w )d w (t ) λ {exp(  rr j / K r )}d r j (t ) μd g (t )
j
d g (t )
目標地
ロボット
d r (t )
d w (t )
ロボット
障害物（壁）

Download Report