強化学習を用いた大車輪ロボットの学習知識の選択可能性 - 藪田研究室

2090
日本機械学会論文集(C 編)
78 巻 790 号 (2012-6)
原著論文 No.2011-JCR-0684
強化学習を用いた大車輪ロボットの学習知識の選択可能性について*
横山 智宏*1,坂井 直樹*2,藪田 哲郎*3
Possibility on Selection of Learning Knowledge for Motion of Giant Swing Robot
by Using Reinforcement Learning
Tomohiro YOKOYAMA, Naoki SAKAI and Tetsuro YABUTA*3
*3
Yokohama National Univ. Graduate School of Engineering
Tokiwadai 79-5, Hodogaya-ku, Yokohama, Kanagawa, 240-8501 Japan
We have studied a giant swing robot whose giant swing motion can be obtained simply by applying Q learning method
as one of reinforcement learning methods. Our previous studies show relation between the successful giant swing motion and
rewards which are defined by robot postures or kinetic and potential energy. This method can obtain the successful giant
swing motion when proper learning conditions are given unless statistical performance is occurred due to Non-Markov
property. As this method is useful to investigate selective ability of learning knowledge because this experiment has various
motions, we focused on its selective ability. This paper clarifies the selective ability in the view point that directional giant
rotation can be obtained from the learning knowledge whose rotation has both a forward and a back rotation. Its selective
method is proposed, whose results show significant improvement of the forward rotation given by penalty of the backward
rotation. However, its improvement of the backward rotation is not so significant. Discussion for the selective ability is given
by using both simulation results and experimental results.
Key Words : Learning Control, Humanoid, Robot, Giant-Swing Motion, Non-Markov Property
1. 緒
言
従来のロボット学習分野では,行動形態の獲得,特に,歩行形態の獲得において,最も重要な周期性情報を設
計者がリズムまたは周期関数として与えることで実現してきている.著者らは,設計者が与える情報をなるべく
少なくして,自律的な行動形態の獲得を目指してきた.参考文献(1)-(3)に示すように,状態空間分割を用いた強
化学習の枠組みを用いると,設計者が周期情報を与えなくても,強化学習の時系列的な評価関数の構造から,生
物型移動ロボットが自律的に静的な行動形態の獲得が実現できることを明らかにしてきた.また,この手法は,
ロボットの姿勢を状態分割した方法なので,学習プロセスのロボットの行動を可視化できるので,学習における
力学的分析が可能となり,学習アルゴリズムがどのように力学的な挙動に結びつくかを明らかにすることができ
た.続いて,この手法を動的行動形態獲得の問題に拡張することを目指して,大車輪運動を取り上げた.ここで
いう「動的行動形態」とは,ロボットの運動に慣性項の影響が出てくる比較的速度の速い行動形態を指している.
この大車輪運動の研究テーマの背景は,本手法を用いて動的な行動形態獲得が実現できるのか,さらには,人間
のスキルといった面からも,報酬とスキルの問題にも取り組めると考えて選定した.また,静的な歩行形態の獲
得においては,報酬は前進距離,エネルギ効率等の限定された報酬であったが,大車輪ロボットでは,スキルと
関連する複数のロボットの姿勢情報,複数のロボットの部位のエネルギ情報を報酬として用いることができ,各
種の報酬と運動獲得の関係を,力学的な面から解明することができる利点がある.
一方,多自由度開ループ機構のロボットによる大車輪運動は,遠心力,コリオリ力,重力による非線形性の強
い問題なので,様々な制御手法を用いた研究がなされた(4)(6).さらに学習制御を用いた関連研究として,西村らは
*
原稿受付 2011 年 8 月 16 日
横浜国立大学大学院工学府(〒240-8501 神奈川県横浜市保土ヶ谷区常盤台 79-5)
*2
学生員,横浜国立大学大学院工学府
*3
正員,横浜国立大学大学院工学研究院
E-mail: [email protected]
*1
― 252 ―
© 2012 The Japan Society of Mechanical Engineers
強化学習を用いた大車輪ロボットの学習知識の選択可能性について
2091
複数の制御器を用意し,それらの切り替えタイミングを学習させアクロボット振り上げ・安定化に成功している
(7)
.鮫島らは,複数のモデルとコントローラの組み合わせの中から,最適なものを学習させることにより選択す
ることで,単振り子の振り上げをシミュレーションで検証している(8).さらに森本,銅谷らのロボットの運動学
習の特徴を活かした強化学習アルゴリズムでは,連続時間系の状態爆発をなくす手法を制御系に取り込む先駆的
な研究を進めており(9),2 自由度ロボットの振り上げ運動をシミュレーションではアクタークリック法で成功させ
(10)
,実機では階層化した制御系の構成で上位レベルでは Q 学習を,下位レベルではアクタークリック法を用いる
ことで成功させている(11).さらに,これらの成果をヒューマノイド型ロボットにも発展させている(12).
大車輪の問題には内部モデルを用いた制御手法,強化学習においては,森本,銅谷らの連続空間を用いたロボ
ットの運動学習に対する正統的なアプローチとは異なり,本論文では著者らの自律的な行動形態の獲得と学習プ
ロセスの可視化の特徴を有する状態分割を用いた強化学習の手法を適用することを目指した.著者らの研究成果
の生物型移動ロボットの行動形態の獲得(1)-(3)は,ロボットの動作を準静的に拘束し,状態遷移を決定論的に行わ
せることによって,マルコフ性が保持されているものであった.今回の研究で用いている大車輪ロボットは,通
常の位置指令サーボ機構から構成され,人間を模擬した関節配置と可動範囲を持つ 5 自由度ロボットである.こ
のロボットは,トルク指令サーボから構成されるロボットのように,ダイナミクスを完全には制御できない構成
となっており,さらには,加速度,速度の状態観測が完全には行えないセンシングシステムなので,マルコフ性
が完全には満たされない問題となる.
原ら(13)は,本手法を大車輪運動に適用するに際しての状態分割方法などの学習の枠組みを明らかにし,さらに
大車輪運動の実現には,初期の励振モードと最後の大車輪実現モードの二つの運動モードが存在することを明ら
かにし,それぞれのモードで報酬を変化させることで大車輪運動を実現させた.続いて,坂井(14)らは,励振モー
ドと大車輪モードの報酬を組み合わせることで,同一の報酬を用いて大車輪運動を実現している.また,マルコ
フ過程が完全には保証されない問題は確率的な挙動となり,一定の行動を繰り返す停滞ループが存在し,確率的
な揺らぎでループから抜け出す時に大車輪運動が実現することを明らかにした(14).
これまでの研究成果で,位置サーボ型のサーボ機構を有するロボットに,単純に Q 学習を適用すると非マルコ
フ過程の問題となる.このとき確率的な動きが支配的にはなるが,報酬を工夫することで大車輪運動が実現する
ことを明らかにしてきた.この過程で,姿勢を状態分割することで,学習過程のプロセスを力学的に解明するこ
とも出来た.また著者らの研究で,報酬と獲得行動の関連を明らかにすることで,一般的な報酬で実機・シミュ
レータ上において大車輪運動の獲得に成功した.
上記に示すように,強化学習を用いて動的な行動形態である大車輪運動の獲得に成功したので,学習の分野で
興味ある研究テーマとされている学習の適応性の問題に注目した.すなわち,学習による行動獲得の利点の一つ
に,獲得された知識に柔軟性が期待されることであり,数学モデルを用いた制御方法と比較して,新たな環境変
化に対して新たな学習知識を獲得できる可能性を有している.本論文では,大車輪運動を通してこの可能性を示
そうと考え,ある回転方向に特化した学習知識が獲得されるかどうかの問題を取り上げた.すなわち,より低位
の学習知識から,より上位の学習知識が選択できるどうかという問題として議論している.鉄棒競技では人間の
お腹を前にした前方への回転は「大車輪」
,背中を前にした後方への回転は「逆車輪」と通常区別して呼んでいる.
よって本論文でもそのように呼称することが望ましい.しかし,本論文は鉄棒競技について述べているわけでは
ないので,用語の正確性より,直感的なわかりやすさを重視し,回転方向は「大車輪」を前回り,
「逆車輪」を後
回りと呼び,議論を進めていく.以下では,実験システムの構成,強化学習アルゴリズムの説明を行う.続いて,
前回り,もしくは後回りを選択させるアルゴリズムの考案,そのアルゴリズムを用いた.シミュレーションおよ
び実機の実験結果を学習知識の選択可能性という観点から議論している.
2. 大車輪ロボットの実験システム
2・1 実験システムの構成
強化学習を用いて大車輪運動を実現するために,図 1 に示すスポーツロボットを製作した.このロボットは位
置制御タイプの五つのアクチュエータ(Robotis 社,Dynamixel AX-12+)から構成され,それぞれ人間の腰,股,
膝関節を模倣している.鉄棒と腕との間にはベアリングがはめ込まれており,フリージョイントとなっている.
― 253 ―
© 2012 The Japan Society of Mechanical Engineers
2092
強化学習を用いた大車輪ロボットの学習知識の選択可能性について
製作したロボットの各リンク長と質量は表 1 に示すとおりである.図 1 のロボットを含む強化学習の実験システ
ムの全体像を図 2 に示す.光点位置計測装置の一つである PSD センサを用いている.鉄棒の支柱とロボットの第
一リンクに LED ターゲットを取り付けてロボットの位置計測を可能にしている.
Amplifier
Voltage Data
PC
1st link
PSD Sensor
Waist
2nd link
Hip
Knee
Position Data
3rd link
Camera
USB Serial
4th link
Converter
Power
Robot
Supply
Fig.1 Giant swing robot
Fig.2 Experimental system
Table 1 Link parameter
Link number
Length [m]
Weight [kg]
1
0.141
0.197
2
0.074
0.195
3
0.068
0.146
4
0.046
0.174
2・2 学習用動力学シミュレータ
強化学習のアルゴリズムを実機に適用して学習を行う場合,Q 値が十分に更新されるまでに膨大な学習回数が
必要となり,ロボットの疲労試験の様相を呈し,ロボットが破壊してしまうので学習用シミュレータが必要とな
る.本論文ではオープンソースの三次元物理計算エンジン Open Dynamics Engine (ODE)を用いて,図 3 に示すよ
うにシミュレータ内に実機の大車輪ロボットを再現した.
次にこのシミュレータの構築方針について述べる.本論文では実機にシミュレータでの学習結果を利用するこ
とを前提にシミュレータを構築する必要がある.図 4 に実験で用いているロボットの写真を示したが,図 3 と図
4 を比較すると,電力供給用ケーブル・モータ同士の連絡ケーブルの有無,ベアリングの摩擦,全体のガタなど,
差異が無数にある.つまり今回用いたシミュレータは,ロボットの設計段階で一致させることができるパラメー
タ,すなわち,ロボットの構造,さらには,アクチュエータのパラメータを実機のアクチュエータの応答と一致
するように調整した.図 5 に 0,
,
,
,
(rad)を目標角度としてランダムに実機およびシミュレー
タのアクチュエータに与えた時の応答を示す.両者を比較すると特性はほぼ一致することがわかる.上記に示す
ガタ,摩擦等については,強化学習の効果をシミュレーション結果と実機での学習結果を比較することで吟味す
ることとした.
Desired
Actual
Simulation
angle (rad)
2
1.5
1
0.5
0
-0.5
-1
0
1
2
3
time (s)
Fig.3 Robot in simulation
Fig.4 Robot in experiment
― 254 ―
Fig.5 Comparison of motor performances
© 2012 The Japan Society of Mechanical Engineers
2093
強化学習を用いた大車輪ロボットの学習知識の選択可能性について
3. 強化学習アルゴリズム
3・1 Q学習アルゴリズム
強化学習の一つで方策オフ型 TD 制御である Q 学習は,状態と行動によって定義される行動価値関数(Q 値)
を更新することによって,最適な行動を獲得するというアルゴリズムである.マルコフ性が確保されるという条
件のもとで収束性が保証される.これにより,アルゴリズムの解析が著しく簡単になり,収束性の証明を早い時
期に得ることができる.Q 値の更新式は以下のように定義される.
ここで,
Q( st , at )  (1   )  Q( st , at )    Q
(1)
Q   t 1   max a Q( st 1 , at )
(2)
はそれぞれ時刻 t におけるエージェント(ロボット)の状態,行動,および環境から受け取る
報酬を表す.αは学習率,γは割引率である.γ=0 のとき,エージェントは即時報酬のみに関心を持ち,γが 1
に近づくに従い,将来の報酬をさらに考慮に入れることが目的となってくる.つまり,エージェントはより長期
的な展望を持つことになる.よって,γを 1 に近づけた状態で学習を行うが,1 に近づけすぎると学習の収束が
遅くなる場合があるため,本実験ではγ=0.9,学習率をα=0.9 と設定した.
大車輪運動を獲得する場合の強化学習ではε-greedy 手法を取り入れている.これは確率εで行動をランダムに
選ぶことを意味している.すなわち,ε=0 のときエージェントは確率 1 で最適行動を選択,ε=1 のとき確率 1
でランダムな探索行動を行う.この値を学習回数とともに変化させることによって,効率の良い学習が行われる
ようにする.εの値を以下の式で定義する.
  1
t
T
(3)
式(3)において,t は現在の学習ステップ数,T は最終学習ステップ数である.このようにεを設定することで,
学習の進行に伴って行動選択の確率を変化させることができる.
3・2 Q学習の適用
エージェントの状態は,ロボットの第一リンクに相当する腕部の角度と角速度を用いて定義する.我々の以前
の研究において,決定した適切な状態を設定した.まず角度 36 分割し,第一リンクがどの領域に含まれているか
を観測して角度状態を決定する.さらに,図 6 に示すように第一リンクの角速度を 6 分割し,位置と速度の組み
合わせで状態を定義していた.
はロボットを
から自然落下させたときの
での角速度
とした.よって,36×6=216 の状態を定義する.
を用い,
次に行動を定義する.ロボットは 5 自由度を有しているが,行動を単純化するため両足の股,膝関節には等し
い角度を指令する.よって,実際には 3 自由度として扱うことができる.図 8 のように,腰・股・膝モータの可
動範囲は人間のそれと同様に(腰 30°股 120°膝 90°)
,また状態数の爆発を考慮し,
(rad)刻みで行動を 40
パターン定義した.
また,
後に用いる行動の番号と姿勢との関係は以下の式で表される.
ただし,
i は腰関節
(i=0,1)
,
j は股関節(j=0,1,2,3,4)
,k は膝関節(k=0,1,2,3)の行動数を表す.
Action  20  i  4  j  k
1
1
3
3
θmax
 θmax  θmax  θmax θmax
5
5
5
5
0
θmax
W0
W5
W1
W2
W3
W4
(4)
Fig.6 Definition of velocity state
Fig.7 Definition of position states (36 states)
― 255 ―
© 2012 The Japan Society of Mechanical Engineers
2094
強化学習を用いた大車輪ロボットの学習知識の選択可能性について
本論文ではロボットの内部モデルを用いず,角度や角速度という連続空間を状態分割している.また,状態数
の増加を抑えるために Q 学習をシンプルに適用しており,状態分割はすべて腕部の情報のみを考慮して決定して
いる.さらに実験で用いたモータはトルク制御機能がなく,位置制御のみなので,ダイナミクスを直接制御する
ことができない.すなわち,指令できるのは姿勢のみなので,エージェントが時刻 t で状態 にあるとき,行動 を
とることで遷移する時刻 t+1 での状態
が一意に定まらない.つまり,マルコフ決定過程の性質が満たされな
い動的なタスクの性質をこのシステムは持っている.このため学習を繰り返しても Q 値は揺らぎを持ち一定の値
に収束しない(14).そこで式(5)に示すように Q 値の平均値を計算し,ε-greedy 行動選択時に用いている.式(5)にお
は更新回数 T における平均後の Q 値を表している.
いて,
QT 
QT  (T  1)QT 1
T
(5)
図 9 に示すように Q 値を平均化することで,動的なタスクにおける Q 値の揺らぎを抑えられていることが分か
る.ただし,このような処理をしても,マルコフ性が保持されない問題は,後の議論に出てくるように,確率的
な挙動として出現する.
Q value
Waist
Hip
Average Q value
0.8
Knee
0.6
Q value
Front
0.4
0.2
30°
0
0
100
200
300
400
500
ENDSTEP
2 × 5 ×4 = 40 patterns
Fig.9 Averaged performances of Q value
Fig.8 Movable ranges of each joint
4. 選択性検証用アルゴリズム
学習の選択性を示すために本論文では回転方向の制御を試みる.通常,大車輪ロボットが回転を達成する際,
その回転方向は一定ではない.ロボットに与える報酬の種類によって前回り・後回りどちらかに回転方向が偏る
ことはあるが,それは設計者が意図しての結果ではない.そこで,回転方向を大車輪運動獲得後の知識に上書き
することで設計者が制御できないかと考えた.
本章では回転方向を制御するための具体的な方策について述べる.
4・1 選択性検証の基本方針
回転方向を制御するに当たって,様々な方法が考えられる.本論文における学習知識は状態と行動の関連付け
に帰着できるため,それを設計者が直接調整することで回転方向を限定することも可能であると考えられる.し
かし,そのような大車輪運動に特化した形で回転方向を制御可能だったとしても,学習知識を他のタスクに応用
できる知見は得られない.強化学習で得られた学習知識の可能性を探り,学習の選択性を示すことが本論文の主
題であり,設計者の知識は可能な限りロボットに与えずに回転制御の実現を試みる.そのためシンプルで汎用性
が高い方法で回転方向を制御する必要がある.よって以下の選択性検証用のアルゴリズムを考案した.
まず,大車輪運動獲得に成功した学習結果を用意する.これらの学習結果を用いると,前回り・後回りが混在
する.そして,その学習結果に従い greedy 行動を行う.その中で獲得させたい回転方向と反対の方向に回転が行
われた際に,罰として負の報酬をロボットに与える.例をあげると,前回りを選択的に行わせたい場合,ロボッ
― 256 ―
© 2012 The Japan Society of Mechanical Engineers
強化学習を用いた大車輪ロボットの学習知識の選択可能性について
2095
トが後回りをした瞬間に負の報酬が与えられる.これを繰り返すことで獲得させたい回転方向以外の回転が行わ
れないようになり,目的とする回転方向を獲得できるという試みである.
4・2 回転制御アルゴリズム
4.1 に示した方針をもとに回転方向の制御を実現するアルゴリズムを考案した.図 10 にその全体像を示す.ま
ず,第 1 ステップとして大車輪運動獲得に成功した学習知識(図中:Existing database)をそのまま読み込んで実
行し,前回り・後回りの回転数をカウントする.次に,第 2 ステップとして学習知識を読み込み,目的とする方
向と反対の回転をした場合,罰として負の報酬-10000 をロボットに与える.これを繰り返しながら,回転数を
カウントする.最後に第 3 ステップとして,これによって更新されたデータベース(図中:Updated database)を
読み込んで greedy 行動を行い,回転数をカウントする.以上 3 ステップで同一時間内での回転回数と回転方向を
計測した.図 10 に示したアルゴリズムはシミュレータ上のロボットに回転制御を行う時に使うものであり,第 5
章ではこのアルゴリズムを用いて議論を進める.これらの比較をすることで,元の回転傾向に対して,罰を与え
ている状態と,
罰を与えられ,
学習知識が上書きされた状態でどのくらい回転傾向に違いがあるか明らかになる.
なお,いずれの場合も方向に関わらず,回転達成後は角度 0,速度 0 の状態に戻る.そして,5 秒間ランダムに行
動を選択し,その後 greedy 行動を再開する.初期化した状態から greedy 行動を再開すると,学習段階では似たよ
うな行動を繰り返す場合があり,学習が進まない.また,実行段階では全く同じ行動をしてしまうため,行動観
測の意味がなくなってしまう.これを防ぐため,ランダム行動を行わせることで回転ごとに初期状態に変化をつ
けた.回転方向がどの程度改善されたのかを示す値として改善率(Improvement rate)を(6)式で定義する.
は学習前における回転させたいと望む方向の割合, は学習後の望む方向の割合である.すなわち,後回り
に罰を与える場合,
は学習前の前回り割合, は学習後の前回り割合である.次にこの改善率の定義の妥当性
について述べる.分母の
は学習を通して望む方向に変化させることのできる割合の最大値である.分子の
は学習前後の回転割合の変化である.つまりここで定義している改善率は,
「変化させうる最大割合に対
する実際に変化させることのできた割合」となる.罰を与えて学習をさせていくというアルゴリズムの特性上,
罰を与える回数が多ければ多いほど学習は進む.例えば,後回りに罰を与える場合,元々の回転傾向が前:後=6:4
の学習結果より,前:後=3:7 の学習結果を用いたほうが,学習の効果は大きくなり回転傾向の変化も大きくなるこ
とは当然である.今回用いた学習知識はもともとの回転傾向に差があるため,これらをなるべく同列に考えたい
という思惑から,
「変化させることのできる割合」を基準として考えた.
を基準とすると望んだ方向への回転
傾向がもともと大きい場合の改善率が,もともと小さい場合に比べて低くなってしまう.よって,式(6)のように
改善率を定義した.
また,改善率については,選択学習中の改善率と,選択学習後の改善率の 2 種類を求めた.例えば,後回りに
罰を与え,前回りを獲得させようとする場合,選択学習中の改善率は,R は第 2 ステップにおける全体の回転に
対する前回り割合,
は第 1 ステップにおける前回り割合である.選択学習後の改善率は,R は第 3 ステップに
おける前回りの割合で,
は第 1 ステップにおける前回りの割合である.
4・3 既存のQ値データベース
4.2 に示したように,このアルゴリズムには大車輪運動を達成できる既存の Q 値データベースが必要となる.
そこで以前著者らの研究で得た学習結果を用いる.この学習結果は状態 216 分割,学習回数 500 万回に設定し,
報酬は図 11 に示したように,大車輪ロボットを 4 つのリンクに近似し,それぞれのリンクの位置・運動エネルギ
を計算しそれを組み合わせてロボットに与えた.その結果を表に示す.表 2 に示した結果のうち,成功した 12
種類の学習結果をもとに回転方向を制御していく.表 2 で[ ]はリンク番号を示しており,K は運動エネルギ,U
はポテンシャルエネルギを報酬として用いた実験結果である.○印は大車輪運動の獲得が成功した場合,×印は
不成功を示している.
― 257 ―
© 2012 The Japan Society of Mechanical Engineers
2096
強化学習を用いた大車輪ロボットの学習知識の選択可能性について
●First step
Count normal
rotation number
Robot in simulation
●Third step
●Second step
Count rotation number
Count rotation number
Existing database
with updated database
with giving penalty
Penalty!
Updated database
Fig. 10 Algorithm for control rotation (simulation)
Table 2 Availability of energy rewards
[1]
[4]
[3]
Fig.11 Approximation of robot
[2]
[1]
[2]
[3]
[4]
[3,4]
[2,3,4]
[1~4]
K
×
○
○
○
○
○
○
U
×
×
×
×
×
×
×
K+U
×
○
○
○
○
○
○
5. シミュレーションでの実験結果
第 4 章で示した実験条件を 2.2 節で示したシミュレータ上で適用し,実験を行った.本章ではその結果と考察
を行う.
5・1 基本回転傾向
図 10 に示したアルゴリズムを適用する前に,表 2 に示した学習結果の中で,この実験に適した学習結果を選
択する必要がある.ロボットは回転を達成して初めて負の報酬が与えられるため,シミュレータ上で回転が数多
く達成されなければ,学習が十分に行われることはない.よって効率よく多くの回転が達成される学習結果を使
うことが望ましい.そのため,それぞれの学習知識が持つ回転傾向を調べる.実行回数 100 万回で表 2 に示した,
大車輪運動の獲得に成功した 12 個の学習結果を適用し,回転回数・回転方向を調べた.その結果を図 12 に示す.
まず,学習結果によって回転達成数に差があることが分かる.第 4 章で提案したアルゴリズムは学習中に回転
が達成されないと学習が全く進まない.よって本論文では回転数の上位から K[3],K[3,4],K+U[4],K+U[3,4],
K+U[2~4],K+U[1~4]の計 6 種類の学習結果を用いて実験を行う.
次に回転方向に着目すると,回転達成数の多かった 6 種類の学習結果のうち,5 種類が後回りの割合が大きい.
この回転傾向がなぜ生まれるのか,後の章でも議論されるがはっきりとした原因は判明していない.回転達成直
前のロボットの行動と与えられる報酬の関係などを分析することにより,解明できる可能性はあるが,本論文で
は元々存在する回転傾向に対して,学習を通して傾向を変化させることができるのか,というアプローチをして
いる.よって回転傾向の偏りの原因の解明は今後の研究課題とする.
― 258 ―
© 2012 The Japan Society of Mechanical Engineers
2097
rotation number
強化学習を用いた大車輪ロボットの学習知識の選択可能性について
20000
18000
16000
14000
12000
10000
8000
6000
4000
2000
0
backward
forward
Fig.12 Rotation number of each learning result
5・2 条件設定
既存の Q 値データベースやアルゴリズム以外の学習条件が,制御結果にどれほど影響を与えるのかを調べる.
結果に影響が出ると思われる条件は多数考えられるが,本論文ではなるべくシンプルな形で回転制御を試みると
いうことを主題にしている.よって,各種学習パラメータや力学的拘束を変化させて実験すると,主題からそれ
てしまうのではないかと考えた.考慮すべきシンプルな学習条件で,かつ結果に影響を与えることができる学習
条件として,本論文では第 2 ステップにおける学習回数と罰を与える状態に着目する.学習回数は 100 万回と 300
万回の 2 種類を設定する.さらに罰を与える状態に関して,通常はある行動をしてその結果与えられる報酬は行
動をする直前の状態の Q 値に反映される.
回転に罰を与える場合でも,
通常は回転直前の状態に罰が与えられる.
こうして,次に同じ状態になったときには別の行動が選択されるようになる.しかし,角度が大きく頂点に近い
状態から回転を達成する場合,その状態からどの行動を選択しても回転を達成することがある.そうなると,直
前の状態に罰を与えても効果はほとんどない.そこで直前の状態だけでなく,それ以前の過去の状態にも罰を与
える.
この際注意しなければならないのが,いくつ前の状態に罰を与えるのかである.これを考えるために,ロボッ
トが後回りをする際の挙動を例にとる.本論文で用いているロボットはサンプリング時間 250(ms)で制御してい
る.このサンプリング時間を 1 ステップと考えると,後回りをする際にはロボットが前方に振れ切って静止して
から,通常ならば 3 ステップ後に回転を達成する.回転達成の 1 ステップ前ではロボットは頂点付近に位置し,2
ステップ前は角度が正で最下点付近に位置している.3 ステップ前は前方に振れ切った位置にいる.よって 3 ス
テップ前かそれ以前の状態に罰を与えると,振幅を増やしていく段階で必要な知識も破壊してしまう可能性があ
る.2 ステップ前ならば,角度が小さく後方への速度が大きい状態から最適行動を防ぐことで,ロボットが頂点
付近に達し,どんな行動をしても回転を達成してしまう状態を回避することができると考えた.
よって,1 つ前・2 つ前の状態に罰を与える条件を設定し,学習回数と組み合わせ,図 13 に示すような計 4 通
りの実験条件を設定した.図中の 2・300 とは 1 つ前,2 つ前の状態に罰を与え,第 2 ステップの学習回数が 300
万回で実験を行うという意味である.
(1) 1・100
(2) 2・100
(3) 1・300
(4) 2・300
+
+
+
+
Learning count
Learning count
Learning count
Learning count
1 million
1 million
3 million
3 million
Fig.13 Experiment condition
― 259 ―
© 2012 The Japan Society of Mechanical Engineers
強化学習を用いた大車輪ロボットの学習知識の選択可能性について
2098
5・3 実験結果
4.2 に示したアルゴリズムを用いて,シミュレーションを行い,改善率を求めた.後回りに罰および前回りに罰
を与えた場合,
5.2 に示した 4 つの条件それぞれについて改善率の平均を求めてグラフにしたものを図 14 に示す.
後回りに罰を与えた場合は選択学習中,選択学習後ともに改善率は高い値となった.条件設定が異なる予備実
験では,選択学習中の罰を与えている学習中には改善が認められるが,罰が与えられなくなる選択学習後の結果
では改善が認められない場合があったが,本実験では罰を与えている時だけでなく,罰を与えて更新した結果を
用いても回転方向制御が可能という結果になり,本実験で用いたシステムの有効性を示している.後回りに罰を
与えた場合では,各条件により差はそれほど見られない.一方,前回りに罰を与えた場合,改善率は低い値とな
っている.すなわち,前回りに比べ,後回りを設計者が選択させることは難しいという結果になった.この原因
として考えられることは 2 つある.一つはロボットの機構的な問題,もう一つは元々の回転方向の影響であり,
後の節で詳細に議論する.
40
Improvement rate (%)
30
20
1・100
2・100
10
1・300
2・300
0
Learning
-10
After
learning
Penalty for backward
Learning
After
learning
Penalty for forward
-20
Fig.14 Improvement rate of each condition (simulation)
5・4 後回り選択の課題
後回りを選択的に獲得させることができない原因の一つとして考えられる,ロボットの機構的な問題について
述べる.本実験で用いた大車輪ロボットはモータの駆動範囲を人間の関節可動範囲に模しているため,足を真下
に伸ばした状態を基準にすると,モータを前方に駆動できる範囲のほうが大きい.つまり,前方のほうがより大
きなトルクを出力できる.このため,前回りは比較的角度が小さい状態から前方へ足を大きく振り上げることで
回転を達成できる.しかし,後回りの場合は後ろ向きに大きなトルクを出力することが難しいため,角度の低い
状態から回転を達成することは難しい.後回りを達成する場合は,反対側に大きく振れた状態から,その位置エ
ネルギを利用して回転を達成する場合が多い.つまり,前回りを行う直前の状態から後回りが達成される場合が
多い.そのため,前回りに罰を与えると,後回り達成に必要な行動にも制限がかかってしまい,後回りを選択的
に行動させることが困難になると考えられる.
原因のもう一つとして考えられることが元々の回転傾向である.図 12 に示したように,元々大車輪運動は後回
りを達成する割合のほうが大きい.改善率の定義上,回転傾向が前後半々の割合に近付けば,改善率が向上する
可能性があるが,最初から高い割合を持つ後回りの改善率を向上させることは前回りよりも困難である.
5・5 センシングの問題
学習知識が持つ元々の回転傾向における後回りの割合が大きくなる原因の一つとして,回転判定を腕のセンサ
で行っていることがあげられる.通常ロボットの位置情報はロボットの第一リンク(腕)に取り付けられた PSD
センサで取得している.回転判定も同様に腕のセンサが頂点を越えた時,回転が達成されたと判断している.つ
まり,その時の姿勢に関わらず,常に同じ位置で回転を判断している.一方,ロボットの重心位置は姿勢によっ
て変化する.回転を達成する前後の姿勢は慣性モーメントが小さい足を前に大きく振りだしたものになる場合が
多いが,この時,重心位置は腕センサより前方にシフトする.この姿勢をとった状態で回転を達成する際の腕の
― 260 ―
© 2012 The Japan Society of Mechanical Engineers
強化学習を用いた大車輪ロボットの学習知識の選択可能性について
2099
位置と重心位置の関連を考える.図 15(a)に示すように,前回りの場合は腕の位置が頂点を越えていれば,重心位
置も頂点を越えている.しかし,図 15(b)に示すように,後回りの場合は腕が頂点を越えていても,重心位置が頂
点を越えていない可能性がある.すなわち,後回りの場合は回転が完全に達成せず,頂点で一度静止したような
場合でも回転したとカウントされていることがあると考えられる.
そこで,
回転が達成されたかどうか,
腕センサの位置ではなく重心位置を基準として判定した場合を評価する.
まず,罰を与えずに元の回転傾向を調べなおした.結果を腕センサで判定した場合と合わせて図 16 に示すが,左
側が腕位置判定であり,右側が重心位置判定の結果である.少しではあるが前回りの割合が増えており,重心位
置のほうがより正確に回転判定ができることが明らかになった.これにより改善率も向上する可能性があるので
はないかと考え,再び 5.3 に示した実験を,回転判定を重心位置基準にして行った.なお,5.2 に示したように,
実験条件により違いはそれほど見られなかったので,一番シンプルな 1・100 の条件を用いた.改善率の高かった
上位 3 つの学習結果を平均した改善率のグラフを図 17 に示す.
腕の位置で回転判定をした場合の結果も比較のた
め示す.
図 17 に示すように,学習中,学習後ともに改善率が向上している.元々の後回りの回転傾向が 50%に近付き,
前回りおよび後回りの達成率がバランスすると改善率は向上するが,バランスしない場合,改善率は低い値にと
どまった.
この結果から後回りで改善率が低下する原因の一つは,
元々の回転傾向の影響が強いことが分かった.
mass center
(a) forward rotation
(b) backward rotation
Fig.15 Center of gravity near the peak
100%
80%
60%
backward
40%
forward
20%
0%
K[3]
K[3,4]
K+U[4] K+U[1~4] K+U[3,4] K+U[2~4]
Fig.16 Rotation rate of each judgment way
Improvement rate (%)
During learning
40
35
30
25
20
15
10
5
0
Arm
After learning
Center of gravity
Arm
Center of gravity
Fig.17 Improvement rate of each judgment way
― 261 ―
© 2012 The Japan Society of Mechanical Engineers
2100
強化学習を用いた大車輪ロボットの学習知識の選択可能性について
6. 実機での実験結果
これまでは学習をシミュレータ上で行い,その結果をシミュレータ上のロボットに適用した.この場合は実行
時間を十分に確保できるため,回転制御の効果の分析には有効となる.しかし,このシステムは最終的には実機
への適用を念頭に置いている.そこで,本章ではシミュレータで得た結果を実機に適用する.本章での考察を通
して,後回り制御の実環境での可能性についても結論を出している.
6・1 実験結果
本章ではシミュレータ上で高い改善率が得られた結果が,実機でも同様の結果得られるのかを中心に調べてい
く.実機での学習の選択性を検証するアルゴリズムの全体像を図 18 に示す.このアルゴリズムは図 10 に示した
ものと基本的な考え方は同様である.異なるところは実機における回転傾向の変化を計測するために,最初の回
転傾向と,学習後の回転傾向は学習結果を実機に適用している部分である.選択学習部分はある程度の回転達成
数が必要となるため,シミュレータ上のロボットを用いている.まず,それぞれの学習結果の元々の回転傾向を
調べるため,学習結果を実機に適用し,10 回ずつ大車輪運動を行わせ,その回転方向を記録した.結果を図 19
に示す.図 12 のシミュレーション結果と図 19 の実験結果において、K+U[3,4]とK+U[2~4]の結果に違いが
認められるが、実験回数を 20 回に増加させたところ、シミュレーションとほぼ一致する結果が得られた.
グラフに示すように,学習結果によって回転方向に偏りがある.第 5 章で述べたように,選択的に獲得させた
い回転方向の割合が元々大きい場合,罰の効果が薄れ,改善率が低下してしまうので,罰を受ける回転割合が大
きい学習結果で回転方向の制御を試みる.本実験では後回りに罰を与える場合は:K[3],K+U[1~4],前回りに罰を
与える場合は:K[3,4],K+U[2~4]を選定した.第 5 章で得られた 4 種類の条件の下,シミュレータ上で罰を与えて
更新した学習結果を,実機に適用する.学習結果ごとに 10 回ずつ大車輪運動を実行し,回転方向を記録した.実
機における元々の回転傾向と更新後の結果を用いた回転傾向を比較し,式(6)により改善率を求めた.その結果を
図 20 に示す.
前回りに罰および後回りに罰の場合,両者ともにある程度高い改善率を記録している.両者を比べると後回り
に罰を与える場合のほうが改善率は高い.この原因は第 5 章で述べたように,機構的な問題と考えられる.シミ
ュレーション結果と同様に条件設定での違いは見られない.すなわち,回転傾向を選べば,実機でもシミュレー
タと同様に回転方向の制御が可能である.
●First step
Rotate10 times
before learning
Robot in reality
Robot in simulation
●Third step
Rotate10 times
●Second step
after learning
Count rotation number
with giving penalty
Existing database
Penalty!
Updated database
Fig. 18 Algorithm for control rotation (real)
― 262 ―
© 2012 The Japan Society of Mechanical Engineers
2101
強化学習を用いた大車輪ロボットの学習知識の選択可能性について
backward
penalty for backward
10
9
8
7
6
5
4
3
2
1
0
improvement rate (%)
rotation number
forward
penalty for forward
80
60
40
20
0
1・100
2・100
1・300
2・300
Fig.20 Improvement rate of each condition (real)
Fig.19 Rotation direction of each learning result
6・2 回転時間の比較
実機においても回転方向の制御は可能であったが,罰を与えて制御を試みるという方策の特性上,元々の大車
輪運動を行うという学習知識を壊してしまう危険性がある.他の条件を用いた予備実験では,回転時間が通常よ
りも増加してしまう,大車輪運動そのものができなくなってしまうという現象が確認できた.そこで回転達成ま
での時間は学習前後でどう変化しているかを検証する.実機における学習前と学習後の回転時間の平均を条件設
定ごとに計測した.結果を図 21 に示す.
学習前後でほとんど変わらない結果が得られた.つまり,本論文で用いた手法を用いれば,元の学習知識にそ
れほど影響を与えることなく,回転方向の制御に成功することが明らかになった.一方で,この実験結果は完全
には回転制御ができていないことも示している.前回り・後回りに関わらず,回転に達するまでには複数のパタ
ーンがあり,これが多ければ多いほど,回転までの時間が短縮される.仮に後回りに至るパターンを,罰を与え
ることで完全に選択されないようになっているならば,回転までの時間は通常より長くなるはずである.変化が
ないということは複数ある回転パターンのうち,何種類かを排除したことで回転傾向が一部変化していると考え
られるが,それが回転時間に影響を与えなかったものと推定される.現在のシステムは非マルコフ性の影響を受
け,確率的な挙動が残るので,回転方向の改善という限定的な制御にとどまったが,現システムが完全な制御を
目指すという点では課題が残る.この問題は,非マルコフ性の問題を乗り越えることで可能になるのかもしれな
い.
12
time (s)
10
8
6
4
2
0
before learning after learning
2・100
1・300
2・300
Fig.21 Rotation time of each condition (real)
― 263 ―
© 2012 The Japan Society of Mechanical Engineers
2102
強化学習を用いた大車輪ロボットの学習知識の選択可能性について
7. 考
察
7・1 実機とシミュレータの比較
第 5 章でシミュレーション,第 6 章で実機に選択学習を適用して一定の成果を得た.以下では実機とシミュレ
ータの比較を行う.図 22 に後回りに罰を与えた場合,図 23 に前回りに罰を与えた場合の実機,シミュレータ両
者の改善率を学習条件別に示す.なお,条件をそろえるために,評価した学習結果は 6.1 で述べたものと同様で
ある.すなわち,後回りに罰を与える場合は:K[3],K+U[1~4],前回りに罰を与える場合は:K[3,4],K+U[2~4]
を実機・シミュレーションともに用いている.後回りに罰を与えた場合,どの学習条件でも実機・シミュレーシ
ョン両者とも高い改善率を示している.シミュレーションの場合,選択学習後の Q 値データベースを読み込む段
階で,100 万ステップ行動を行う.この中で各学習結果により差はあるものの,1000 回以上の大車輪回転を行う.
その中で回転傾向に変化があるかないかを議論している.一方実機ではあまり多くの試行を行うことが難しいた
め,本研究では 10 回の試行を学習前後で行い,傾向の変化を評価している.このように,実行段階で評価する回
転回数に差はあるものの,結果として同一の傾向を示していることは,本論文で用いたアルゴリズムが一般性を
持っているためと考えられ,他のタスクへの応用も考えられる.
前回りに罰を与えた場合,実機の改善率は後回りの改善率ほどではないものの,一定の値を示している.しか
し,シミュレーションの場合は改善率が低く,負の値になっているものもある.このように実機とシミュレーシ
ョンで大きな違いが出てしまう.この原因は先にも述べたとおり,それぞれの学習結果が元々持っている回転傾
向によるものと考えられる.シミュレーションの場合は後回りの割合が平均で 70%であり,前回りに罰を与えて
後回りの傾向をさらに増やすことは難しく,改善率が低くなってしまう.一方,実機の場合は外乱の影響が大き
いため,回転方向もランダム性が強くなる.加えて,先にも述べたように回転傾向を判断するか目の試行回数は
実機のほうが圧倒的に少ない.その結果,シミュレーションでは後回りの傾向を持っている学習結果でも,実機
に適用すると,場合によっては前回りを多く行うことがある.それによって,実機では改善率が向上しているも
のと考えられる.よって実機とシミュレーションの改善率の違いは,試行回数の少なさによるものであり本質的
な違いではないと考えられる.後回りを選択させる制御に関しては,今後は前回りの傾向を持つ学習結果に対し
て改善率を求めて,回転制御の効果を判断する必要がある.
real
real
simulation
Improvement rate (%)
Improvement rate (%)
80
70
60
50
40
30
20
10
0
1・100
2・100
1・300
2・300
1・100
Fig.22 Improvement rate in case of penalty for backward
simulation
70
60
50
40
30
20
10
0
-10
-20
2・100
1・300
2・300
Fig.23 Improvement rate in case of penalty for forward
7・2 学習知識の与え方
本論文では大車輪運動の回転方向を制御するという問題に対し,まず大車輪運動の獲得に成功した学習知識を
用い,そこに知識を上書きするという方策を採用した.その理由は学習知識の選択性を考える場合に,大車輪運
動の獲得と回転方向の制御を別々の問題として分けたほうが,直感的に理解しやすく,他のタスクへの応用も望
めると考えたからである.この方策を用いて回転方向の制御が可能であるということを示してきたが,回転方向
の制御を最初の学習段階から組み込んだ場合にどうなるのか興味を持った.そこで,大車輪運動を獲得させる学
習と同時に回転方向に応じて罰を与えた.通常の報酬はこれまでの実験で実行段階に多くの回転を行うことがで
きる K[3],K[3,4],K+U[2~4],K+U[1~4]を用いる.これらの報酬に加え,前回り・後回りに罰を与え 500 万回学習を
― 264 ―
© 2012 The Japan Society of Mechanical Engineers
2103
強化学習を用いた大車輪ロボットの学習知識の選択可能性について
行い,回転数を計測した.さらに,学習の結果得られる Q 値データベースを読み込み,回転数を計測し,改善率
を求めた.
Learning with
Learning with
normal rewards
Database of
giant swing motion
normal rewards and
Database containing
penalty depending on
both knowledge
rotational direction
Fig.24 Rotation time of each condition (real)
最初に,元々の回転傾向に対する学習中の改善率を求める.後回りに罰を与えた場合の改善率を図 25,前回り
に罰を与えた場合を図 26 に示す.前回りに罰を与えた場合は上記の理由により,改善されていないが,後回りに
罰を与えた学習中では,どの学習結果でも高い値を記録しており,この方策の有効性を感じさせる.しかし,第
4 章の第 3 ステップに対応する,学習後に作成された学習知識のデータベースを読み込んで実行すると,数回~
数十回の大車輪運動実現後,初期の励振ループで停滞し,回転制御を判断する成功回数が得られなかった.第 4
章で示した方法を用いた場合も制限なしで回転を行わせた場合に比べ,ペナルティを与えると成功数が減少する
ことはあったが,本節の手法の場合,全ての学習結果に対し,成功数が極端に減少する結果となった.
以下にこの原因を考察する.このシステムでは非マルコフ性の影響を受け,確率的な挙動による停滞ループが
存在するので(14),その停滞ループを脱出するために,様々な運動パターンが大車輪運動を達成するために必要と
なる.大車輪運動の停滞ループは初期の励振ループと大車輪運動を実現する直前のループが存在する.今回の手
法では,大車輪運動直前の回転制御のために,回転方向に応じて罰を与えるので,第 2 の大車輪運動直前の停滞
ループがより抜け出にくくなり,このループでの学習時間がより大きくなり,最初の励振ループでの学習に時間
が割けなくなる.学習中にはランダム探索で,初期の励振ループは抜け出て最終的に大車輪運動に結び付くこと
も可能となる.一方,学習後は greedy 手法を用いているので,初期の励振ループを抜け出るための運動パターン
が少ないと,停滞ループを抜け出すことができない結果になる.すなわち,同一学習回数の条件下では,回転制
御の学習に時間を取られ,大車輪運動を実現するための,励振ループを脱出する学習に時間が割けていないこと
になる.この悪影響は,学習回数を増加させることで克服できる可能性を有しているが,この学習の枠組みでは
基本的に初期ループに配分される学習時間が少ないので,克服できるとしても大幅な学習回数の増加が必要にな
ると思われる.
最後にこれら二つの手法を比較検討する.別の条件下での予備実験段階では前回りに罰を与えた場合に学習後
のデータベースでは大車輪運動そのものが破壊されてしまうという事態が発生した.すなわち,前回りおよび後
回りが独立したパターンから達成されるのではなく,お互いが関連し合っているのではないかという可能性が示
唆された.その後,システムの改良を行い,現在のように大車輪運動の知識と回転方向の制御の知識をそれぞれ
別の学習で獲得させるという方策に行き着いた.この方策の利点はそれぞれの知識が与える悪影響を最小限に抑
える働きを有していることである.複数の知識を同時に与えてしまうと,エージェントがどちらの知識を優先的
に得るべきなのか,判断に迷ってしまい,先に述べたような回転そのものが達成できなくなってしまう結果が得
られる.教師なし学習である強化学習で学習の選択性を発揮させようと試みる上では,エージェントに一つの目
標に集中させ,学習知識をその都度上書きすることで,柔軟な行動獲得に至るということがこの試みを通じて明
らかになった.
― 265 ―
© 2012 The Japan Society of Mechanical Engineers
強化学習を用いた大車輪ロボットの学習知識の選択可能性について
2104
90
Improvement rate (%)
80
70
60
50
40
30
20
10
0
K[3]
K{3,4]
K+U[1~4] K+U[2~4]
K+U[4]
K+U[3,4]
Fig.25 Improvement rate in case of penalty for backward (combined rewards)
100
Improvement rate (%)
50
0
-50
-100
-150
-200
K[3]
K{3,4]
K+U[1~4] K+U[2~4]
K+U[4]
K+U[3,4]
Fig.26 Improvement rate in case of penalty for forward (combined rewards)
8. 結
論
本論文ではロボットの動的行動形態の獲得の問題として,大車輪ロボットを取り上げ,獲得した学習知識の選
択性に関して述べた.強化学習を用いた行動獲得は,内部モデルを用いた制御手法による行動獲得よりも,冗長
性,耐環境性の面で優れていると考えられている.著者らは強化学習を用いた動的タスクである大車輪運動の獲
得に関する研究を行っているが,それについても強化学習の特徴が当てはまるのか,回転方向の制御という問題
を通して明らかにした.
回転制御の方策に関して,様々な方法が考えられるが,本論文で得られた知見を他の動的タスクを,強化学習
を用いて獲得した場合に活かせる一般的なものにしたいと考えている.
そのため,
大車輪運動に特化した方法で,
回転制御に成功しても他への応用が望めないと考えた.そこで,なるべくシンプルな方法で回転制御の実現を試
みた.すなわち,特定の回転方向に罰を与えることで,回転方向の制御を試みた.
最初に,既存の前回りおよび後回りの混在した大車輪運動の学習知識を用いて,その知識をベースにした,回
転方向を制御する学習アルゴリズムを提案した.このシステムは,非マルコフ性を有するため,学習知識に確率
的挙動が存在するので,改善率のパラメータを設定することで,選択性の可能性を明らかにした.この選択性を
用いた回転制御の改善方策の中で,ロボットの機構的な問題の条件下で後回りに罰を与え,前回りを選択させよ
うとした場合の改善率が向上することを解明した.さらに,シミュレーション結果がよく実機の結果に反映され
― 266 ―
© 2012 The Japan Society of Mechanical Engineers
強化学習を用いた大車輪ロボットの学習知識の選択可能性について
2105
ていることを明らかにした.
また,
改善率は既存知識の回転方向が前後方向でバランスしている場合向上するが,
そうでない場合,
回転制御は難しい.
本論文で用いたデータベースは元の回転傾向が後回りに特化していたため,
実機およびシミュレーションにおいて前回りに罰を与えた場合の改善率は低くなった.この点に関しては今後の
研究課題としたい.
最後に,このアルゴリズムの有効性を検証するために,直接的に回転制御を実現する強化学習との結果と比較
をした.直接的な学習では,回転制御の学習が大車輪運動獲得の学習に悪影響を及ぼし,初期の停滞ループであ
る励振モードで抜け出せなくなる結果が得られたが,今回,提案したアルゴリズムは,学習知識の干渉による悪
影響を抑制できる効果があることを明らかにした.すなわち,一つの学習知識を確立した後に,新たな知識を付
加すると,二つの特徴を活かした学習知識を獲得することが可能となった.
シンプルな Q 学習アルゴリズムを用い,既存の知識に学習知識をさらに上書きすることで大車輪運動の回転方
向の制御に成功した.強化学習によって,動的なタスクの行動獲得の場合についても,強化学習の特徴である獲
得行動の冗長性を示すことができた.さらに,本論文では回転方向の制御という問題を通して,学習の適応性に
ついても知見を与えることができた.
文
献
(1) 山科亮太,本山晴寿,浦川真理子,黄健,藪田哲郎,
“報酬変化を用いた強化学習によるロボットの前進行動獲得”
,
日本機械学会論文集 C 編,Vol. 72, No. 717 (2006), pp.1574-1581.
(2) 本山晴寿,山科亮太,原正之,黄健,藪田哲郎,
“強化学習によって獲得される芋虫型ロボットの前進行動形態に
関する考察”
,日本機械学会論文集 C 編,Vol. 75, No. 749 (2006), pp.3525-3532.
(3) 鄭英美,井上将志,原正之,黄健,藪田哲郎,
“強化学習による二次元移動ロボットの行動獲得とその学習知識の
操作”
,日本機械学会論文集 C 編,Vol.75, No.74 (2009), pp.122-132.
(4) 南澤槿,美多勉,I.Pantelidis,山北昌毅,
“アクロバットの振り上げ倒立制御と特異点問題”
,日本ロボット学会誌,
Vol.20, No.2 (2002), pp.85-88.
(5) 山浦弘,
鈴木博之,
小野京右,
“3 リンク鉄棒ロボットの大車輪運動と制御”
,日本機械学会論文集 C 編,Vol.71, No.707
(2005), pp.2289-2296.
(6) 梶原秀一,橋本幸男,松田敏彦,土谷武士,
“鉄棒ロボットの数理解析と運動制御”
,日本ロボット学会誌,Vol.18,
No.4 (2000), pp.515-520.
(7) 西村政哉,吉本潤一郎,時田陽一,中村泰,石井信,
“複数制御器の切り替え学習法による実アクロバットの制御”
,
電子通信情報学会論文誌,Vol.J88-A, No.5 (2005), pp.646-657.
(8) 鮫島和行,片桐憲一,銅谷賢治,川人光男,
“複数の予測モデルを用いた強化学習による非線形制御”
,電子情報通
信学会論文誌,Vol.J84-D-Ⅱ, No.9 (2001), pp.2092-2106.
(9) K.Doya, “Reinforcement Learning in Continuous Time and Space”, Neural Computation, Vol.12, No.1(2000), pp.219-245
(10) 森本淳,銅谷賢治,
“強化学習を用いた高次元連続状態における系列運動学習-起き上がり運動の獲得-”
,電子情
報通信学会論文誌,Vol.J82-D-Ⅱ, No.11 (1999), pp.2118-2131.
(11) J. Morimoto and K. Doya, “Acquisition of stand-up behavior by real robot using hierarchal reinforcement learning”, Robotics
and Automation Systems, Vol.36, No.1(2001), pp.37-51.
(12) J. Morimoto, J. Nakanishi, G. Endo, G. Cheng, C.G.Atkeson and G. Zeglin, “Poincare-Map-based Reinforcement Learning for
biped Walking”, IEEE International Conference on Robotics and Automation (2005), pp.2392-2397.
(13) M.Hara, N.Kawabe, N.Sakai, J.Huang, H.Bleuler and T.Yabuta, “Consideration on Robotic Giant-swing Motion Generated by
Reinforcement Learning”,Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems (2009),
pp.4206-4211.
(14) 坂井直樹,川辺直人,原正之,豊田希,藪田哲郎,
“強化学習を用いたスポーツロボットの大車輪運動の獲得とそ
の行動形態の考察”
,計測自動制御学会論文集,Vol.46, No.3 (2010), pp.178-187.
(15) R.S.Sutton, A.G.Barto 著,三上貞芳,皆川雅章 訳,強化学習,(2000), pp.159-161, 森北出版.
― 267 ―
© 2012 The Japan Society of Mechanical Engineers