RoboCupサッカーにおける SIRMsファジィシステムを用

社団法人 人工知能学会
Japanese Society for
Artificial Intelligence
人工知能学会研究会資料
JSAI Technical Report
SIG-Challenge-B401-04 (5/5)
RoboCup サッカーにおける
SIRMs ファジィシステムを用いたログからの行動評価
Evaluation of Actions using SIRMs for RoboCup Soccer
三舩 哲史 ∗1 , 中島 智晴 ∗1 , 秋山 英久 ∗2 , 関 宏理 ∗3
Satoshi MIFUNE∗1 , Tomoharu NAKASHIMA∗1 , Hidehisa AKIYAMA∗2 , Hirosato SEKI∗3
大阪府立大学 ∗1 , 福岡大学 ∗2 , 関西学院大学 ∗3
Osaka Prefecture University∗1 , Fukuoka University∗2 , Kwansei Gakuin University∗3
[email protected], [email protected]
[email protected], [email protected]
Abstract
そこで,世界大会上位チームの試合ログを模範とする行動
選択ができるようにする.評価システムとして,SIRMs
Evaluation of action chains using Single-Input
Rule-Modules (SIRMs) fuzzy models is studied in this paper. An action chain is a series
ファジィシステムを用いる.数値実験では,SIRMs ファ
ジィシステムによる評価を組み込んだチームと組み込ま
ないチームそれぞれで試合を行い,ペナルティエリアへ
of elemental actions such as pass, dribble, and
shoot. The aim of using SIRMs fuzzy models
の侵入回数を比較する.
is to learn good strategies from existing strong
teams. In the training process, training patterns for the SIRMs fuzzy model are gener-
2
RoboCup は,ロボット工学と人工知能の発展が目的の自
律移動型ロボットによるサッカーなどを題材とした研究プ
ロジェクトである.RoboCup には「西暦 2050 年までに,
ated from game logs that are produced after
the games of the target team. The results by
the numerical experiments show that the proposed method improves the performance of our
team.
1
RoboCup
サッカーの世界チャンピオンチームに勝てる自律型ロボッ
トチームを作る」という目標があり,この目標に向けて盛
んに研究が行われている.RoboCup にはサッカー以外に
も,大規模災害への対応のシミュレーションや災害現場で
はじめに
活躍するロボットの開発を促進するレスキューリーグ,次
ロボット工学と人工知能の領域横断型研究プロジェクト
世代のロボット技術者育成を目的としているジュニアリー
として RoboCup が知られている.RoboCup には様々な
グなど,複数のリーグが存在する.本論文では,RoboCup
リーグが存在しており,それぞれの特徴を生かした研究,
サッカーシミュレーションリーグを研究の対象とする.
開発が行われている.RoboCup サッカーでは,競技で勝
シミュレーションリーグはこの研究プロジェクトの立ち
利することが重要視され,ただ単に勝利するだけではな
上げ当時から存在する最も古いリーグの 1 つである.サッ
く,賢く安定して勝利することが望まれる.そのためには,
カーシミュレーションでは,実機を使用せずに,コンピュー
チーム全体でどのような戦術を取るかが重要である.高度
タ内に用意された仮想フィールド上でサッカー競技を行
な戦術を取るためには,プレイヤが状況に応じた的確な行
う.サッカーシミュレーションには 2D リーグと 3D リー
動選択を行うことが必要である.本論文では,RoboCup
グがある.Figure 1,2 に 2D リーグと 3D リーグの試合
サッカー 2D シミュレーションにおいて,単一入力ルール
の様子を示す.
群 (Single Input Rule Modules:SIRMs) ファジィシステ
2D リーグでは,基本的な動作(キックやドリブルなど)
はコマンドとして実装されている.そのため 2D リーグで
は高レベルな意思決定を主な研究対象としている.一方,
ム [1] を用いたログからの行動評価方法を提案する.
本研究室で開発を進めているチームは,開発者の調整
の繰り返しによって定められたパラメータにより行動の良
し悪しを評価している.そのため,適切な評価に基づいた
3D リーグでは,エージェントはヒューマノイドロボット
で形成されているため,基本的な動作を関節から制御する
行動選択ができていない可能性がある.また,提案手法に
必要があり,基本的な動作が非常に重要である.本論文で
おいて,手動による調整ではコストや性能に限界がある.
は 2D リーグを扱う.2D リーグでは,二次元平面を仮想
20
サッカーフィールドとし,円形のエージェントをプレイヤ
ノードに入力する.次に,ノードに入力された状態にお
として競技を行う.また,プレイヤやボールの位置と速度
いて実行可能な行動の候補 (パス,ドリブル,シュートな
は全て二次元ベクトルとして表される.各プレイヤはそれ
ど) を生成する.生成された行動に対して評価値を計算し,
ぞれ独立したエージェントとしてプログラムされており,
その行動を実行した場合の予測状態と共に子ノードに追
制限された視覚情報や聴覚情報からドリブルやパス等の
加する.ノードが追加されるたびに評価値が最大である
行動を選択する.
ノードを選択し,そのノードにおける予測状態から再び実
行可能な候補の行動を生成する.これを繰り返すことで,
ノード数があらかじめ設定された最大値に達するまで探
索木を成長させる.ただし,木の深さがあらかじめ設定し
た値を越える場合や,ノードの予測状態から行動が生成
できない場合,行動連鎖の終了条件に設定されている行
動 (シュート) が生成された場合は,その葉ノードでの子
ノード生成は行わないものとする.構築された木構造の
中からノード列をつなげると,行動連鎖が得られる.
図 1: 2D Simulation League
図 3: An example of action chains
3.2
行動評価
本研究室で開発を進めているチームでは,ゴールからの
距離,ペナルティエリアへの侵入,サイド攻撃といった評
図 2: 3D Simulation League
価項目で評価値を算出している.それぞれの評価項目に
対する点数は試合での調整の繰り返しによって定められ
ている.そのため,適切な評価ができているか不明であ
行動選択
3
る.また,手動による調整ではコストや性能に限界があ
チームを強くするためには,各プレイヤが的確に行動を
る.そこで,行動の適切な評価を行うために,世界大会
選択する必要がある.プレイヤの行動選択方法について
上位チームの試合ログにおける行動を模範とするような
説明する.
SIRMs ファジィシステムのパラメータを獲得できるよう
に学習を行う.
3.1
行動探索
本論文で使用するプレイヤは,行動連鎖と呼ばれる木構
4
造を探索することで行動選択を行う [2].行動連鎖の例を
Figure 3 に示す.探索は以下に示す最良優先探索に基づ
く.Figure 3 において,丸で囲まれた数値は行動を行った
ときの評価値である.初期状態からドリブルを選択した
提案手法
本論文では,SIRMs ファジィシステムを用いた学習を行
う.SIRMs ファジィシステムの概要と学習方法について
説明する.
場合,評価値 30 が与えられる.また,ドリブルの後にパ
4.1
スを選択すると,評価値 35 が与えられる.
SIRMs ファジィシステム
最良優先探索に基づいて行動連鎖を生成する手順は以
ファジィ推論の一つとして単一入力ルール群 (Single Input
下のとおりである.まず,プレイヤの現在の状態をルート
Rule Modules:SIRMs) ファジィシステムがある.SIRMs
21
ファジィシステムの概形を Figure 4 に示す.この手法で
最終出力 y は以下の式のようにルール群の推論結果の重
は,各入力項目に対してルール群を用意する.ルール群
視度付き総和として求められる.
は対応する入力項目だけが前件部変数に含まれる,1 入力
のファジィルールで構成される.各ルール群には重視度と
y=
n
X
呼ばれる実数重みが割り当てられている.ルール群のファ
wi · yi
(4)
i=1
ジィ推論結果の重視度付き総和を最終出力とする.SIRMs
本論文では,SIRMs ファジィシステムのパラメータの学
ファジィシステムは入力項目数が多い場合に,従来のファ
習に最急降下法を用いる.最急降下法は,評価関数が最
ジィ推論モデルよりも大幅にファジィルール数とパラメー
小値に収束するように各パラメータをベクトルの勾配の
タ数を削減することが可能であり,様々な制御問題へ応用
逆方向に探索していく手法である.学習するパラメータ
されている.
は,前件部変数のメンバシップ関数のパラメータ,後件部
の実数出力値,および入力項目の重視度とする.p 番目の
入力パターン (xp1 , · · · , xpn ) に対して,理想の出力が y T p ,
実際の出力が y 0p であったとすると,評価関数 E p を以下
の式で表される.
Ep =
1 Tp
(y − y 0p )2
2
(5)
式 (5) より,重視度 wi ,後件部の実数出力値 cij ,前件部
変数のメンバシップ関数のパラメータ aij と bij の修正量
は,t を現在の学習回数,α,β ,γ ,η を学習係数とする
と以下の式で求められる.
∆wi (t + 1) = α · (y T p − y 0p ) · yi (t)
図 4: Overview of an SIRMs fuzzy model
∆cij (t + 1) = β · wi (t) · (y T p − y 0p ) ·
Figure 4 において,xi (i = 1, · · · , n) は i 番目の入力項
目に対応する前件部変数,yi (i = 1, · · · , n) はそのルール
群の推論結果である.hij (i = 1, · · · , n, j = 1, · · · , mi ) は i
∆aij (t + 1) =γ · wi (t) · (y T p − y 0p ) · (cij (t) − yi (t))
·
cij (i = 1, · · · , n, j = 1, · · · , mi ) は i 番目のルール群にお
ける j 番目のルールの後件部の実数出力値を意味する.ま
た,wi (i = 1, · · · , n) は各入力項目の重視度,y は SIRMs
き,hij ,yi は以下の式で求められる.
yi =
hij (t)
m
i
X
hij (t)
j=1
·
2 · (xpi − aij (t))
bij (t)
(8)
∆bij (t + 1) =η · wi (t) · (y T p − y 0p ) · (cij (t) − yi (t))
!2
hij (t)
xpi − aij (t)
(9)
·
· mi
X
bij (t)
i
hj (t)
ファジィシステムの最終出力を表す.入力が与えられたと
mi
X
(7)
j=1
番目のルール群における j 番目のルールの前件部適合度,
hij = Aij (xi )
hij (t)
mi
X
hij (t)
(6)
(1)
j=1
hij · cij
j=1
mi
X
(2)
4.2
hij
SIRMs ファジィシステムへの学習
提案手法では,ペナルティエリアにボールを持ち込むこと
j=1
ができた一連の行動を成功エピソードと定義する.SIRMs
= 1, · · · , n, j = 1, · · · , mi ) は i 番目のルール群にお
ファジィシステムの入力として,現在のプレイヤの x 座
ける j 番目のルールの前件部変数 xi のメンバシップ関数
標,y 座標,目標点の x 座標,y 座標,目標点と目標点
であり,以下の式のガウス関数とする.
から最も近い敵プレイヤとの距離の 5 つを用いる.現在
Aij (i
Aij = exp −
(xi −
bij
aij )2
のプレイヤと目標点の座標はフィールドサイズ+10 が 1.0
!
となるように [−1.0,1.0] の範囲に正規化した.目標点と
(3)
目標点から最も近い敵プレイヤとの距離は 30 が 1.0 とな
22
るように [0.0,1.0] の範囲に正規化した.入力情報の例を
は RoboCup2013 準優勝チームである.また,agent2d は
Figure 5 に示す.Figure 5 において,x1 ,y1 はパスを出
すプレイヤの x 座標,y 座標,x2 ,y2 はパスを受け取る
オープンソースのチームであり,多くのチームのベース
プレイヤの x 座標,y 座標,dist はパスを受け取るプレイ
ファジィシステムの出力値が 0 より大きければ,成功エピ
ヤとそのプレイヤに最も近い敵プレイヤとの距離であり,
ソード中の行動,0 より小さければその他のエピソード中
これらが SIRMs ファジィシステムへの入力となる.
の行動と識別する.10-fold cross validation により,識別
チームとして用いられている.入力情報に対する SIRMs
率を調査した.
4.4.1
学習用データ
予備実験では,SIRMs ファジィシステムの入力として,
現在のプレイヤの x 座標,y 座標,目標点の x 座標,y 座
標の 4 つを用いた.学習係数 α,β ,γ ,η ,教師信号を変
化させながら学習を行った.ほとんどの行動がその他のエ
ピソード中の行動と識別され,成功エピソード中の行動
とその他のエピソード中の行動を上手く識別することが
できなかった.そこで,識別率を高めるために学習用デー
タを変化させながら識別率を調査した.学習用データに
以下の変更を加えた.
まず,入力情報に目標点と目標点から最も近い敵プレ
イヤとの距離を加えた.これは,現在のプレイヤ位置と
図 5: Elements of an input vector to the SIRMs fuzzy
model
目標点が同じであっても,敵の位置によって成功エピソー
ド中の行動,その他のエピソード中の行動の両方が存在
各入力項目に 5 個のガウス型メンバシップ関数を用意
するので,上手く識別できなかったのではないかと考え
し,初期のガウス型メンバシップ関数を隣同士がグレー
たためである.次に,ボールをキープしているときのキッ
ド 0.50 で交差するように設定する.また,後件部実数値
クなどの識別しにくい行動を学習用データから除外した.
の初期値をすべて 0.00 とする.各入力項目の重視度の初
また,ドリブルは敵を避ける行動などゴール方向に進まな
期値を 0.25 に設定する.教師信号を成功エピソード中の
いものが多く,プログラムの作り込みが重要であるので,
行動に対しては 1,その他のエピソード中の行動に対して
学習用データからドリブルを除外し,パスのみとした.学
は −1 とする.世界大会上位チームの試合ログからパスや
習用データにこれらの変更を加えたとき最も識別率が高
ドリブルといった行動を取り出し,成功エピソードとそ
かった.
の他のエピソードに分け,入力情報と教師信号を付加した
4.4.2
学習用データとする.
4.3
学習係数
学習係数 α,β ,γ ,η をそれぞれ 0.10,0.10,0.01,0.01,
行動の評価
教師信号を成功エピソード中の行動に対しては 1,その他
学習を終えた SIRMs ファジィシステムを用いて行動評価
のエピソード中の行動に対しては −1 とする.全ての学習
する.プレイヤの x 座標,y 座標,目標点の x 座標,y 座
係数を 1/10 倍,1/100 倍,1/1000 倍して識別率を調査し
標,目標点と目標点から最も近い敵プレイヤとの距離の 5
た.識別率を Table 1 に示す.Table 1 より,学習係数を
つを SIRMs ファジィシステムに入力し,出力値を算出す
1/100 倍したとき識別率が最も高いと分かる.したがって,
本研究の実験において SIRMs ファジィシステムに用いる
る.試合中に各プレイヤが実行可能な行動の候補に対して
SIRMs ファジィシステムの出力値を計算し,行動の評価
値として使用する.プレイヤが実行可能な行動の候補に
対する SIRMs ファジィシステムの出力値が 0 より大きい
学習係数 α,β ,γ ,η をそれぞれ 0.001,0.001,0.0001,
0.0001 とする.
ものがない場合,既存の評価関数を用いて行動を評価し,
行動を選択する.
4.4
予備実験
学習用データや学習係数 α,β ,γ ,η について予備実験を
行い,決定した.
予備実験では,学習用データとして HELIOS2013 [2] 対
agent2d [3] の 100 試合分のログを用いる.HELIOS2013
23
表 1: Various sets for learning rates
(α=0.10,β=0.10,γ=0.01,η=0.01 を 1 とする)
学習係数の倍率
成功
その他
全て
1
1/10
1/100
1/1000
0.6798
0.3640
0.8472
0.8545
0.3356
0.7618
0.2524
0.2073
0.5709
0.4898
0.6590
0.6497
5
数値実験
おけるペナルティエリアへの侵入回数を調査した.Table 2
にペナルティエリアへの侵入回数を示す.
数値実験では,提案手法を組み込んだ opuSCOM と組み
込まない opuSCOM を比較する.opuSCOM は本研究室
表 2: The number of episodes that led the ball to the
opponent’s penalty area
で開発を進めているチームであり,昨年の JapanOpen で
は 5 位という結果に終わった.opuSCOM はドリブルによ
対戦相手
提案手法なし
提案手法あり
るサイド突破を中心としているチームである.RoboCup
agent2d
A TSU BIHillStone
KU BOST
ThinkingAnts
Ri-one2013
1327
712
973
886
833
978
989
418
699
693
454
527
サッカー 2D シミュレーションでは,試合における各サイ
クルのボールとすべてのプレイヤの位置,実行した行動
がログに記録される.ログから行動を抽出するために,本
実験におけるパスの定義を示す.連続するキックの中で,
次にキックするプレイヤが,キックしたプレイヤと同じ
チームの異なるプレイヤである場合はパスと定義する.ド
Table 2 より,提案手法を組み込むと,ペナルティエリ
リブルは敵から避ける行動などゴール方向に進まないも
アへの侵入回数が減少したことが読み取れる.提案手法
のが多く,プログラムの作り込みが重要である.そのた
を組み込んだチームではパスの学習により,敵フィールド
め,学習用データからドリブルを除外し,パスのみとす
でのパス回しが多くなり,攻撃にかかる時間が増加した.
る.予備実験と同様に学習用データとして,HELIOS2013
また,提案手法を組み込まないチームでは,ペナルティエ
対 agent2d の 100 試合分のログを用いる.例として, 学習
リアに侵入する行動に非常に大きな評価値が与えられる
用データ 1 試合分のパスの軌跡を Figure 6 に示す.赤い
ので,無理矢理ペナルティエリアにボールを入れる行動
線が成功エピソード中のパス,青い線はその他のエピソー
を選択をすることがある.そのため,提案手法を組み込ん
ド中のパスである.ボールを奪われにくい後ろへのパスを
だチームでは,提案手法を組み込まないチームに比べて
選択し続け,敵フィールドへ侵入しないといった状況を避
ペナルティエリアへの侵入回数が減少したと考えられる.
けるために,SIRMs ファジィシステムでの行動評価を適
次に,提案手法を組み込んだチームと組み込まないチー
用するのは敵フィールド上のみとする.SIRMs ファジィ
ムの試合における行動を比較すると,スルーパスの回数
システムによる評価を組み込んだチームと組み込まない
に変化が見られた.スルーパスとは,誰もいないスペース
チームそれぞれで試合を実行し,ペナルティエリアへの侵
へパスを出し,そこに味方プレイヤが走り込み,受け取る
入回数,試合中の行動,ボール支配率について調査する.
ものであり,決定的なチャンスに繋がりやすい.スルーパ
試合は,JapanOpen2013 に出場した 5 チーム,agent2d
スの例を Figure 7 に示す.Figure 7 において,右が攻撃
と 100 試合ずつ行う.
方向である.スルーパスを出すことで 2 人の相手プレイ
ヤを抜きさることができる.本論文では,敵フィールド上
でレシーバがパスを出されたときから,パスを受け取る
までに x 軸方向に 5m 以上走ったものをスルーパスと定
義する.Table 3 にスルーパスの回数を示す.
表 3: The number of through passes
図 6: Successful/unsuccessful passes that are used as the
training patterns of the SIRMs learning
6
対戦相手
提案手法なし
提案手法あり
agent2d
A TSU BIHillStone
KU BOST
ThinkingAnts
Ri-one2013
172
327
682
310
174
1024
461
378
580
403
314
1135
Table 3 より,提案手法を組み込むと,5 つのチームに
対してスルーパスの回数が増加していることが分かる.特
に学習用データの相手チームであった agent2d に対して
実験結果
提案手法を組み込んだ opuSCOM と提案手法を組み込ま
は大幅に増加していることが読み取れる.学習用データ
ない opuSCOM それぞれを,JapanOpen2013 に出場した
におけるエピソードの総数,スルーパスを含むエピソー
5 チーム,agent2d と 100 試合ずつ対戦させた.提案手法
を組み込んだチームの試合と組み込まないチームの試合に
ドの数を成功エピソードとその他のエピソードに分けて
Table 4 に示す.
24
7
おわりに
本論文では SIRMs ファジィシステムを用いて世界大会上
位チームの試合ログを学習し,その出力値による行動評
価について調査した.実際に提案手法を組み込んだチー
ムで試合を行った.学習用データの成功エピソードを学
習できたことを示した.ペナルティエリアへの侵入回数
は減少したが,スルーパスの回数,ボール支配率など違う
観点から見るとチームの性能が向上した.今後の課題と
しては,スルーパス後などの状況に合わせた評価により,
ペナルティエリアへの侵入回数を増やすこと,様々な相手
チームに対応できるような評価などが挙げられる.
参考文献
図 7: An example of through passes
[1] 湯場崎直義,易建強,廣田薫,
“複数入力ファジィ制御
のための単一入力ルール群結合型ファジィ推論モデル
の提案 ”日本ファジィ学会誌,Vol.9,No.5,pp.699-
表 4: The number of episodes in training patterns
エピソードの総数
スルーパスを含むもの
成功
その他
1592
1165
1083
107
709,1997.
[2] Hidehisa Akiyama,Tomoharu Nakashima,Katsuhiro Yamashita,HELIOS2013 Team Description
Paper,RoboCup2013,CD-ROM(6 pages),Eind-
Table 4 より,成功エピソードの 73%がスルーパスを含
hoven,The Netherlands,(2013)
んでいることが読み取れる.また,スルーパスを含むエピ
ソードの 92%が成功エピソードであることがわかる.こ
[3] 秋山英久,RoboCup サッカーシミュレーション 2D
必勝ガイド,秀和システム,2006.
のことから,スルーパスは成功エピソードの特徴的な行
動であることが分かる.また,提案手法を組み込んだチー
ムにおけるスルーパスの増加は,提案手法によって成功
エピソードを学習できたことを示していると考えられる.
次に,提案手法を組み込んだチームと組み込まないチー
ムのボール支配率を調査した.ボール支配率とは,ボール
を保持している時間の割合である.本論文では,ドリブル
やパスを行っているときボールを保持していると定義す
る.試合におけるボール支配率を Table 5 に示す.
表 5: Ball possession
対戦相手
提案手法なし
提案手法あり
agent2d
A TSU BIHillStone
KU BOST
ThinkingAnts
Ri-one2013
55.86
47.98
48.31
56.51
47.49
61.15
66.66
58.07
54.87
66.71
58.72
68.91
Table 5 より,全てのチームに対してボール支配率が向
上していることが読み取れる.パスを学習したことによ
り,ドリブルでの無理な突破をせずにパス回しをすること
が多くなり,敵にボールを奪われる回数が減ったためだと
考えられる.
25