B101-6, pp.23-28, アクション連鎖探索によるオンライン戦術プランニング

社団法人 人工知能学会
Japanese Society for
Artificial Intelligence
人工知能学会研究会資料
JSAI Technical Report
SIG-Challenge-B101-6 (5/4)
ア ク シ ョ ン 連鎖探索によ る オ ン ラ イ ン 戦術プラ ン ニン グ
Online Tactics Planning using Action Sequence Search
秋山英久
Hidehisa AKIYAMA
福岡大学工学部
Faculty of Engineering, Fukuoka University
[email protected]
行う . 実験では, オン ラ イ ン 戦術プラ ン ニン グを 実装し た
Abstract
チームを 用いて 実際に試合を 行い, 探索の導入によ る チー
In this paper, we propose an framework to
search action sequences in order to enable on-
ム パフ ォ ーマ ン ス の変化を 測る .
line tactics planning in multiagent systems. It
was difficult to apply a search tree methodology to tasks that the space is continuous and
2
RoboCup サッ カ ー 2D シミ ュ レ ーショ ン [1]はマ ルチエー
ジェン ト システムのテスト ベッ ド と し て 知ら れて おり , 2D
サッ カーシミ ュ レ ータ は, さ ま ざま な機械学習手法の適用
requires realtimeness. However, it has become
possible to apply such an approach since the
だけでなく , 戦略, 戦術の枠組みに関する 研究のためのプ
computational resources became more powerful today. We applied a search tree method
ラ ッ ト フ ォ ーム と し て も 利用さ れて いる .
従来の取り 組みでは, 特に強化学習研究に関連し て , 敵
to the RoboCup soccer simulation environment
and analyzed its effectiveness by evaluating the
対する エージェ ン ト が存在する 中でプレ イ ヤ エージェ ン ト
の協調的な 意思決定あ る いは最適な 個体制御を 獲得さ せ
team’s performance.
1
従来研究
る 研究が多く 進めら れて いる . Stone ら は強化学習のテス
ト ベッ ド と し て Keepaway と いう サッ カ ーのサブタ ス ク
を 提案し て いる [5]. ま た, Gabel ら は敵エージェ ン ト の行
はじ めに
レ イ ヤ が協調し て 連携動作する 戦術的な 振る 舞いを 実現
動を 妨害する タ スク を 設定し , 実用的な性能を 持っ た個体
制御を 強化学習に よ っ て 獲得する こ と に 成功し て いる [7].
し な け れば, チ ーム と し て のパフ ォ ーマ ン ス を 向上さ せ
強化学習の枠組みに お いて は, エージェ ン ト が意思決定
る こ と は難し い. 戦術的な振る 舞いを 実現する には, ある
する 機会に お いて 最良の行動選択を 行う 能力の獲得が期
目標状態に 向け て 複数のプレ イ ヤ のア ク ショ ン の連鎖を
待でき る . し かし な がら , 強化学習のよ う な ボト ム アッ プ
プラ ン ニン グする 必要がある . プラ ン ニン グの実行に は,
のア プロ ーチ では, 目標と な る 状態を 複数のエージェ ン
適切な ア ク ショ ン の列を オン ラ イ ン で探索し な け ればな
ト で共有し た上での, 戦略・ 戦術的な 意思決定能力の獲得
ら ない. し かし ながら , 空間が連続なだけでなく 意思決定
は想定さ れて いな い.
サッ カーのよ う にチームで対戦する ゲームでは, 複数のプ
に 実時間性が求めら れる タ ス ク では, ゲーム 木探索のよ
戦術や戦略に 基づいた集団制御を 実現する ために , 2D
う な 計算機の能力を 駆使する ア プロ ーチ の適用は困難で
サッ カ ーシミ ュ レ ーショ ン において はト ッ プダウ ン な アプ
あっ た. こ の問題に対し て , 近年の計算機の能力向上に伴
ロ ーチ が取ら れて いる . ト ッ プダウ ン な ア プロ ーチ と し
て, Situation Based Strategic Position[3]や Locker Room
い, 従来のよ う な 探索に 基づいた プラ ン ニン グを 実時間
性を 損な う こ と 無く 実行する こ と が可能と な っ て き た.
本稿では, 連続空間に お け る 複数エージェ ン ト に よ る
Agreement[2]やなど の, エージェン ト 間で戦略や戦術を 事
前知識と し て 共有し て お く 手法が効果的であ る こ と が知
戦術的振る 舞いを オン ラ イ ン で探索する ア プロ ーチ を 取
ら れて いる . Situation Based Strategic Position は, 戦略
り , 探索に よ る 戦術プラ ン ニン グの実現を 試みた . さ ら
のデザイ ン を チ ーム のフ ォ ーメ ーショ ン と し て 捉え , 状
に , オン ラ イ ン 戦術プラ ン ニン グの有効性を 示すために ,
況に 応じ た エージェ ン ト の配置を 事前に 決めて お く ア プ
RoboCup サッ カ ー 2D シミ ュ レ ータ を 用いた評価実験を
ロ ーチである . Locker Room Agreement では, 特定の条
23
件下で実行すべき 戦術を 事前知識と し て 静的に 共有し て
お く こ と で, 環境の状態が条件に 合致し た 際に 固定的な
プラ ン が遂行さ れる . こ れら の手法によ っ て , 事前の知識
共有に 基づいた 複数エージェ ン ト の協調的な 振る 舞いを
見かけ 上は実現でき る も のの, 実行さ れる ア ク ショ ン 連
鎖や目標状態が固定的である ために柔軟性に乏し いと いっ
た問題があ る .
ト ッ プダウ ン なアプロ ーチと し て は, 環境を 俯瞰し て 観
察でき る コ ーチエージェ ン ト を 用意し , 部分情報し か観測
でき ないプレ イ ヤ エージェ ン ト へコ ーチエージェ ン ト から
アド バイ スを 与え る と いう 取り 組みも な さ れて いる 。 サッ
Figure 1: アク ショ ン 連鎖のイ メ ージ図. 10 番から 7 番へ
のパス , 7 番に よ る ド リ ブ ル, 7 番から 9 番へのパス , 9
カ ーに おけ る 戦略・ 戦術記述言語と し て , Reis ら に よ る
Coach Unilang が提案さ れて いる [4]. Coach Unilang は
番に よ る シュ ート , と いう ア ク ショ ン 連鎖を 表す.
後に 2D サッ カ ーシミ ュ レ ータ の公式コ ーチ言語に仕様の
一部が採用さ れて いる . し かし な がら , コ ーチエージェ ン
• FieldEvaluator ク ラ ス
ト を 利用し た 戦略や戦術のア ド バイ ス が有効に 機能し て
いる 事例はま だ十分に報告さ れて いない. こ れは, コ ーチ
こ れら ク ラ ス は, オブジェ ク ト 指向に お け る 抽象ク ラ ス
エージェ ン ト から のア ド バイ ス が適切であっ たと し て も ,
を 意味する . フ レ ームワ ーク を 利用する 場合, こ れら ク ラ
そ れを 反映する 能力を プレ イ ヤ エージェ ン ト が持た な い
ス から 派生し た 具象ク ラ ス を , 要求さ れる タ ス ク に 応じ
ためであろ う . こ れは, プレ イ ヤ エージェ ン ト の意思決定
て 実装し な け ればな ら な い.
に お け る プラ ン ニン グ能力に 十分な 柔軟性を 持た せら れ
3.1.1
て いないこ と が原因である . 従来のアプロ ーチの問題を 解
CooperativeAction ク ラ ス は, 探索実行時に 最小単位と
決する に は, オン ラ イ ン での戦術プラ ン ニン グを 実現し ,
なる アク ショ ン を 表す抽象ク ラ スである . サッ カ ーの場合
動的な 環境へよ り 柔軟に 対応する 必要がある .
であれば, パス, ド リ ブル, シュ ート な ど の, サッ カ ープ
レ イ ヤ と し て あ る 程度意味のあ る 行動を 具象ク ラ ス と し
オ ン ラ イ ン 戦術プラ ン ニン グ
3
て 実装する こ と に な る .
本稿では, 従来はあ ま り 扱われて こ な かっ た 連続空間に
こ のク ラ スは, アク ショ ン のタ イ プ, 目標状態, 目標状
お け る 実時間オン ラ イ ン 戦術プラ ン ニン グを 実現する た
態に到達する ま でに要する 時間など の情報を 保持し , エー
めに, アク ショ ン 連鎖探索フ レ ーム ワ ーク を 提案する . 提
ジェ ン ト が参照する こ と ができ る . エージェ ン ト は, こ
案する フ レ ーム ワ ーク では, 探索木に よ っ て 有効な ア ク
れら の情報を 参照する こ と で最終的な 自身の体の制御を
ショ ン の連鎖を 探索する こ と で戦術のプラ ン ニン グを 実
行う .
現する .
3.1
CooperativeAction ク ラ ス
3.1.2
ア ク シ ョ ン 連鎖探索フ レ ームワ ーク
ActionGenerator ク ラ ス
ActionGenerator は, エージェ ン ト が観測ある いは予測
提案する フ レ ーム ワ ーク は, 自分と 他者を 含めた 複数の
し た 環境の状態を 入力と し , そ の状態に お いて 取り う る
エージェ ン ト によ っ て 実行さ れう る アク ショ ン( パス, ド
CooperativeAction を 生成する . 通常, ある 入力状態に 対
し て 複数の CooperativeAction の候補を 生成する こ と がで
リ ブル, シュ ート な ど ) を 生成し , 探索木にノ ード と し て
格納し て いく こ と で有効な ア ク ショ ン 連鎖の探索を 実行
き る . 例え ば, ボールを 所有する プレ イ ヤ がパス のア ク
する . 図 1 にアク ショ ン 連鎖のイ メ ージ図を 示す. こ の図
ショ ン を 実行し よ う と する 場合, 無数のパス コ ース 候補
では, 10 番のプレ イ ヤ に よ っ て 発見さ れた ボールを 扱う
が存在する .
4 つのア ク ショ ン の連鎖を 表し て いる .
成功と 予測さ れる CooperativeAction が生成さ れる と ,
提案する フ レ ーム ワ ーク に は, ア ク ショ ン の列と そ れ
そ の結果の予測状態が同時に 生成さ れ, ActionStatePair
ら ア ク ショ ン を 実行後の状態を 生成, 評価する メ カ ニズ
が作ら れる . ActionStatePair は, CooperativeAction と 予
ム が用意さ れて いる . こ のメ カ ニズム は, 以下の 3 つの
測状態と を 単純に 組に し たも のである .
ク ラ ス に よ っ て 実現さ れる .
ActionGenerator は, ノ ー ド と し て 既に 探索木に 入れ
ら れて いる ActionStatePair を 入力と し て , 再帰的に Ac-
• CooperativeAction ク ラ ス
tionStatePair を 生成する こ と ができ る . 首尾良く 生成さ
れた ActionStatePair は新し いノ ード と し て 探索木に加え
• ActionGenerator ク ラ ス
24
す場合は, そ の葉ノ ード での新規子ノ ード の生成は行わ
れな い.
• 深さ があら かじ め設定し た木の深さ の最大数を 越えた.
• 入力さ れた予測状態から CooperativeAction を 生成で
き な かっ た.
• アク ショ ン 連鎖の終了と 設定さ れて いる CooperativeAction(例: シュ ート ) が生成さ れた.
Figure 2: フ レ ーム ワ ーク で採用する 探索木の模式図. 多
分探索木を 採用する . 各セルは ActionStatePair のノ ード
評価実験
4
を 表す. 各ノ ード が持つ予測状態が子ノ ード への入力と
実験環境と し て , RoboCup サッ カー 2D シミ ュレ ータ 1 を
なる .
用いる . 評価用の実行チームと し て RoboCup2010 で優勝
ら れる . こ のと き , 新規に 生成さ れた ノ ード は, 入力と
し た HELIOS2010 を 用い, 探索木の設定変更に よ る チー
な っ た 親ノ ード の子ノ ード と な る .
ム のパフ ォ ーマ ン ス 変化を 調査する .
3.1.3
FieldEvaluator ク ラ ス
4.1
実装
FieldEvaluator は, 新規作成さ れた ノ ード から ルート
ノ ード へ繋がる ア ク ショ ン 連鎖全体を 入力と し , 生成さ
本稿では, プレ イ ヤ エージェ ン ト がボールを 蹴る アク ショ
れた ActionStatePair を 評価する . FieldEvaluator は評価
ン ト には, 以下のよ う な CooperativeAction の具象ク ラ ス
値と し て 実数を 返し , 各ノ ード はこ の値を 保持する . 探索
を 実装し た.
ン の連鎖のみを 扱う . 実験で動作さ せる プレ イ ヤ エージェ
木の走査終了後, プレ イ ヤ エージェ ン ト は, 得ら れた評価
• Clear : 可能な 限り 敵プレ イ ヤ に取ら れな い方向ま た
は位置へボールを 蹴り 出すア ク ショ ン .
値に 基づいて , 生成さ れた 葉ノ ード の中から も っ と も 高
評価のも のを 選択する . 葉ノ ード が選択さ れる と , ルー
• Dribble : ボールを 蹴っ た後に , 再び自分がボール所
ト ノ ード ま でたど る こ と によ っ て 現在状態から のアク ショ
有者に な る ア ク ショ ン .
ン 連鎖が得ら れる .
3.2
• Pass : ボールを 蹴っ た 後に , 自分以外がボール所有
者に な る ア ク ショ ン .
探索木の構造と 走査ア ルゴリ ズム
提案する フ レ ーム ワ ーク で採用する 探索木の模式図を 図 2
に示す. 図で示すよ う に, フ レ ームワ ーク では多分探索木に
• Shoot : 敵ゴールへボールを 蹴り 入れる ア ク ショ ン .
よ っ て 探索処理を 実行する 機能が提供さ れて いる . 図中の
上記アク ショ ン ク ラ スに対し て , 以下のよ う な ActionGenerator の具象ク ラ スを 実装し た. ただし , 計算量の問
セルは木のノ ード を 表し , それぞれ一つの ActionStatePair
を 格納する . 木のルート ノ ード から 葉ノ ード ま でのノ ー
題から , 探索木に お け る ルート ノ ード と そ れ以外のノ ー
ド 列を つな げる と , ある ア ク ショ ン 連鎖が得ら れる .
ド と で使用する ActionGenerator を 切り 替え る こ と と す
探索木の走査ア ルゴ リ ズム と し て , 本稿では単純な 最
る . 以下のリ スト のう ち , † がついたも のはルート ノ ード
良優先探索を 用いる . ActionStatePair に よ る ノ ード が生
での CooperativeAction 生成に 使用さ れる も の, ‡ のつい
成さ れる 際に, FieldEvaluator によ っ て ノ ード の評価値が
たも のはルート ノ ード 以外で使用さ れる も のを 意味する .
得ら れる . こ の評価値は, 最良優先探索のためのヒ ュ ーリ
スティッ ク 値と し て も 利用さ れる . 新規ノ ード が追加さ れ
• Shoot‡ : 簡易予測計算を 行う シュ ート
る ごと に , 評価値に 基づいて ノ ード を 格納する 優先順位
• Cross† : 厳密な 予測計算を 行う パス ( 敵ゴール前)
付き キ ュ ーが更新さ れる . ノ ード の走査は優先順位付き
キ ュ ーでの格納順に 実行さ れる .
• StrictCheckPass† : 厳密な 予測計算を 行う パス
探索木の走査では, 葉ノ ード に 到達し た 時点で探索の
• DirectPass‡ : 簡易予測計算を 行う パス( 味方の足元
を 目標位置と する パス )
終了条件を 満たし て いる かど う かを 確認する . 本稿では,
以下を 終了条件と する .
• VoronoiPass‡ : 簡易予測計算を 行う パス ( 敵の配置
• 走査し た 全ノ ード 数があ ら かじ め設定し た 最大数を
に 基づく ボロ ノ イ 図を 利用し て 目標位置を あ ら かじ
越え た .
め制限する パス )
ま た , 葉ノ ード に お いて 以下の条件のいずれかを 満た
1
25
http://sourceforge.net/projects/sserver/
た だ し , 木の深さ やノ ード 走査の最大数が極端に 大き い
場合, 実時間での計算が間に合わな い. そこ で, 今回の実
験では, 2D サッ カ ーシミ ュ レ ータ に 用意さ れて いる 同期
モード を 用いる こ と で, 計算時間を 無視する .
対戦相手には, agent2d-3.0.02 [6]を 用いる . チームのパ
フ ォ ーマ ン ス の指標と し て , 一試合中のパス の成功回数
と 得点を 用いる .
4.3
実験結果
表 2 に パス 成功回数の結果を , 表 1 に 得点の結果を 示す.
値はすべて 10 試合の平均値である .
パス の成功回数に 関し て は, ノ ード の走査数が 10 と 極
端に 少な い場合に 増加し て いる こ と が分かる . こ れ以外
の組み合わせでは, 木の深さ の最大数が 2 から 3 の間で
Figure 3: 探索に よ っ て 実際に 発見さ れたア ク ショ ン 連鎖
パス の成功回数が増加し て いる .
の例. 9 番から 10 番へのパス , 10 番から 6 番へのパス ,
得点に関し て は, ノ ード 走査の最大数がよ り 大き く , ま
6 番によ る シュ ート ま でのプラ ン が 9 番のプレ イ ヤ によ っ
た , 木の深さ の最大数がよ り 大き い方が得点が増え て い
て 生成さ れて いる . 図中の緑色ま たは青色の円は, 9 番の
る こ と が伺え る . こ の結果を グラ フ 化し た も のを 図 4 に
プレ イ ヤ よ っ て 観測さ れた他のプレ イ ヤ の位置を 表す.
示す. グラ フ から も , ノ ード 走査の最大数が 10 の場合を
除いて , 木の深さ の最大数が大き く な る に つれて 得点数
• ShortDribble† : 厳密な 予測計算を 行う ド リ ブル
が増え る 傾向にある こ と が分かる . ま た, ノ ード 走査の最
大数が大き く な る と , 深さ の最大数の変化の影響が小さ
• SelfPass : 厳密な 予測計算を 行う ド リ ブル
†
く な っ て いる .
• SimpleDribble‡ : 簡易予測計算を 行う ド リ ブル
4.4
FieldEvaluator に関し て は, いく つかのルールを 人手で
作り 込んだも のを 用意し , すべて のプレ イ ヤ エージェ ン ト
走査する ノ ード の最大数が極端に 小さ い場合, ほぼすべ
て の状況において 深さ 1 の探索と なっ て し ま う ため, 生成
で共通に使用する . 実装し た FieldEvaluator は評価関数と
さ れる CooperativeAction の順序によ っ て チーム の特徴が
し て必ずし も 最適化さ れていない. ただし , RoboCup2010
決定し て し ま う . 今回の実験では, パスアク ショ ン が最初
で優勝し た HELIOS2010 が使用し たも のと 同じ 設定であ
に 生成さ れる よ う に 実装さ れて いた た め, ノ ード 走査の
る た め, 現在の競技レ ベルで実用でき る 性能は保証さ れ
最大数が 10 の場合に はほと んど パス し か生成さ れず, パ
て いる .
ス の成功回数が増え る と いう 結果に な っ た.
以上の実装に基づいて , 実際にオン ラ イ ン で利用可能と
一方で, 走査する ノ ード の最大数が一定の値を 越え る
な る よ う に探索木の設定を 調整する . HELIOS2010 では,
と , チ ーム のパフ ォ ーマ ン ス が安定し て く る こ と が分か
探索木の深さ の最大数を 4, ノ ード 走査の最大数を 500 と
る . こ れは, よ り 多く のノ ード を 走査する こ と で, 局所解
し た も のを 実用し た . こ の設定のも と で, 図 3 に 示すよ
に 陥り に く く な る ためである と 予想さ れる .
う な ア ク ショ ン 連鎖を オン ラ イ ン で発見でき る こ と が確
よ り 深い探索に よ っ て チ ーム のパフ ォ ーマ ン ス が向上
認さ れて いる . 図中で示さ れて いる 例では, アク ショ ン の
する 可能性が示さ れた が, そ のた めに は, 走査する ノ ー
連鎖は 3 段階と なっ て いる . こ のよ う に, FieldEvaluator
ド の最大数を 一定数確保し な け れば探索に よ る パフ ォ ー
が返す評価値に よ っ て は, 探索木の深さ の最大数よ り も
マ ン スの改善を 得ら れにく く なる と 言え る だろ う . ノ ード
小さ い深さ で発見さ れた ア ク ショ ン 連鎖が最良の結果と
走査の最大数の最適な 値は, ActionGenerator によ っ て 生
し て 使用さ れる .
4.2
考察
成さ れう る CooperativeAction の数, ま た, 探索の深さ の
実験設定
最大数によ っ て も 異な る . さ ら に, 探索木の設定は実時間
探索木の設定変更に よ る チ ーム のパフ ォ ーマ ン ス 変化を
での実行可能性も 考慮し て 決定し な け ればな ら な いため,
調査する た めに , 以下の 2 項目の全組み合わせで試合を
エージェ ン ト を 実行する 計算機の性能によ っ て も 最適な設
10 試合ずつ行う .
定は異な る と 予想さ れる . さ ま ざ ま な 環境下でよ り 多く
の試合を 実行し , パフ ォ ーマ ン ス を 測定する こ と で探索
• 探索木の深さ の最大数 : 1, 2, 3, 4, 5, 6, 7
木の設定を 最適化する こ と が必要である .
• ノ ード 走査の最大数 : 10, 100, 500, 1000, 10000
2
26
http://sourceforge.jp/projects/rctools/ よ り 入手可能
Table 1: 得失点差( 10 試合の平均) .
最大ノ ード 数\最大深さ
1
2
3
4
5
6
7
10
100
1.5
2.9
2.3
2.8
1.7
1.9
2
2.4
2.1
1.9
2.3
3.2
1.3
3
500
1000
2.6
2.6
3
2.8
3.4
2.7
1.5
3
2.9
3.5
2.4
3.5
2.7
3.4
10000
2.2
2.7
2.7
3
2.7
3.1
3.6
Table 2: パス 成功回数( 10 試合の平均) .
最大ノ ード 数\最大深さ
1
2
3
4
5
6
7
10
205.9
219
212
210.4
219.3
215.3
219
100
500
154.1
145.1
175.1
200.1
159.2
200.2
157.7
168.2
158.8
160.8
156.4
154.9
166.3
154.1
1000
10000
171.7
145.6
193.2
196.8
210.3
229.1
179.3
198.3
168.5
182.6
163.5
167.3
166.9
163.6
Figure 4: 探索木の設定変更に よ る チーム パフ ォ ーマ ン ス の変化. ノ ード 走査の最大数ごと に グラ フ 化し て いる . 横軸:
探索木の深さ の最大数. 縦軸:10 試合の得点数の平均値.
5
ま と めと 今後の課題
レ イ ヤ エージェ ン ト の移動動作ま で含めたアク ショ ン 連鎖
を 扱え て いな い. 並列に 進む ア ク ショ ン 連鎖を 実現でき
本稿では, 探索木によ り アク ショ ン 連鎖を 探索する フ レ ー
る よ う に フ レ ーム ワ ーク を 拡張する こ と が今後の重要な
ムワ ーク を 提案し , こ れを 用いる こ と でオン ラ イ ン での戦
課題である .
術プラ ン ニン グの実現を 試みた . RoboCup サッ カ ー 2D
参考文献
シミ ュ レ ーショ ン 環境において , フ レ ームワ ーク を 実装し
た エージェ ン ト を 用い, 探索木の深さ と 走査する ノ ード
[1] Itsuki Noda and Hitoshi Matsubara: Soccer Server
数の変更によ っ て チームのパフ ォ ーマ ン スに現れる 影響を
and Researches on Multi-Agent Systems, Proc. of
IROS-96 Workshop on RoboCup, pp. 1-7, (1996)
測っ た .
今後は, 探索木の設定を 最適化する た めのデータ 収集
や, よ り 多様な 評価基準に 基づいて チ ーム の戦術的な 振
[2] Peter Stone and Manuela Veloso:
る 舞いに 現れる 変化を 分析する こ と が必要である . ま た,
Task Decom-
position, Dynamic Role Assignment, and LowBandwidth Communication for Real-Time Strate-
本稿で提案する フ レ ーム ワ ーク で生成さ れる 行動連鎖は
すべて 直列であり , 並列に実行さ れる アク ショ ン の集合を
gic Teamwork, Artificial Intelligence, 110(2), pp.241273, (1999)
生成する こ と はでき ない. そのため, ボールを 持たないプ
27
[3] Luis Paulo Reis, Nuno Lau and Eugenio C. Oliveira:
Situation Based Strategic Positioning for Coordinating a Team of Homogeneous Agents in Markus
Hannebauer, Jan Wendler and Enrico Pagello Editors, Balancing Reactivity and Social Deliberation
in Multi-Agent System From RoboCup to RealWorld
Applications, Springer LNAI, Vol. 2103, pp. 175-197,
(2001)
[4] Luis Paulo Reis and Nuno Lau: COACH UNILANG
- A Standard Language for Coaching a (Robo) Soccer
Team, RoboCup-2001: Robot Soccer World Cup V,
Springer Verlag LNAI, Vol. 2377, pp. 183-192, Berlin,
(2002)
[5] Peter Stone,
Richard S. Sutton and Gregory
Kuhlmann: Reinforcement Learning for RoboCupSoccer Keepaway, Adaptive Behavior, 13(3), pp. 165188, (2005)
[6] 秋山英久: ロ ボカ ッ プサッ カ ーシ ミ ュ レ ーショ ン 2D
リ ーグ必勝ガイ ド , 秀和シス テム , (2006)
[7] Thomas Gabel, Martin Riedmiller and Florian Trost:
A Case Study on Improving Defense Behavior in
Soccer Simulation 2D: The NeuroHassle Approach.
RobopCup 2008: Robot Soccer World Cup XII. pp.
61–72, (2008).
28