相互依存関係による学習ヒューリスティクスの自動修正

相互依存関係による学習ヒューリスティクスの自動修正
東京工業大学 情報理工学研究科 計算工学専攻
沼尾 正行
森山 甲一
[email protected]
[email protected]
MACC’99 1999 年 11 月 30 日∼12 月 1 日
Abstract
We consider a method that dynamically adapts the heuristics employed in a learning process
according to the changes in the environment. In our method, the evaluation of the heuristics,
necessary for adaptation, is done by the low-level part that is influenced by the heuristics. We
apply the method to a problem of obtaining cooperation of multi-agents in a reinforcement
learning context.
1
はじめに
エージェント
学習ヒューリ
スティクス
自律的な学習システムを構築するためには、その学
学習部
*
駆動部
知覚部
行動
評価
習行動におけるヒューリスティクスを環境の変化に応
じて動的に適応させなくてはならない。そのためには
図 1
そのヒューリスティクスを評価しなくてはならないが、
その方法が問題となる。通常の行動やその指針である
エージェント
クスと学習部が相互に依存し影響し合う関係でなくて
ヒューリスティクスの評価はいわゆる報酬の形で与え
はならない (図 1 ∗ 印)。
られる。しかし学習行動の場合は、そのヒューリスティ
本研究では、学習部が学習ヒューリスティクスの評
クスの評価を行なう上位のメカニズムの存在を仮定し
価を与えることでこの関係を実現することにする。以
てしまうと評価の無限後退に陥る危険が生じ、また評
下ではその具体的問題として、強化学習によるマルチ
価を人間が与えてしまうと本当の意味での自律性が失
エージェントの協調獲得を扱う。
われる。
そこで本研究では学習行動のヒューリスティクスを、
3
その影響を受ける学習メカニズムが評価することによっ
強化学習による協調獲得
3.1
て動的に適応させることを目的とする。そして具体的
報酬のフィルタリング
に強化学習によるマルチエージェントの協調獲得問題
マルチエージェントの協調獲得問題は、協力的問
について実験を行ない、結果を示す。
題 (Co-operative Problem) とデッドロック回避問題
2
(Deadlock Avoidance Problem) の 2 つに分けられ
相互依存関係
る [3, 4]。協力的問題は全エージェント共通の評価関
数を最大化するもので、これが最大になる時に各エー
外部環境に対して行動し、その結果として評価を受
けるエージェントを仮定する。このエージェントの内
ジェントの獲得報酬も最大になるというものである。
部を 図 1 のように各部分に分けて考える。この図で
一方デッドロック回避問題は、複数のエージェントの
実線矢印は制御、点線矢印はデータの流れを表してい
獲得報酬が同時に最大になることはない状況の時、各
る。この時学習ヒューリスティクスと学習部が支配従
エージェントが一斉に報酬を追求するとデッドロック
属の関係にあるならば、このヒューリスティクスを評
に陥ってしまうため、それを回避する問題である。
価するために更に上位のメカニズムが必要となる。こ
これらを強化学習の手法で解決するために、予めフィ
のことから、無限後退を防ぐには学習ヒューリスティ
ルタリングした報酬を用いて強化学習を行なおうとす
1
相互依存関係による学習ヒューリスティクスの自動修正
MACC’99
1999 年 11 月 30 日∼12 月 1 日
2
る手法が提案された [4, 5]。これは近隣エージェントの
これは前節のフィルタを動的にしたものであり、α, β
平均報酬を用いて以下の式で表されるフィルタ [4] を
を変化させることで平均フィルタ・強調フィルタを含
構成し、獲得報酬をフィルタリングするものである。
む様々なフィルタとして働くことができる (表 1)。本
これらの式で r はエージェントの獲得報酬、r は強化
研究ではこの α, β の変化を強化学習を用いて学習する
学習に用いられる報酬、E は近隣エージェントの平均
ことでフィルタの動的適応を実現することとし、この
1
報酬、p (> 0) はパラメータを表す 。
• 平均フィルタ 1 (平均以下を底上げ)
r =
r
E
if r > E
otherwise
学習に必要な報酬を相互依存の観点から学習部が与え
ることにする (図 1 ∗ 印に相当)。なお、以下では α, β
のことをまとめて汎用フィルタパラメータまたは単に
パラメータ、それらの学習を行なう部分をパラメータ
学習部と称する。
• 平均フィルタ 2 (平均以上をカット)
r =
表 1
r
if r < E
α
β
対応フィルタ
E
otherwise
0
1
1
0
平均フィルタ 1
1
p+1
1
1
フィルタなし
強調フィルタ 1
1
p+1
強調フィルタ 2
• 強調フィルタ 1 (平均以下を強調)
r =
α, β と各フィルタの関係
r − p(E − r)
if r < E
r
otherwise
平均フィルタ 2
• 強調フィルタ 2 (平均以上を強調)
r − p(E − r)
r
r =
if r > E
otherwise
4
実験
ここでは協力的問題の例として文献 [4] と同様にゲー
平均フィルタ (Average Filter) が協力的問題に、強
ム理論の分野で有名な「共有地の悲劇」[2, 6] タイプの
調フィルタ (Enhancement Filter) がデッドロック回避
ゲームと、デッドロック回避問題の例としてオリジナ
問題に有効であることが文献 [4] に示されている。従っ
ルの「狭路問題」により実験を行なった。強化学習手
て、これらのフィルタは協調獲得学習における一種の
法としては Q-learning [8] を用い、学習率・割引率は
ヒューリスティクスであると考えることができる。
共に 0.5 とした。
3.2
以下の実験においてループ 1 回とは、表 2 の動作を
汎用フィルタ
全エージェントが 1 回ずつ行なうことを表している。
前節のフィルタはそれぞれ固定的であるため、動的
な環境においては逆効果をもたらす可能性がある。更
に問題のタイプによって異なるフィルタを用いる必要
があるため、人が予め問題を見極めなくてはならない。
なお必要に応じて、動作間でエージェント間の同期を
取ることにする。
表 2
各エージェントの動作
これらの問題を解決するためにはフィルタの動的適応
1. 行動提示
性が要求される。そこで本研究では、まず以下の式で
2. 報酬 r 獲得
3. パラメータ (α, β) 調整 ∗
表される汎用フィルタ (General Filter) を提案する。こ
の式で α, β はパラメータを表し、その他の記号は上と
同じものである。
r =
1 強調フィルタ
な拡張である。
E + α(r − E)
if r < E
E + β(r − E)
otherwise
2 は文献 [4] にはないが、強調フィルタ 1 の自然
4. 報酬のフィルタリング (r 計算)
5. 学習部による学習
6. パラメータ学習部による学習 ∗
(∗ : 汎用フィルタの場合のみ)
相互依存関係による学習ヒューリスティクスの自動修正
4.1
1999 年 11 月 30 日∼12 月 1 日
MACC’99
「共有地の悲劇」タイプゲーム
表 5
「共有地の悲劇」実験設定
「共有地の悲劇」タイプゲームは、全てのエージェ
ントが一斉に行動を提示し、その行動により共通コス
ト rc を算出、各エージェントは自分の行動に対する報
酬から共通コストを差し引いた報酬 r を獲得するとい
エージェント数
10
近隣エージェント
図 2 のように定義・固定
局所平均 E
フィルタ後報酬 r の平均
う流れで行なわれた2 。まとめると以下のようになる。
1. 全エージェントが行動を (同時に) 提示
2. 共通コスト rc を計算 (初期値 0)
3. 各エージェントの報酬 r 計算・獲得
表 6
「共有地の悲劇」学習部設定
行動
利他的・協力的・利己的
状態
近隣エージェントの行動組合せ
報酬
表 3 で定義
行動選択
4. 1. へ
確率的
各エージェントの行動による共通コスト rc の増減
と獲得報酬 r は 表 3 で与えられた [4]。例えば 3 台の
表 7
エージェント環境において行動がそれぞれ利己的・利
パラメータ学習部設定
他的・利己的である場合には、この表から共通コスト
初期値
rc が (+1) + (−1) + (+1) = 1 と求められるため、各
行動
(α, β) = (1, 1)
パラメータ値の増加・維持・減少
エージェントの獲得報酬は 表 4 のようになる。
状態
パラメータ値の変化行動
報酬
フィルタ後報酬の符号反転 −r
表 3
行動による rc の変化と獲得報酬 r
r)
(10 回の獲得報酬の和
確率的
行動
rc の変化
獲得報酬 r
行動選択
利己的
+1
3 − rc
行動頻度
協力的
±0
−1
1 − rc
−3 − rc
1 回/ループ 1 回
( 1 回/ループ 10 回)
行動範囲
0 ≤ α, β ≤ 2
0 ∼ 0.1 のランダム幅
利他的
行動幅
( 0 ∼ 1 のランダム幅 )
表 4
(カッコ内は従属的評価の場合)
行動と獲得報酬の例
ID
0
1
2
行動
利己的
利他的
利己的
獲得報酬
2
−4
2
4
5
3
実験の細かな設定は 表 5 ∼ 7 の通りである。ここ
6
2
7
で 表 7 の「行動」「状態」「行動幅」は α, β それぞれ
について決定される。また同表の「報酬」に現れる符
1
号反転操作は、学習部がフィルタ後報酬 r (学習部に
8
0
与えられた報酬) を符号反転することでそれに制御的
9
意味合いを持たせ、パラメータ学習部に与えていると
考えることができる。従って、これらのフィルタパラ
メータは相互依存的に評価されていると解釈できる。
図 2
エージェント 0, 1 の近隣エージェント [4]
3
相互依存関係による学習ヒューリスティクスの自動修正
MACC’99
1999 年 11 月 30 日∼12 月 1 日
4
20
10
Sum of Rewards
0
-10
No Filter
-20
Average 1
-30
Average 2
-40
Enhancement 1 (p=1)
Enhancement 2 (p=1)
-50
General (Interdependent)
-60
General (Subordinate)
-70
0
500
1000
1500
Loop Times
図 3
2000
2500
3000
「共有地の悲劇」ゲームの結果
なお、比較のため汎用フィルタパラメータの変化を
表 8
行動提示回数と獲得報酬の関係
単に長期的に得られる報酬によって学習する、従属的
評価3 を用いた実験も行なった。表 7 のカッコ内はこ
の場合の設定である。
実験結果を 図 3 に示す。このグラフは 15 回の実
験結果の平均をベジエ曲線で近似したもので、横軸が
進む :
r =1−
1
(c − 1)
2
待つ :
r =1−
1
c
2
ループ回数、縦軸が全エージェントの報酬合計を表し
ている。相互依存的 (interdependent) 評価の場合、始
めはフィルタなしと同様に報酬合計が減少して行くが、
途中で下げ止まって増加に転じているのが分かる。一
方、従属的 (subordinate) 評価の場合はフィルタなし
と同様に報酬合計が減少し続けることが分かる。
4.2
の狭い道を 2 台の車がいかに早く通過できるかとい
う問題である (図 4)。すなわち一種の哲学者の食事問
題 [7, 2.3.1 節] であるが、この問題には時間的な条件
が付いていることに注意を要する。
2 台の車は同時に「進む」と「待つ」のどちらかを
提示する。両者の行動が異なれば 表 8 にある報酬を
「狭路問題」
これは、車のすれ違うことが不可能な狭い道があり、
その両側に 2 台の車が同時に現れたと仮定する時、こ
獲得する。この表で c は行動提示回数、r は獲得報酬
を表している。「待つ」を提示した車は相手の車の通
過を待ってから通過するので、「進む」を提示した車
に比べて行動提示 1 回分だけ獲得報酬が少なくなって
いる。両者の行動が同じならば両者とも再び行動を提
示する。これは両者が同時に「進む」を選択すると、
すれ違うことが不可能なので結局通過できず、同時に
図 4
2 文献
「狭路問題」
[4] はゲームの流れについてあまり詳しく書かれていない
ために、これとは異なっているかもしれない。
3 報酬を計算する期間に支配されているため。
「待つ」を提示しても状況は進展しないからである。
実験の細かな設定は 表 9, 10 の通りである。なお
パラメータ学習部については「共有地の悲劇」ゲーム
と同じである (表 7)。また、同様に比較のために従属
相互依存関係による学習ヒューリスティクスの自動修正
表 9
「狭路問題」実験設定
MACC’99
1999 年 11 月 30 日∼12 月 1 日
5
結果である。そのためフィルタ後報酬 r はパラメータ
変化後のフィルタによるものながら、以前のパラメー
エージェント数
ペア生成
10 ( 2 台 × 5 ペア)
タの影響を強く受けていると思われる。
この時にフィルタ後報酬 r が負であったとすると、
ループごとにランダム生成
近隣エージェント
図 2 のように定義・固定
それは以前のパラメータが良くないということを表し
局所平均 E
フィルタ後報酬 r の平均
ていると考えられる。従ってこの場合はパラメータを
10
変化させるべきであるため、パラメータ学習部へ正の
最大行動提示回数
報酬を与えるのが好ましいと思われる。同様にフィル
タ後報酬 r が正であるならば、パラメータの変化はあ
的評価を用いた実験も行なった。
表 10
「狭路問題」学習部設定
まり好ましくないとも考えられる。そのためパラメー
タ学習部へ負の報酬を与えることにより、パラメータ
の変化を抑制しているのではないだろうか。
行動
進む・待つ
状態
相手 ID と両者の行動組合せ
べた考察ではパラメータを変化させるか否か、フィル
報酬
表 8 で定義
タ後報酬 r が正か負かについてしか考えていない。ま
行動選択
確率的
しかしこの考察にもまだ問題点がある。今までに述
た 表 7 によるとパラメータの変化行動には増加・維
持・減少の 3 つがあるが、変化行動が「維持」の場合
実験結果を 図 5 に示す。これは「共有地の悲劇」
は上と逆の現象が起こるであろう。この場合の説明は
今後の課題でもある。
ゲームと同様に 15 回の実験の平均値をベジエ曲線で
近似したものであり、横軸がループ回数、縦軸が全エー
ジェントの獲得報酬合計を表している。この問題の場
合はどちらの評価法も結果に大差はなく、フィルタな
しと同等の結果となっていることが分かる。
6
まとめと課題
本研究では学習部に作用するヒューリスティクスに
ついて、学習部が評価することにより無限後退を避け
て動的適応を実現することを目的とした。そして具体
5
考察
的な問題として強化学習によるマルチエージェントの
協調獲得を扱った。協調獲得の一手法として報酬をフィ
本研究では 2 つの実験の結果、それぞれで汎用フィ
ルタリングする手法を紹介し、そこで用いられるフィ
ルタが類似するフィルタが異なるという意味で、ある
ルタをまとめた汎用フィルタを提案した。このフィル
程度のフィルタ (学習ヒューリスティクス) の汎用化が
タを一種の学習ヒューリスティクスと考え、そのパラ
実現されたものと考えられる。
メータ変化に要する評価を学習部が与えるという解釈
更に「共有地の悲劇」タイプゲームでは、学習部が
フィルタ後報酬 r を符号反転してパラメータ学習部に
によって相互依存関係による学習ヒューリスティクス
の自動修正の実験を行ない、「共有地の悲劇」タイプ
与えるという方法による相互依存的評価が、予め決め
ゲームでは一定の成果を獲得した。結果として、この
られた期間に得られた報酬合計をパラメータ学習部に
手法による学習ヒューリスティクス評価の実現例を示
与えるという従属的評価に比べて良好な結果を得た。
すことができたのではないかと思う。
以下では、なぜ符号反転すると良い結果を得られるこ
今後の課題をいくつか挙げる。
とがあるのかについて考察する。
まず、汎用フィルタパラメータの変化とエージェン
トの行動の間に時間差があることを考慮しなくてはな
らない。汎用フィルタパラメータは学習部に作用する
ものであるため、その行動への影響は時間がしばらく
経った後に出て来るものと思われる。また、報酬を獲得
する元となる行動は変化前のパラメータによる学習の
• 本研究のパラメータ評価法が有効な問題範囲の限
定とその数学的解析
前節の考察をより深め、更にパラメータの収束条
件や行動範囲による影響などを数学的に解析する。
• 人手によるパラメータ評価法の改良
相互依存関係による学習ヒューリスティクスの自動修正
MACC’99
1999 年 11 月 30 日∼12 月 1 日
6
8
7
Sum of Rewards
6
No Filter
5
Average 1
4
Average 2
3
Enhancement 1 (p=1)
Enhancement 2 (p=1)
2
General (Interdependent)
1
General (Subordinate)
0
0
500
1000
1500
Loop Times
図 5
2000
2500
3000
「狭路問題」実験結果
例えば「狭路問題」においても、少なくとも4 強調
フィルタと同等の働きを持つように、パラメータ
を導く評価式を発見する。
• 解釈によらない相互依存関係の実現
学習部にパラメータ評価法自体を獲得させること
により、パラメータ評価として符号反転した報酬
を与えるという一種のヒューリスティクスを排除
し、解釈によらない相互依存関係を実現する。
• 社会的視点からのフィルタの妥当性の検証
[3] 三上 貞芳. 強化学習のマルチエージェント系への応用. 人
工知能学会誌, Vol. 12, No. 6, pp. 845–849, November
1997.
[4] Sadayoshi Mikami and Yukinori Kakazu.
Cooperation of Multiple Agents Through Filtering Payoff. In 1st European Workshop for Reinforcement
Learning, 1994.
[5] Sadayoshi Mikami, Yukinori Kakazu, and Terence C.
Fogarty. Co-operative Reinforcement Learning By
Payoff Filters. In Proc. 8th European Conference on
Machine Learning, ECML-95, (Lecture Notes in Artificial Intelligence 912), pp. 319–322, Heraclion, Crete,
Greece, 1995.
本研究で用いたフィルタに類似したものの存在を
[6] 岡田 章. ゲーム理論. 東京: 有斐閣, 1996.
現実社会に認めることが可能ならば、マルチエー
[7] Andrew S. Tanenbaum. Operating Systems: Design
and Implementation. Englewood Cliffs, NJ: PrenticeHall, 1987. (坂本 文 監修, 大西 照代 訳. MINIX オペ
レーティング・システム. 東京: アスキー, 1989).
ジェントによる社会システムモデルの研究 [1] に
応用できる。
その他にも課題はあるだろうが、解釈によらない相
互依存関係の実現を主目的として研究を進めて行きた
いと考えている。
References
[1] 出口 弘. 規範と制度化の階層的意志決定モデル. 第
8 回マルチ・エージェントと協調計算ワークショップ
(MACC’99), 1999.
[2] Garrett Hardin. The Tragedy of the Commons. Science, Vol. 162, pp. 1243–1248, 1968.
4 強調フィルタが正解とは限らないため。
[8] Christopher J. C. H. Watkins and Peter Dayan. Technical Note: Q-learning. Machine Learning, Vol. 8, pp.
279–292, 1992.