Profit Sharingの期待値に基づく合理性 - J

The 22nd Annual Conference of the Japanese Society for Artiﬁcial Intelligence, 2008
3A2-1
Proﬁt Sharing
期待値
基
合理性
Rationality of Proﬁt Sharing Based on Expected Value
松井藤五郎
大和田勇人
Tohgoroh Matsui
Hayato Ohwada
東京理科大学理工学部経営工学科
Department of Industrial Administration, Faculty of Science and Technology, Tokyo University of Science
This paper describes the rationality of proﬁt sharing based on expected value. Miyazaki et al. proved the
rationality, we call this the complete rationality, of proﬁt sharing by analysing the worst case in all possible
situations. However, the strong condition based on the complete rationality reduces the eﬀectiveness of proﬁt
sharing. In this paper, we analyse the average case to show the expected rationality of proﬁt sharing.
s ∈ S, a ∈ A
1.
P(s, a) ← C （C
Proﬁt sharing [Grefenstette 88] ，
行動優先
度割当
強化学習法
．Proﬁt sharing ，
・
[Holland 86]
信用割当
技法
提案
，
後多
強化学習
影響与
．Grefenstette 手法遺伝的
併
用
，宮崎
proﬁt sharing 一般的強化
学習枠組
扱
示
[宮崎 94]．
Proﬁt sharing ，環境
報酬獲得
，報酬獲得
至
状態行動系列中状態行動対信用割当関数基
優先度増加
．Proﬁt sharing ，Q 学習
行動
価値推定
手法比
(1) 学習速，(2) 学
習中振舞
優
大
利点持
．
宮崎
，[宮崎 94]
，proﬁt sharing 報酬獲得
政策収束
条件示
．本論文
，
宮崎完全合理性条件呼．
後，
基
proﬁt sharing
環境，非定常環境，
部分観測環境 proﬁt sharing 適用
研究
数多行
．
Proﬁt sharing 信用割当関数
等比減少関数
用
．
，等比減少信用割当関数用
宮崎
完全合理性条件従
，学習遅
，proﬁt
sharing 用
際大
問題
．
，本論文
，MDP
等比減少信用割当関数
用
proﬁt sharing 対
期待値観点基
proﬁt
sharing 合理性割引率条件
述
．
2. Proﬁt Sharing
2.1 対象
本論文
MDPs
各
繰
中
定数）
：
対
繰
行動選択確率分布
状態 s
行動 a
s
返
正
各
導
s←
：
小
初期化
P
行動 a
取
返：
従
，
選択
，報酬 r
次状態 s′
観測
s′
終端状態
繰
返
含
終了
状態行動対対
：
P(st , at ) ← P(st , at ) + f (t, rT , T)
図 1: Proﬁt sharing
分解
分系列
2.2
．
環境相互作用終端状態
部分系列
扱．
初期状態
終端状態
部
呼．
Proﬁt Sharing
Proﬁt sharing [Holland 86, Grefenstette 88, 宮崎 94] ，代
表的行動優先度学習型強化学習
，
状態
行動優先度学習
．状態 s
行
動 a 優先度 P(s, a) 表，
優先度 P(s, a)
基
行動選択
．
Proﬁt sharing
図 1 示．Proﬁt sharing
，
s0 , a0 , r1 , . . . , sT−1 , aT−1 , rT 含
各状態行
動対 st , at 対
優先度
終了後一括
次
強化
．
完全合理性
問題
，標準的
決定過程（MDPs）
型
対象
．
関
記号，[Sutton 98] 倣．
環境相互作用
P(st , at ) ← P(st , at ) + f (t, rT , T)
， f 信用割当関数呼
一
状態行動対 s, a
信用割当関数値合計
，∆P(s, a) 表．
，
s0 , a0 , r1 , s1 , a1 , r2 , . . . , sT−1 , aT−1 , rT , sT
行動
対
状態 s
対
任意
状態 s ∈ S（S 状態集合），行動 a ∈ A（A
集合），報酬 r ∈ ℜ（ℜ 実数集合）列表，
2.3
Proﬁt Sharing
状態行動対現在
常迂回経路上出現
．状態行動対無効
連絡先: 松井藤五郎, 東京理科大学理工学部経営工学科,
[email protected], http://
.jp
1
関数
，
s, a 対
学習
，
．
最困難
出現
強化値
状態
状態行動対無効
，有効
．
The 22nd Annual Conference of the Japanese Society for Artiﬁcial Intelligence, 2008
宮崎
a(1)
完全合理性条件従
，取得行動数大
信用割当非常小
，学習進行遅
．
，宮崎完全合理性条件実用的
．
a(0)
a(2)
s(0)
...
3.
Proﬁt Sharing
期待合理性
a(L)
宮崎完全合理性定理完全合理性条件，proﬁt sharing
直面
可能性
最悪場合
解析，無効
，合理性保
行動抑制
．
，実際
，
非常稀
図 2: Proﬁt sharing
学習最困難状態 [宮崎 94]．
．
，proﬁt sharing
自然制限加
，proﬁt sharing
学習最困難状
宮崎
，[宮崎 94] 中，proﬁt sharing
学習
態 [宮崎 94]
proﬁt sharing 直面
平均的場合
最困難状態示
．
，期待値観点基
proﬁt sharing
¶
³
合理性示．
補題 1 (学習最困難状態) 図 2 示
，
3.1 非決定的単調増加行動選択法
以上有効行動唯一回帰的無効行動
期待値観点基
proﬁt sharing 合理性示
競合
状態，proﬁt sharing
学習最
困難状態
．
，本論文
，行動選択法次定義
非決定的
µ
´ 単調増加行動選択法限定
．
¶
³
，有効行動実行
遷移先状態
終端状態
目標状態
，正報酬与
．
定義 1 (非決定的行動選択法) 非決定的行動選択法，任
a(i)
，Rs(0)
> 0（i = 1, 2, . . . , L）
．
，Rsa 状態 s
意状態行動対 s, a 対
，行動選択確率次式
満
行動 a 行
得
報酬期待値表，L 有
効行動数表．Proﬁt sharing
途中報
酬 0
，唯一存在
回帰的無効行
a(0)
，Rs(0)
=0
．
動 a(0) 対
報酬 0
¶
定理 1 (Proﬁt sharing
用割当関数 f ，
，proﬁt sharing
強化値分析
条件示
．
完全合理性) Proﬁt sharing
f (t, rT , T) > L
t−1
∑
´
³
定義 2 (単調増加行動選択法) 単調増加行動選択法，優
先度 P(s, a) < P(s, a′ )
任意状態行動対 s, a
s,
a′ 対
，行動選択確率次式満
．
学習
，無
³
信
µ
Pr(at = a | st = s) ≤ Pr(at = a′ | st = s)
´
強化学習
，一般的，非決定的単調増加行動選択法
用
．
，Boltzmann 分布用
選択，ϵ選択，一様選択，
非決定的単
調増加行動選択法
．
選択，proﬁt sharing
非決定的単調増加行動選択法
．
，強化学習
行動選択法非決定的単調増
加行動選択法限定
厳
制約
．
f (i, rT , T)
i=0
満
動
Pr(at = a | st = s) < 1
µ
¶
2.4 宮崎合理性定理合理性条件
宮崎
，[宮崎 94]
最困難状態
効行動抑制
．
，任意状態
，任意無効行
抑制
．
，L ，同一入力状態存在
有効行動最大個数
．
3.2
期待強化値
，
得
µ
´ Proﬁt sharing
強化値
，
出現
状態行動対
最後
得
，本論文
，宮崎完全合理性定理呼（証明
報酬
確率的
決
．
，
proﬁt
sharing
[宮崎 94] 参照）．
強化値，確率変数
表
．
Proﬁt sharing 信用割当関数 f
，等比減少関数
行動選択法非決定的
限定
，proﬁt sharing
f (t, rT , T) = γT−t−1 rT (0 ≤ γ ≤ 1)
，
以上有効行
学習最困難
動 a(i)（i = 1, 2, . . . ）唯一回帰的無効行動 a(0) 競合
用
．
，γ 割引率
．
状態 s(0)
，proﬁt sharing
n 回目
等比減少関数用
，優先度 P(st , at ) 増分時間
得有効行動 a(i) 対
強化値 ∆Pn (s(0) , a(i) ) 期待
減
．
，前使
状態行動
a(i)
値，行動選択確率 pn(0) , pn(i) 期待報酬 Rs(0)
表
対
，
優先度増分小
．等比減少信用割当関
．
，pn(i) ，n 回目
状
数，割引率
態 s(0)
行動 a(i) 選択確率 pn(i) = Prn (at = a(i) | st = s(0) )
1
γ≤
表．
L
宮崎完全合理性定理満
，宮崎完全合理性条件呼．
．
条件，
2
The 22nd Annual Conference of the Japanese Society for Artiﬁcial Intelligence, 2008
¶
³
[
]
[
pn(i)
a
E ∆Pn (s(0) , a(i) ) = E
R (i)
1 − pn(0) s(0)
割引率 γ 制限
γ 条件
制限
，期待合理性定理
補題 2 (有効行動期待強化値)
以上有効行
動 a(i) （i = 1, 2, . . . ）唯一回帰的無効行動 a(0)
競合
状態 s(0)
，proﬁt sharing 非決定的
行動選択法従
行動選択
，proﬁt sharing
n 回目
得有効行動 a(i) 対
強化値 ∆Pn (s(0) , a(i) ) 期待値，
．
0≤γ≤1
．本論文
]
4.
，
期待合理性条件呼
．
考察
宮崎
完全合理性定理最学習困難状態
最
分析
対，本論文示
期待合理性定
．
同状態
平均的
分析
．
µ
´ 期待合理性定理，proﬁt sharing ，等比減少信用割当関
証明紙面都合
省略
．
数用，非決定的単調増加行動選択法従
独立行動
，信用割当関数等比減少関数限定
，同様
選択
，有効行動存在
状態
，唯一回帰的無効行動 a(0) 対
強化値 ∆Pn (s(0) , a(0) )
，選択確率
期待値
最大
有効
行動
存在
a(i)
期待値行動選択確率 pn(i) 期待報酬 Rs(0)
（i = 0, . . . , L）
示
．
表
．
期待合理性条件，上条件満
proﬁt sharing
¶
³
用
，平均的
，割引率 γ 上限 1
範囲
内大
示
．
，
補題 3 (唯一回帰的無効行動期待強化値) L 個
取得行動数関係
割引率設定
有効行動 a(i)（i = 1, . . . , L）唯一回帰的無効行
動 a(0) 競合
状態 s(0)
，割引率 γ 等
点，宮崎完全合理性条件
優
．
比減少信用割当関数用
proﬁt sharing 非決定的行
動選択法従
行動選択
，n 回目
5.
得唯一回帰的無効行動 a(0) 対
強化値 ∆Pn (s(0) , a(0) ) 期待値，
本論文
，期待値観点基
proﬁt sharing 合理性
述
．


L
∑


[
]
本論文示
期待合理性定理，proﬁt sharing
(1) 等
γpn(0)
a(i) 


)(
)
E ∆Pn (s(0) , a(0) ) = E  (
pn(i) Rs(0) 
 1−p

比減少信用割当関数用，(2) 非決定的単調増加行動選択法
1
−
γp
n(0)
n(0) i=1
従，(3) 独立行動選択
，有効行動選択
確率期待値最大
示
．
，割引
．
条件 0 ≤ γ ≤ 1 満
µ
´ 率 γ ，等比減少関数
．
期待合理性条件，(1)
速学習
，
証明紙面都合
省略
．
(2) 取得行動数依存
点宮崎完全合理
3.3 期待合理性定理
性条件
優
．
Proﬁt sharing
，確率的行動選択法用
，
紙面都合
省略
証明
，近
人工
行動選択確率 Pr(at = a | st = s) ，
経験
状態行
知能学会論文誌発表
．
動対獲得
報酬
確率的決
確率変数
表
．
，
確率変数期待値
考
．
参考文献
補題 2 補題 3
，proﬁt sharing
学習最困
難状態 s(0)
，proﬁt sharing 等比減少信用割当関
[Grefenstette 88] Grefenstette, J. J.: Credit assignment in
数用，非決定的単調増加行動選択法従
独立行動
rule discovery systems based on genetic algorithms, Ma選択
有効行動対
強化値期待値無効行
chine Learning, Vol. 3, pp. 225–245 (1988)
動対
強化値期待値大小関係調，補題 1 合
[Holland 86] Holland, J. H.: Escaping Brittleness: The Possi一般的状態拡張
次定理導
bilities of General-Purpose Learning Algorithms Applied
．
¶
³
to Parallel Rule-Based Systems, in Michalski, R. S., Carbonell, J. G., and Mitchell, T. M. eds., Machine Learning: An
定理 2 (Proﬁt sharing 期待合理性) Proﬁt sharing
，
Artiﬁcial Intelligence Approach, Vol. 2, Morgan Kaufmann
等比減少信用割当関数用，
，非決定的単調増加
Publishers (1986)
行動選択法従
独立行動選択
，有効
悪
理
状態
対
存在
任意
状態 s
，任意
行動 a
[宮崎 94] 宮崎和光, 山村雅幸, 小林重信：強化学習
報酬割当
理論的考察, 人工知能学会誌, Vol. 9, No. 4, pp.
580–587 (1994)
E [Pr(at = a′ | st = s)] ≥ E [Pr(at = a | st = s)]
満
µ
有効行動 a′
存在
．
証明紙面都合
省略
．本論文
，
proﬁt sharing 期待合理性定理呼．
定理
，信用割当関数
，関数等比減少
[Sutton 98] Sutton, R. S. and Barto, A. G.: Reinforcement
Learning: An Introduction, The MIT Press (1998), 三上貞
´
芳, 皆川雅章共訳. 強化学習. 森北出版, 2000
3

Download Report

Profit Sharingの期待値に基づく合理性 - J

PDFファイル - kaigi.org

expydoc.com

Your ExpyDoc