PDFファイル - kaigi.org

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
3L3-OS-26a-4
実取引環境
複利型強化学習
用
取引戦略獲得
Acquiring Trading Strategy Using Compound Reinforcement Learning
in Online Trading Platform
松井藤五郎∗1
長瀬舜∗1
後藤卓∗2
和泉潔∗3
Tohgoroh Matsui
Shun Nagase
Takashi Goto
Kiyoshi Izumi
陳
∗3
鳥海不二夫∗3
Yu Chen
Fujio Toriumi
∗1 中部大学
∗2 株式会社三菱東京 UFJ 銀行
∗3 東京大学
Chubu University
Bank of Tokyo-Mitsubishi UFJ, Ltd.
The University of Tokyo
This paper describes an application of compound reinforcement learning to an online trading platform. We use
TradeStation that is the most popular online trading platform among individual investors. We propose a measure
for commission fee in order to improve the winning rate.
1.
我々
表 1: 従来研究 [後藤 13]
[後藤 13]
，
，日本株仮想取引環境
複利型強化学習 [松井 11a, Matsui 12, 松井 11b,
松井 13b, 松井 13a] 用
取引戦略獲得
手法開発
∗1 ，Java
[松井 07, 松井 09, 後藤 13]．
環境
，
分析
指標
株取引必要 API 提供
，様々環境高度取引戦略実装
[鳥海 06]．
，注文出機会前
場開前後場開前 1 日 2 回
制限
，
行
．一般的
注文出機会多
安定
運用行
可
能性高
，本研究
，
安定運
用目指．
対，TradeStation∗2 ，価格情報更新
実行
，更新間隔短
行
．
，TradeStation
，開発
用
実際取引行
．
，本論文
，
開発
複利型強化学習
用
取引戦略獲得
手法 TradeStation 上実装，
行方法提案
．
，TradeStation
EasyLanguage
独自言語用
，取引必要
API 十分
提供
．
，複利型強化学習
用
取引戦略獲得
実装上工夫必要
．
，
，価格変動小
，手
数料
場合細
取引行
勝率極端悪
．
，本論文
，
防
手数料対策方法
提案
．
従来研究 [後藤 13] 本研究
環境違
表1 示
．従来研究
最大違
，時間足日足
分足
行点
．
他
，[中原 13]
，
強化学習用
株取引行研究行
研究
，実取引可能環境
強化学習行
．
使用言語
TradeStation
EasyLanguage
○
○
米国株
分足
Java
○
×
日本株
日足
実取引
対象商品
時間足
2.
比較
本研究
複利型強化学習用
株取引戦略獲得
複利型強化学習，割引複利利益率（割引複利
）
(1 + Rt+1 f )(1 + Rt+2 f )γ (1 + Rt+3 f )γ . . .
2
∞
= ∏ (1 + R t + k +1 f ) γ
k
k =0
期待値最大化
行動規則学習
．
，Rt
時刻 t 観測
利益率（
）
，γ 割引率
， f 投資比率
表．割引複利利益率，
対数取
，従来強化学習同
再帰的形
表
．
，行動規則 π 下
状態 s
価値 V π (s) 行動規則 π 下
状態 s
行動 a 価
値 Qπ (s, a) 次
表
．
[
π
]
∞
V (s) =Eπ log ∏ (1 + Rt+k+1 f )
k =0
=
∑
a∈A
π (s, a)
[
π
∑
s ∈S
∑
s ∈S
+ γV π (s )
(1)
]
Q (s, a) =Eπ log ∏ (1 + Rt+k+1 f )
=
st = s
( a
)
a
Rss + γV π (s )
Pss
∞
k =0
( a
a
Rss
Pss
γk
)
γk
st = s, at = a
(2)
，π (s, a) 行動規則 π 下状態 s
行動 a
a
選択
確率（行動選択確率）
，Pss
状態 s
行動
a 行
次状態 s
確率（状態遷移確率），
a
Rss
状態 s
行動 a 行
次状態 s
連絡先: 松井藤五郎, 中部大学, 愛知県春日井市松本町 1200,
[email protected]
∗1 http://www.kaburobo.jp
∗2 http://www.tradestation.com
1
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
Algorithm 1 複利型 OnPS
3.
．
入力: 割引率 γ, 強化学習率 α, 初期優先度 p, 初期投資比率 f , 投資
比率学習率 η
for all s, a do
P(s, a)
p 初期化
f (s, a)
f 初期化
end for
loop (各
対
繰返 )
c(s, a) ← 0 for all s, a
状態 s 初期化
repeat (
各
対
繰返 )
P
導
行動規則従
s
行動 a 選択
c(s, a) ← c(s, a) + 1
行動 a 実行，利益率 R 次状態 s
観測
for all s, a do
P(s, a) ← P(s, a) + α log(1 + R f (s, a))c(s, a)
c(s, a) ← γc(s, a)
end for
f (s, a) ← f (s, a) + η 1+ RRf (s,a)
利益率
投資比率
掛
1
加
[
]
a
Rss
= Eπ log(1 + rt+1 f )| st = s, at = a, st+1 = s
Buy 100 shares next bar at market;
(3)
命令，次足（next bar）成行（at market）
100 株（100 shares）買注文出（Buy）
表．
，単純
専用
，
，実取引前提
言語
，複利型強化学習
用
Strategy 構築
上必要
中
取引
，保有資産評価額，総資産額等計算
API 用意
．
，
，強化学
習
上必要
，保有資産評価額，総資産額
取引記録基
算出
．
本論文
，状態変数
相対終値相対移動標準偏差
直近 30 足
求
．相対化
前移動標
準偏差計算直近 30 足
用
，状態変数
求
直近 60 足
必要
．証券取引所，
平日昼間
取引行
，市場開
直後
，
直近 60 足
前日
含
．市場開
直後株価前日終値大
乖離
，本研究
，市場開
60 足間取引行
．
実際 Strategy
TradeStation 実行画
面図 1 示．Chart 横軸時間，縦軸株価示，
（移動標準偏差）表示
．足対
下
矢印買注文，上
矢印売注文，数値
取引
株数示．Chart 中縦破線営業日境目示
．
Chart
，営業日境目株価大
変
確認
．
，市場開
間，
取引行
確認
．
我々，[長瀬 13]
，上場投資信託
SPDR S&P
500 ETF Trust (SPY) 取引対象
，時間足 1 分足，手数
料 0
実験行
．学習期間 1 週間，2 週間，1
月，3 月，6 月，1 年，2 年，運用期間 1 日
，
無作為 30 回
行，利益率，最大
，
評価
．参考
，2012 年
2013 年
SPY 値動（日足終値）図 2 示．
表．複利型強化学習
，
s, a 対
Qπ (s, a) 最大化
行動規則 π 学習
．
本論文
，取引戦略学習
勾配法用
投資比率最適化
複利型 OnPS [後藤 13, 松井 13b] 用
．複利型 OnPS
Algorithm 1 示．
複利型強化学習
状態，終値移動標準偏差基
二次元空間表現
．株価大
変動
，直近
比較
相対的値
正規化
，株価大
異
場合
学習
行動規則利用
．具体的
，移動平均
移動標準偏差算
出期間 k
，以下
相対化 [Matsui 09]
．
ot =
vt − µt,k
4σt,k
Strategy 構築
TradeStation ，米国 TradeStation 社提供
個
人投資家向
実取引環境
．TradeStation
，米国
株式，
，先物，FX
4 種類金融商品取引
行
，
行
．2011 年 4 月
・
同社株買収，日本向
公開
予定
．本研究
，米国
版
TradeStation9.1 使用
．
TradeStation
自動取引
，Strategy 呼
．Strategy ，TradeStation 提供
様々機
能
，Chart 呼
機能適用
．
Strategy ，EasyLanguage 呼
専用言語記述
．TradeStation
TradeStation Development Environment 呼
EasyLanguage 専用開発環境用意
，
利用
Strategy 作成・編集
．TradeStation
，銘柄，時間足，期間指定
，指令
銘柄，時間足，期間 Chart（時系列
）作成
．
Chart Strategy 適用
，Strategy 記述
従
，
期間
行
．
EasyLanguage ，TradeStation 専用
記述
言語
．例
，
s←s
until s 終端状態
end loop
得
対数期待値
TradeStation
(4)
，vt
t
値，µt,k 時刻 t 直近 k 個
求
移動平均，σt,k 同
移動標準偏差表．終値
相対化
値相対終値（RCP）
，移動標準偏差相対化
値相対移動標準偏差（RMSD）呼．RCP 正
現在株価移動平均株価
大
，
，株価上
昇
表
．RMSD 正
現在標
準偏差移動平均標準偏差
大
，
，株価変動
大
表
．
値共連続
値
，15 × 15 格子状配置
動径基底関数用
線形関数近似行．
行動買
売
2 種類
．株式
購入
状態
・
，株式信用売
状態
・
．
，複
利型強化学習
学習
取引戦略
行動選択
，
勾配法
学習
投資比率 f
大
調整
．
2
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
図 3: 年換算利益率．
図 1: TradeStation
実行画面．
図 4: 定数量導入前後
勝率比較．
図 2: SPDR S&P 500 ETF Trust (SPY)
図 3 ，30 回
年間 250 営業日
学習期間
一日
取引回数
行
．
，含益状態変数
追加
．
，
状態相対終値，相対移動標準偏差，含益 3 次
元表現
．
，
，現在含益
出
知
，含益出
決済
行動学習
期待
．
，状態変数加
状態特徴数増
，動径
基底関数 15 × 15 × 15
9 × 9 × 9 格子状配置
．
値動．
結果幾何平均利益率
年換算利益率求
結果
学習期間中
1
．
月以下
2年
利益
，学習期間 6 月
年換算
10.2%，学習期間 1 年
年換算 23.2% 利益
．
，学習期間 1 年
，
利益
取引戦略獲得
確認
．
，
結果手数料
，
手数料一株当
$0.1
，極端勝率悪
，利
益出
判明
．
，購入価格
価格動
関
，細
取引
行
．
，本論文
，以下
手数料対
策提案
．
3
5.
実験結果
提案
手数料対策有効性確認
，実験行
．取引対象手数料対策導入
前同 SPY
，時
間足導入前同 1 分足
．2013 年各月第 3 水曜
日
期間
，
直前 1 年間学習期間
．結
果図5 示．
左側縦棒一年 250 営業日
換算
一日
取引回数表，右側棒
勝率表
．手数
料導入
勝率 47.9%
3.1% 激減
，提案
手法
手数料対策行
勝率 37.1%
回復
．一日
取引回数，手数料
200.4 回
対，手数料導入
後 151.5 回，手
数料対策行
24.5 回
．
，取引勝
状況
絞込
，負
取引大幅削減
意味
．一日
勝
取引回数，手数料対策行
，4.71 回
9.09 回増加
．
提案
手数料対策
勝率大幅改善
，手
数料
場合
運用成績正
．
，個人投資家向
手数料適用
場合
，
頻繁行
利益得
難
．
4. 手数料対策
，株価購入価格
変動手数料分
小
間
，取引
．
，購入価格
変動
手数料分
小
間，
取引行
必損
失発生
．実際
，損失発生
取引行
場合
得
，
，
場合考
．
次，現在学習中最適投資比率実際投資比率乖離
際生
追加注文
部分決済
調整
取
．
調整行
，細
取引大幅削減
期待
．
調整
行
，平均購入価格変動，変動手数料分
小
間取引行
対策影響大
．
例
，追加注文行
，平均購入価格上昇
，平均
購入価格対
手数料上乗
分
上昇
取引
3
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
Selected Papers of the European Workshop on Reinforcement
Learning 9 (EWRL 2011), Vol. 7188 of Lecture Notes in Computer Science, pp. 321–332 (2012)
[後藤 13] 後藤卓, 松井藤五郎, 大澄祥広：複利型強化学習株
式取引
応用, 第 27 回人工知能学会全国大会 (JSAI 2013),
4I1-OS-16-4 (2013)
[鳥海 06] 鳥海不二夫：株式売買
作
!, 秀和
(2006)
図 5: 学習期間中一日
取引回数
[中原 13] 中原孝信, 羽室行信, 岡田克彦, 宇野毅明：強化学
習用
相場
検知株取引
適用, 第 27 回人
工知能学会全国大会 (JSAI 2013), 1E4-3 (2013)
勝率．
6.
[長瀬 13] 長瀬舜, 松井藤五郎, 後藤卓, 和泉潔, 陳 , 鳥
海不二夫：TradeStation
複利型強化学習用
Strategy 構築, 第 12 回人工知能学会金融情報学研究会
(SIG-FIN), pp. 51–55 (2013)
本論文
，複利型強化学習用
取引戦略獲得
手
法 TradeStation 上実装，
行方法
述
．本手法
直近
状態変数求
，
市場開
直後状態変数
前日
影響受
，前日
影
響
間取引行
．本手法用
評価
，
学習期間 1 年
複利利益率最大
確認
．
，手数料
，勝率極端
下
利益出
．
，本論文
，手数料対策
，価格変動手数
料分
小
間取引行
，資産評価額変動
状態遷移
実際投資比率推定
最
適投資比率乖離
調整行
，状態
変数含益加
3 点提案
．実験
，
提案手法用
手数料
場合勝率大
改善
確認
．
，勝率改善
，運用成績正
．
個人投資家向
手数料
場合
資産安定的運用
難
，今後，強化学習
等運用成績正
検討行
．
[松井 07] 松井藤五郎：
招待–人工知能用
株
式取引–, 人工知能学会誌, Vol. 22, No. 4, pp. 540–547 (2007)
[松井 09] 松井藤五郎, 後藤卓：強化学習用
金融市場取
引戦略獲得分析, 人工知能学会誌, Vol. 24, No. 3, pp.
400–407 (2009)
[松井 11a] 松井藤五郎：複利型強化学習, 人工知能学会論文誌,
Vol. 26, No. 2, pp. 330–334 (2011)
[松井 11b] 松井藤五郎, 後藤卓, 和泉潔, 陳：複利型強化学
習枠組
応用, 情報処理学会論文誌, Vol. 52, No. 12, pp.
3300–3308 (2011)
[松井 13a] 松井藤五郎：複利型強化学習—強化学習
応用—, 計測制御（計測自動制御学会誌）, Vol. 52,
No. 11, pp. 1022–1027 (2013)
[松井 13b] 松井藤五郎, 後藤卓, 和泉潔, 陳：複利型強化学
習
投資比率最適化, 人工知能学会論文誌, Vol. 28,
No. 3, pp. 267–272 (2013)
留意事項
本論文
．
三菱東京 UFJ 銀行
公式見解
表
謝辞
本研究使用
証券株式会社
意表
．
TradeStation
提供
．
株
感謝
参考文献
[Matsui 09] Matsui, T., Goto, T., and Izumi, K.: Acquiring
a government bond trading strategy using reinforcement
learning, Journal of Advanced Computational Intelligence and
Intelligent Informatics, Vol. 13, No. 6, pp. 691–696 (2009)
[Matsui 12] Matsui, T., Goto, T., Izumi, K., and Chen, Y.:
Compound Reinforcement Learning: Theory and An Application to Finance, in Sanner, S. and Hutter, M. eds.,
Recent Advanced in Reinforcement Learning: Revised and
4

Download Report