Deep Belief Networkとベイジアンネットワークによる 日経平均予測の比較

Deep Belief Network とベイジアンネットワークによる
日経平均予測の比較
Comparing the Forecast of Nikkei225 using Deep Belief Network
and Baysian Network
小林 秀輔 1∗ 白山 晋 1
Shusuke Kobayashi1 and Susumu Shirayama1
東京大学工学系研究科システム創成学専攻
Graduate School of Engineering, Tokyo University
1
1
Abstract: With the development of the Deep Learning, it becomes more important to verify what
methods are valid for the prediction of time series data. In this study, we compare the prediction
accuracy of Nikkei Stock Average using Deep Belief Network (DBN) and Baysian Network (BN) .
Some experiments shows that there is no significant difference between the prediction accuracy of
DBN and that of BN , and DBN will be irrelevant to the forecasting time series stock proce data.
1
はじめに
日々の生活で,株価に関するニュースを頻繁に見聞
きするが,株価は投資家個人による投資行動の決定に
関わるだけでなく,企業の経営方針や国家運営など多
くの問題に密接に関連しており,高精度な株価予測が
必要とされている.
最も大きな影響を与える株式指標の一つに日経平均
株価がある.第二次安倍内閣成立以降,アベノミクスの
もと日経平均株価は順調に回復傾向を示してきた.一
時期,日経平均株価は 2 万円を超える時期があったも
のの,中国経済の減速予感などを踏まえ,現在は 1 万
8 千円台を推移している.また,グローバル化が進む
現在,多様な世界情勢や他国の株式市場の動向が日本
の株式市場にも影響を及ぼしている.日本市場の株式
の今後の動向の予測を考える際には,他国の経済指標
の変化を観察し,その影響を予測に活用していくこと
が重要である.このような中で機械学習の経済分析へ
の応用が模索されている [1][2][3].
Ribeiro と Lopes はフランスの企業 1200 社に対し
て,Deep Belief Network(DBN)を用いて倒産予測を
行い,その予測精度が制限付きボルツマンマシンより
有意に高いことを示している [1].Deep Belief Network
は,近年注目を集めている Deep Learning の一手法で
ある.DBN を経済時系列のデータに応用したものとし
ては,小牧と白山 [2] の研究も挙げられる.この研究で
は日経平均株価の予測を行っている.訓練期間の逐次
∗ 連絡先:東京大学工学系研究科システム創成学専攻
〒 113-8656 東京都文京区本郷 7-3-1
E-mail: [email protected]
更新と DBN に自己組織化マップを組み合わせるとい
う2つの工夫を施すことで,効率的な学習を実現して
いる.しかしながら,特徴抽出用の入力としてその時
の株価を正規化したもののみを用いている点が課題で
ある.日経平均株価を高精度に予測するためには,複
数銘柄のデータからの予測が必要と考えられる.
ベイジアンネットワークを株価分析に応用した研究
として,Yi と Kita[3] が挙げられる.この研究では日
経平均株価を複数の過去の日経平均株価の値から予測
しているが,用いているネットワークがナイーブベイ
ズという単純なネットワーク構造に限定されていると
いう課題がある.
一方,Deep Learning 自体にも適切な学習データの
選択,非常に長い計算時間,パラメタ選択の難しさな
どの問題が指摘されている.また,ベイジアンネット
ワークにも課題がある.ベイジアンネットワークでは,
確率変数をノードで表し,変数間の定量的な依存関係
を条件付き確率で表現する.この際に,ネットワーク
の構造を事前に定める必要があるが,定め方には多義
性があるという問題点がある.
本研究では,Deep Belief Network とベイジアンネッ
トワークという2つのネットワークモデルを用いた,複
数の株式市場の影響を考慮した日経平均株価の予測を
行い,その精度の比較を行う.
具体的には,今期の日経平均株価を1期前の日経平
均株価,NY ダウや FTSE100 などの海外の主要株価指
標から推定する.ベイジアンネットワークについては
構築可能な複数のネットワークを考慮し,予測を行う.
Deep Belief Network についても同様のデータを用いて
複数銘柄から日経平均株価の予測を行い,その予測精
度についてベイジアンネットワークとの比較を行う.
2
日経平均推定への応用
この節では,ベイジアンネットワーク,Deep Belief
Network を用いて日経平均株価を予測するために必要
な株価データの前処理について述べる.さらに,ベイ
ジアンネットワークと Deep Belief Network で日経平
均株価を推定する具体的な手法について紹介する.
2.1
データの前処理
ベイジアンネットワークは多様なデータを扱うこと
ができるが,離散変数しか扱えないために,連続値の
データは適宜,離散化する必要がある.離散化手法に
ついては,等分割クラスタリングやウォード法 [4] など
があるが,離散化する代表値の取り方や,クラスタ数
の決め方などの問題がある.ここではデータの定常性
を仮定したうえで,平均値からの乖離で 2 値化する手
法を提案する.
株価指標のデータはリターンで扱う.リターンを以下
の式で定義する.t 期の株価指標の終値を Pt とした時,
rt = (ln(Pt ) − ln(Pt−1 )) × 100
(1)
データの定常性を仮定するために,単位根検定を行
い,定常性の確認ののち,リターンを標準化する.平
1
均を µ = E(rt ),標準偏差を σ = (V ar(rt )) 2 とする
と,標準化したリターン Rt は,
Rt =
rt − µ
σ
(2)
AIC は推定されたモデル分布と真の分布との間のカ
ルバックライブラー情報量を最小化することを考えて
いる.具体的には,期待対数尤度を真のパラメータの
周辺でテイラー展開し,その第 2 項の 2 倍が χ2 分布に
従うことを用いて,
AICm = −2lm (θm |X) + 2km
(3)
が導かれる.ここで,θm はモデル m のパラメータ集
合を示し,lm (θm |X) は,データ X を所与としたとき
のモデル m におけるそのデータの最大対数尤度の値で
ある.また,km はモデル m のパラメータ数を示して
いる.この AICm を最小にするモデルが最適なモデル
となる.
また,MDL のような一致性をもつ情報量基準は,一
般的にモデルの予測分布を求めたものである.モデル
が特定されれば,直接,そのモデルの予測分布を解析
的に求めることができ,より予測精度の高いモデルを
選択できる基準を作成できる.
ベイジアンネットワークの確率構造を Bs ,条件付き
確率パラメータ集合 Θ とした時,予測分布は一般的には
∫
p(X|Bs ) =
p(X,
Θ|Bs )p(Θ|Bs )dΘ
(4)
Θ
のように求めることができる.したがって,予測分布
を最大化するモデルを選択することにより,最適なモ
デル選択を行えるといえる.
具体的な構造決定は,情報量基準を指標に欲張り法
の一種である Greedy Search Algorithm[7][8] で行う.
各ノードに対して親の組み合わせを欲張り探索によっ
て決定し,有向グラフを構築する.
4 つのノード A,B,C,D のベイジアンネットワー
クを構築することを考える.まず,ノード A の親を探
索する.探索開始前の評価値を 50 とし,図 1 のような
エッジのない空グラフから探索を開始する.
となる.Rt はトレンドが 0 であるから,R(t) が 0 よ
り大きい場合は1を,0 より小さい場合は-1 を割り当
てる.
{
1
(Rt > 0)
d
Rt :=
−1 (Rt < 0)
テストデータに対しても,学習データの平均と分散
をもとに標準化し,離散化を行う.
図 1: Initial state of Greedy Search
2.2
ベイジアンネットワークの構築
ある現象を説明するグラフ構造が複数存在するとき,
その中から情報量基準をもとに最適なモデルを選択する.
評価基準としてよく用いられる情報量基準には AIC[5],
MDL[6] がある.
ノード A の親を評価値が最も良くなるように B,C,
D の中から探索する.その結果が図 2,図 3,図 4 に
なったとする.
図 3 の評価値が最も良いので,親にノード C を選択
する.次に,このグラフ構造を保持したまま,評価値
がより良くなるような親を探索する.
図 5 のようにノード B を A の親に追加すると評価値
が 170 になるので,B を選択する.最後にノード D を
親に加えた場合の評価値を考えた場合,図 7 になると
する.
図 2: Selecting B as a parent node
図 7: Adding a parent node D to fig5
図 3: Selecting C as a parent node
このとき,評価値が図 5 の 170 から 130 に低下して
しまうので,ノード D は親に追加しない.よって,ノー
ド A の親は B と C になる.ここでノード A の欲張り探
索を終了する.結果として,図 5 のグラフが得られる.
そして,A 以外のノードに対しても同様の探索を行
う.最後に,各ノードに対して欲張り探索を行った結
果のグラフの和をとり,Greedy Search Algorithm を
終了する.
2.3
図 4: Selecting D as a parent node
図 5: Selecting B as a parent node
ベイジアンネットワークを用いた推定
方法
離散化した教師データでベイジアンネットワークを
構築する.教師データからノードに確率を,ノード間
のエッジに条件付き確率を定める.次に,テストデー
タを用いて推定を行う.テストデータについて,1 期
前のデータを観測値として,今季の日経平均株価の条
件付き確率を,確率伝播法によって推定する.e を観測
値,Xt を今期の日経の確率変数とした時,推定された
条件付き確率 P (Xt = x|e) を最大化する x の値を今期
の日経の推定値とする.
日経平均株価の真値の離散値と推定された値を比較
することで,推定の精度を考える.推定精度は以下の
ように評価を行う.表 1 より,正しく推定が行われた
のは,xA + xD 回である.
Prediction/True
1
-1
1
xA
xC
-1
xB
xD
表 1: Classification criteria
ここで正解率 (Accuracy) を式 (5) とする.
Accuracy =
図 6: Selecting D as a parent node
xA + xD
xA + xB + xC + xD
(5)
また,正解率を p̂ とした時,信頼水準 1 − α の正解
率の信頼区間は式 (6) で与えられる [9].
√
√
p̂(1 − p̂)
p̂(1 − p̂)
[p̂ − Z α2
,̂
p + Z α2
]
(6)
n
n
Deep Belief Network を用いた推定法
2.4
はじめに,Deep Belief Network(DBN)について紹
介する.DBN は図 8 のような,多層のグラフィカルモ
デルである.θ を入力ベクトルとし,h(i) を第 i 層の状
態ベクトルとすると,DBN の全ユニットの同時確率分
布は,
(1)
p(h
(L)
, ..., h
, θ) = (
L−1
∏
p(h(i) |hi+1 ))p(θ|h(1) )
(7)
図 8: Scheme of DBN
i=1
で与えられる.また,隣接層間の条件付分布を以下の
ように近似する.
∑ (i−1) (i−1)
(i)
(i)
p(hj |hi−1 ) = sigmoid(bj +
wkj hk
) (8)
k
(i)
(i−1)
ここで,bj は第 i 層のニューロン j を表し,wkj
は
第 i − 1 層の重み行列の kj 成分を表す.DBN の学習
は greedy algorithm[10] によって行われる.与えられ
たデータ θ1 , θ2 , ..., θn に対して,はじめに1番最下層
(入力層と i=1 の層の間)のパラメタを θ と h1 をそ
れぞれ入力層と隠れ層とみて最適化する.次に,デー
タ θ1 , θ2 , ..., θn に対して,最適化したパラメタで層 i=1
(1)
(1)
(1)
の状態 h1 , h2 , ..., hn を生成する.さらに,1つ上
の層(h(1) の層と h(2) の層の間)のパラメタについて,
(1) (1)
h1 ,h2
(1)
,...,hn を入力データ,h(1) と h(2) をそれぞれ入力層と
隠れ層とみて最適化する.これを繰り返すことでネッ
トワーク全体の学習を行う.
隠れ層間の条件付分布は式 (8) のようにシグモイド関
数で与えられるが,シグモイド関数は入力の変動が大き
いと,値が 0 か 1 に偏ってしまうという欠点がある.本実
験では活性化関数として,Rectified linear unit(ReLU)
を用いた.ReLU は式 (9) で与えられる関数である.
f (x) = max(0, x)
(9)
ReLU 関数は単純で計算量が小さく,ニューラルネット
の活性化関数として近年よく用いられている.
DBN を用いた推定は以下のように行う.
ベイジアンネットでの予測に用いたものと同様の,離
散化した教師データを用いて DBN のネットワークの学
習を行う.DBN のネットワークの学習には,DropOut[11]
を用いて,ネットワークを構築した.DropOut とは,一
定の確率で訓練データを除くことで,ニューラルネッ
トワークの過学習を防ぐ手法である.次に,学習済み
のネットワークを用いて,2 値予測を行う.DBN の 2
値予測はネットワークの最上層の出力ユニットの活性
化関数にロジスティック関数を用いることで行った.予
測された 2 値分類のスコアとテストデータの真値を比
較し,正解数をデータ数で割ったものを,DBN による
株価予測の正解率と定義した.また,この正解率の信
頼区間も式 (6) で与えられる.
3
実験
前節で提案した方法によって実際に日経平均株価で
の予測を行う.はじめにベイジアンネットワークでの予
測を行い,次に Deep Belief Network での予測を行う.
3.1
使用したデータ
Yahoo finace!,Federal Researve Bank of St.Lois の
web ページ [12] [13] から取得したデータを用いる.日経
平均株価,NY ダウ,NASDAQ,S& P500,FTSE100,
DAX の以上6つの株価指標に対して,2000 年から 2013
年までのデータを用いた.NY ダウ,NASDAQ,S &
P500 は米国の代表的な株価指数である.FTSE100 は
英国の代表的株価指標であり,DAX はドイツの代表的
株価指標である.2000 年から 2012 年までの 13 年分
のデータを教師データとし,2013 年のデータをテスト
データとする.日本,米国,英国,ドイツの祝日の関
係で,全ての日時で 6 つのデータが揃わないことがあ
る.その場合,祝日でデータがない市場は無取引ゆえ
変化なしと考え,前日の株価をそのまま用いた.
3.2
実験環境
ベイジアンネットワークによる予測は BayoNet [14]
を用いて行った.BayoNet には,AIC や MDL などの
評価基準を用いた構造探索のアルゴリズム,確率伝播
法による確率推論のアルゴリズムが実装されている.
DBN については,統計解析ソフト R を用いて,実験
を行った.
4
4.1
実験結果
図 10: Results of experiments of BN
ベイジアンネットワークによる予測
ネットワークの構成方法が及ぼす推定への影響を考
察するため,ネットワークは以下の3種類を用いた.
ネットワーク 1 は AIC を評価基準に選択されたネット
ワーク,ネットワーク 2 は MDL を評価基準に選択さ
れたネットワーク,ネットワーク 3 は日本,米国,欧州
の株式市場の取引時間の時系列的関係から定めたネッ
トワークである.ネットワーク 1,2 は Greedy Search
Algorithm で構造探索を行った.
1期前の日経平均株価は今期の米国,欧州の株価に
影響を与え,1期前の日経平均と米国,欧州の株価は
今期の日経平均に影響を与える.この時系列的因果関
係から,ネットワーク 3 は図 9 のように定めた.ネット
ワーク 1,2 は複雑のため図は割愛する. 日経平均株価,
Types of Network
Selection Criteria
network1
network2
network3
selected by AIC
selected by MDL
selected by chronological order
Types of Network
Accuracy
network1
network2
network3
0.635 ± 0.0583
0.631 ± 0.0587
0.627 ± 0.0588
表 3: Accuracy
4.2
DBN による予測
DBN についても,ベイジアンネットワークに用いた
のと同じデータで実験を行った.構成したネットワー
クは最下層から (h1 , h2 , h3 ) = (6, 5, 4), (5, 4, 4), (5, 4, 3)
の3種類である.DBN のパラメタについては,試行錯
誤の結果として,学習率を 0.015 と設定した.また,
DBN のネットワークの学習では,DropOut[11] を用い
て,ネットワークを学習させた.epoch 数は 1000 とし,
1つのネットワークにつき,1000 回学習を繰り返した.
1種類のネットワークにつき,100 回実験を行い,各々
の出力の平均を予測値 (Accuracy) とした.実験の結果
を表 7 と図 11 に示す.
表 2: Networks used in experiments of BN
5
Nikkei_ t-1
DOW_ t-1 NASDAQ_t-1 S&P500_ t-1
FTSE100_ t-1 DAX_ t-1
Nikkei_ t
結果の考察
前節の実験結果をまとめたグラフが図 12 である.
はじめに,ベイジアンネットワークを用いた実験の
結果について考察する.
予測精度は 60 パーセント程度となり,株価の予測問
題としては悪くない精度となった.また,グラフの構造
が推定精度に及ぼす影響について考察すると,AIC や
MDL を基準に選択されたネットワーク(network1,2)
の方が,時系列関係から与えたネットワーク (network3)
図 9: Network3
米国の株価指標(NY ダウ,NASDAQ,S & P500),欧
州の株価指標(FTSE100,DAX)を用いて実験を行っ
た.結果を図 10, 表 3 から表 6 に示す.
Prediction/True
1
-1
1
113
41
-1
54
52
表 4: Detailed results in network1
Prediction/True
1
-1
1
100
54
-1
42
64
表 5: Detailed results in network2
Prediction/True
1
-1
1
104
50
-1
47
59
表 6: Detailed results in network3
より多少だが予測精度が良い.正解率の誤差まで考慮
した時,ネットワーク構造の差異による正解率の違い
は有意に存在するとはいえない結果となった.
構造探索のアルゴリズムで選択されたネットワーク
は,構造の因果関係の解釈が難しい場合があるため,実
務的には,ベイジアンネットワークの構造は事前に簡
単なものが与えられることが多い.本実験ではネット
ワーク 3 が時系列的な関係から定めた構造のネットワー
クであるが,その精度は AIC や MDL で最適化された
ネットワークと比べて,明らかな差がないことが確認
できた.
次に,DBN を用いた実験の結果について考察する.
DBN は隠れ層の異なる 3 種のネットワークを用意し,
実験を行ったが,精度は 60 パーセント程度となり,ベ
イジアンネットワークの結果と比べて,有意差がない
ことが判明した.この予測精度は株価の予測精度とし
ては,決して悪くないものであるが,DL がもつ高精度
のパターン認識能力を踏まえると,この結果は予想外
のものである.
DBN がベイジアンネットワークと比較して予測結果
の有意差が得られなかった理由として以下を考えるこ
とができる.
第1に,今回用いたデータが DL の予測に不適当で
あった可能性がある.理論的には,株価はランダムウォー
クに従うという性質がある.今回用いたデータは世界
の主要株価銘柄指標の日足データであるが,日足では
株価のランダム性が強くなり,相関性が消えてしまっ
たため,うまく特徴量の抽出ができなかったと考えら
れる.
第2に,ネットワーク構造が株式の予測という問題
を考えた際に不適当であった可能性がある.本実験で
Types of DBN
Accuracy
(6,5,4)
(5,4,4)
(5,4,3)
0.617 ± 0.101
0.614 ± 0.099
0.609 ± 0.101
表 7: Accuracy
図 11: Results of experiment of DBN
は,ベイジアンネットワークとの対比のため,DL の中
でも最も簡単な構造をもつ DBN を採用して実験を行っ
たが,時系列現象を DL を用いて予測する際に,ネッ
トワーク構造に再帰構造をもつネットワークを用いて
予測を行っている研究 [15] も存在する.本研究で用い
た DBN では再帰構造がないため,時系列的な誤差を
うまく伝播させることができず,特徴量抽出が不完全
になってしまったと考えられる.
図 12: Results of experiments
6
結論
本研究では機械学習の手法であるベイジアンネット
ワークと DBN を日経平均の推定に応用し,その予測
精度の比較を行った.株価にはべき性があり,日経平
均株価もべき性を示す.実験によって,べき性を持つ
データの予測という問題に際しては,ベイジアンネッ
トワークと DBN は予測精度の有意差がないことがわ
かった.推定精度は概ね 60 パーセント程度であり,実
務として利用するうえで良好な結果を得るにはいたら
なかったが,株価の予測問題としては悪い予測精度で
はない.
今後の課題として,以下の3点が挙げられる.
1点目の課題は,CME 日経先物をデータに加えるこ
とである.CME は日経平均の動向を考える上で実務上
でも重要な指標であり,CME を加えることで推定の精
度が上がることが期待される.
2点目の課題は,逐次的な推定を行うことである.本
研究では,予測に使用したデータが非定常でないこと
は検定により確認しているが,株価リターンが定常で
あるという仮定は現実に即しているとは言い難い.逐
次推定を行うことで,定常性を仮定しなくても同程度
以上の精度での予測が行えると期待される.
3点目は,DBN について,再帰的なネットワーク構
造を用いることである.本実験では,比較のために簡
単なネットワーク構造をもつ DL として DBN を用いた
が,時系列データの予測では時系列的な誤差を伝播でき
る再帰的なネットワークを用いるのが近年のトレンド
である.再帰的なネットワークを用いることで,DBN
よりも高精度な予測結果を得られることが期待される.
参考文献
[1] B. Ribeiro and N. Lopes, Deep Belief Networks for
Financial Prediction, Lecture Notes in Computer Science, vol.7064, pp.766-773, 2011
[2] 小牧昇平,白山晋,Deep Belief Network を用いた日経
平均株価の予測に関する研究,人工知能学会研究会資
料, SIG-FIN-012-08, 2014
[3] Y. Zuo and E. Kita,Stock price forecast using
Bayesian network,Expert Systems with Applications,vol.39,no.8,pp.6729-6737, 2012
[4] J. H. Word,Hierarchical Grouping to Optimize an
Objective Function, Journal of the American Statistical Association,vol.58,no.301,pp.236-244, 1963
[5] H. Akaike,A new look at the statistical model identification,IEEE Transaction on Automatic Control,
vol.19, no.6, pp.716-723, 1974
[6] J. Rissanen, A universal prior for integers and estimation by minimum description length, Annals of
Statistics, vol.11, pp.416-431, 1983
[7] 宮川雅巳, グラフィカルモデリング,朝倉書店,1997
[8] C.M. ビショップ, パターン認識と機械学習 (下),シュ
プリンガージャパン,2008
[9] 松原望,縄田和満,中井検裕,統計学入門,東京大学出
版会,1991
[10] G.E. Hinton, S. Osindero and Y.W. Teh, A fast learning algorithm for deep belief nets, Neural Computation, MIT Press, 2006
[11] N. Srivastava, G.E. Hinton, A. Krizhevsky, I.
Sutskever and R. Salakhutdinov, A simple way to
prevent neural networks from overfitting, Journal of
Machine Learning Research, vol.15, no.1, pp.19291958, 2014
[12] Yahoo! Finance,< http://finance.yahoo.com/ >
(2015/10/13 確認)
[13] Economic Reseach Federal Researve Bank
St.Lois,<
http://research.stloisfed.org/
(2015/10/13 確認)
of
>
[14] BayoNet,< http://www.msi.co.jp/BAYONET/
> (2015/10/13 確認)
[15] M. Nijol and M. Algirdas, Application of neural network for forecasting of exchange rates and forex trading, Proceeding of the 7th international scientific conference for Business and Management, pp.10-11, 2012