個人投資家向け株式分析と予測システム

個人投資家向け株式分析
と予測システム
A1グループ
劉 チュン
1.研究背景
長引く低金利を背景に、個人の株式投資
が増加している
個人の金融資産が、株式で運用される比
率は益々高まると予想される
株式市場の動向を正確に予測できる人工
知能の開発が可能であると期待されてい
る
研究目的
個人投資家(初心者、経験者 )向けて、簡
単な操作で自動的に株価の変動を言語の
予測してくれるシステムを開発する
2.金融相場の予測手法
ファンダメンタルズ分析
テクニカル分析
クウォンツ分析
ファンダメンタルズ分析
経済の動きや企業業績など、相場の外部
から相場を動かすメカニズムを調べること
によって相場の動きを分析する方法
例えば:
配当割引モデル、PBR(株価純資産倍
率)、 PER(株価収益率)
テクニカル分析
相場の動きそのものによって相場の動きを
分析する方法
過去の値動きから将来の値動きを予測す
る方法で、チャート分析とも呼ばれる
例えば:
一日(あるいは一週間・一ヶ月等)の間の
始値・高値・安値・終値
クウォンツ分析
計量分析・数理数量分析と呼ばれる手法
例えば:
相関、分散、非線型モデル 、時系列データ
の回帰モデル、重回帰モデル、自己回帰
モデル
本研究は、時系列など回帰モデルで株式
予測システムを開発する
3.株式分析と予測システムの構造
株式の生データ
(Origin Data)
データクレンジング
(Data Cleaning)
データベースに格納され
たデータそのもの
「生データ」をデータマイ
ニング用に洗浄する
株価データウェアハウス
(Data Houseware)
データマイニング
(Data Mining)
意志決定のために,サブ
ジェクト毎に編成され,統
合化された時系列で,更
新のないデータの集まり
大量に蓄積されるデー
タを解析し、その中に潜
む項目間の相関関係や
パターンなどを探し出す
技術
株式予測のパターン
理解、評価
(Interpretation, Evaluation)
予測結果に関
する単語の対
応(形態素)
多様な実世界データから
役に立つ知識を発見する
ために解析対象となるデ
ータや解析結果に関して
より多くの情報を言語化
してユーザに提供する
予測結果に関する単語
の対応(形態素)
自然言語生成
(Natural Language Generator)
提供
予測結果に
関する句と文
個人投資家
ステップ
(1)株式情報に関するデータの入手
(2)データクレンジング (Data Cleaning)
(3)データウェアハウス(Data Warehouse)
(4)データマイニング(Data Mining)
(5)株式予測に関するパターンの生成
(6)理解、評価(Interpretation, Evaluation)
(7)株式予測に関する単語の対応
(8)自然言語処理
(9)予測結果に関する句及び文の生成
(10)個人投資家に予測情報を提供する
4.事 例
1、日次データ
6947 図 研
年
月
日
終値
前日比
出来高
前日比(高)
1998
12
25
866
16
17,100
3,500
1998
12
28
880
14
12,200
4,900
1998
12
29
883
3
15,500
3,300
1998
12
30
888
5
5,400
10,100
1999
1
4
860
28
3,000
2,400
1999
1
5
851
9
12,800
9,800
1999
1
6
860
9
8,400
4,400
1999
1
7
859
1
9,400
1,000
1999
1
8
830
29
8,800
600
1999
1
11
831
1
3,500
5,300
1999
1
12
826
5
13,100
9,600
1999
1
13
827
1
3,300
9,800
1999
1
14
829
2
3,000
300
1999
1
18
860
31
2,900
100
1999
1
19
880
20
4,800
1,900
1999
1
20
915
35
111,300
106,500
1999
1
21
976
61
138,600
27,300
1999
1
22
1,049
73
297,600
159,000
1999
1
25
1,005
44
80,400
217,200
2、回帰分析
回帰分析では、R-2 乗値を使って、観測値のデータが最適な直線に当ては
められる。このツールを使って、複数の独立変数が 1 つの従属変数に与え
る影響を分析することができる。
回帰統計
重相関 R
0.82586123
重決定 R2
0.682046771
補正 R2
0.66334364
標準誤差
36.29816574
19
観測数
分散分析表
自由
度
変動
分散
回帰
1
48047.32
48047.32
残差
17
22398.47
1317.557
合計
18
70445.79
観測された分散
比
36.46698
有意 F
1.33E-05
係数
切片
前日比(高)
t
標準誤差
857.275773
9.345751
91.72894
2.34E-24
0.000843605
0.00014
6.03879
1.33E-05
回帰式はこの「係数」によって求める。
終値=0.000843605*前日比+857.275773
終値
前日比(高) 観測値グラフ
1500
1000
500
0
終値
予測値 : 終値
0
P-値
100,000 200,000 300,000
前日比(高)
3、評価
1999年1月26日
年
1999
月
日
1
26
6947
終値
図
研
前日比
?
出来高
前日比(高)
294,300
?
213,900
データ入力
出来高(前日比)、
213,900
出来高(前日比)?
No
Yes
予測単語抽出
...
出来高
出来高
>100,000?
急増
Yes
予測単語セート1
急増
No
...
終値=0.000843605*213,900+857.275773=1037.7228825
データ入力
終値、
1038
終値?
Yes
予測単語抽出
No
...
終値
終値
>1,005(25日)?
値上がり
Yes
予測単語セート2
値上がり
No
...
4、言語生成
予測単語セート1
出来高
+
予測単語セート2
終値
急増
+
値上がり
が
出来高急増
出来高急増
終値値上がり
+
、
+
+
がりが見込める。
終値値上がりが見込める
出来高急増、終値値上がりが見込める。
見込める
+
。
5.現システムにおける問題点
データベースが大規模である場合、計算
量が膨大となり数週間の解析でも結果が
得られないことが多い。
質の悪いデータ(データ形式の不統一、量
的データや質的データの混在)では解析結
果が不正確になり利用できない。
まとめ
システム改善するために、以下のような予
定がある
1.市場予測に関する手法の再検討
2.データマイニングツールの選択
3.株式予測の結果に関する単語の対応