個人投資家向け株式分析 と予測システム A1グループ 劉 チュン 1.研究背景 長引く低金利を背景に、個人の株式投資 が増加している 個人の金融資産が、株式で運用される比 率は益々高まると予想される 株式市場の動向を正確に予測できる人工 知能の開発が可能であると期待されてい る 研究目的 個人投資家(初心者、経験者 )向けて、簡 単な操作で自動的に株価の変動を言語の 予測してくれるシステムを開発する 2.金融相場の予測手法 ファンダメンタルズ分析 テクニカル分析 クウォンツ分析 ファンダメンタルズ分析 経済の動きや企業業績など、相場の外部 から相場を動かすメカニズムを調べること によって相場の動きを分析する方法 例えば: 配当割引モデル、PBR(株価純資産倍 率)、 PER(株価収益率) テクニカル分析 相場の動きそのものによって相場の動きを 分析する方法 過去の値動きから将来の値動きを予測す る方法で、チャート分析とも呼ばれる 例えば: 一日(あるいは一週間・一ヶ月等)の間の 始値・高値・安値・終値 クウォンツ分析 計量分析・数理数量分析と呼ばれる手法 例えば: 相関、分散、非線型モデル 、時系列データ の回帰モデル、重回帰モデル、自己回帰 モデル 本研究は、時系列など回帰モデルで株式 予測システムを開発する 3.株式分析と予測システムの構造 株式の生データ (Origin Data) データクレンジング (Data Cleaning) データベースに格納され たデータそのもの 「生データ」をデータマイ ニング用に洗浄する 株価データウェアハウス (Data Houseware) データマイニング (Data Mining) 意志決定のために,サブ ジェクト毎に編成され,統 合化された時系列で,更 新のないデータの集まり 大量に蓄積されるデー タを解析し、その中に潜 む項目間の相関関係や パターンなどを探し出す 技術 株式予測のパターン 理解、評価 (Interpretation, Evaluation) 予測結果に関 する単語の対 応(形態素) 多様な実世界データから 役に立つ知識を発見する ために解析対象となるデ ータや解析結果に関して より多くの情報を言語化 してユーザに提供する 予測結果に関する単語 の対応(形態素) 自然言語生成 (Natural Language Generator) 提供 予測結果に 関する句と文 個人投資家 ステップ (1)株式情報に関するデータの入手 (2)データクレンジング (Data Cleaning) (3)データウェアハウス(Data Warehouse) (4)データマイニング(Data Mining) (5)株式予測に関するパターンの生成 (6)理解、評価(Interpretation, Evaluation) (7)株式予測に関する単語の対応 (8)自然言語処理 (9)予測結果に関する句及び文の生成 (10)個人投資家に予測情報を提供する 4.事 例 1、日次データ 6947 図 研 年 月 日 終値 前日比 出来高 前日比(高) 1998 12 25 866 16 17,100 3,500 1998 12 28 880 14 12,200 4,900 1998 12 29 883 3 15,500 3,300 1998 12 30 888 5 5,400 10,100 1999 1 4 860 28 3,000 2,400 1999 1 5 851 9 12,800 9,800 1999 1 6 860 9 8,400 4,400 1999 1 7 859 1 9,400 1,000 1999 1 8 830 29 8,800 600 1999 1 11 831 1 3,500 5,300 1999 1 12 826 5 13,100 9,600 1999 1 13 827 1 3,300 9,800 1999 1 14 829 2 3,000 300 1999 1 18 860 31 2,900 100 1999 1 19 880 20 4,800 1,900 1999 1 20 915 35 111,300 106,500 1999 1 21 976 61 138,600 27,300 1999 1 22 1,049 73 297,600 159,000 1999 1 25 1,005 44 80,400 217,200 2、回帰分析 回帰分析では、R-2 乗値を使って、観測値のデータが最適な直線に当ては められる。このツールを使って、複数の独立変数が 1 つの従属変数に与え る影響を分析することができる。 回帰統計 重相関 R 0.82586123 重決定 R2 0.682046771 補正 R2 0.66334364 標準誤差 36.29816574 19 観測数 分散分析表 自由 度 変動 分散 回帰 1 48047.32 48047.32 残差 17 22398.47 1317.557 合計 18 70445.79 観測された分散 比 36.46698 有意 F 1.33E-05 係数 切片 前日比(高) t 標準誤差 857.275773 9.345751 91.72894 2.34E-24 0.000843605 0.00014 6.03879 1.33E-05 回帰式はこの「係数」によって求める。 終値=0.000843605*前日比+857.275773 終値 前日比(高) 観測値グラフ 1500 1000 500 0 終値 予測値 : 終値 0 P-値 100,000 200,000 300,000 前日比(高) 3、評価 1999年1月26日 年 1999 月 日 1 26 6947 終値 図 研 前日比 ? 出来高 前日比(高) 294,300 ? 213,900 データ入力 出来高(前日比)、 213,900 出来高(前日比)? No Yes 予測単語抽出 ... 出来高 出来高 >100,000? 急増 Yes 予測単語セート1 急増 No ... 終値=0.000843605*213,900+857.275773=1037.7228825 データ入力 終値、 1038 終値? Yes 予測単語抽出 No ... 終値 終値 >1,005(25日)? 値上がり Yes 予測単語セート2 値上がり No ... 4、言語生成 予測単語セート1 出来高 + 予測単語セート2 終値 急増 + 値上がり が 出来高急増 出来高急増 終値値上がり + 、 + + がりが見込める。 終値値上がりが見込める 出来高急増、終値値上がりが見込める。 見込める + 。 5.現システムにおける問題点 データベースが大規模である場合、計算 量が膨大となり数週間の解析でも結果が 得られないことが多い。 質の悪いデータ(データ形式の不統一、量 的データや質的データの混在)では解析結 果が不正確になり利用できない。 まとめ システム改善するために、以下のような予 定がある 1.市場予測に関する手法の再検討 2.データマイニングツールの選択 3.株式予測の結果に関する単語の対応
© Copyright 2025 ExpyDoc