主成分分析と因子分析 による競馬の勝因の研究 大阪工業大学 情報科学部 情報科学科 真貝研究室 学生番号 A04-133 辺見 広大 研究の目的 • 主成分分析と因子分析による競馬の勝因を分析 • 新聞に載っているデータで予想可能か調べる 研究の方法 • 2つの分析を行なうため、C言語による3要素を読み 込み計算するプログラムを作成 • 主成分得点、因子得点の散布図を作成し、1,2,3 着の相関を調べる 研究の内容 • 毎年12月に中山競馬場の距離2500mで行な われる有馬記念のレースを予想 • 要素は 1. 中山競馬場の距離2500mで勝利した42頭 2. 過去4年分の有馬記念の出走馬61頭 a. 右回り b. 左回り c. 中山競馬場 d. 重賞 e. GⅠ の成績の1,2,3着と着外のデータの標準化され た組み合わせ • 最終目標は、実際のレースに当てはめ、研究の 勝ち馬を出し、レースで勝つか調べる 主成分分析計算方法1 • 3成分からから2つの成分を取り出す分析 • 1成分Zを3要素yで表し主成分得点Zを求める • 相関行列をVとすると、aはVの固有ベクトル である rは共分散を指す • このままでは3個の固有値と3通りの固有ベクト ルが計算される 主成分分析計算方法2 • 固有値λの割合で、主成分得点Zのyの束ね具合 を決める、割合をμとすると、 で求まる • これを寄与率と呼び、2つのλで約80%以上なら 十分だと考える 因子分析計算方法1 • 要素yが因子得点fで構成されていると仮定 因子負荷量bは相関行列で 残余Dを最小にしbを求める • 10~15回の繰り返しでDの全成分の変化が 1/10000程度に収束する 因子分析計算方法2 • 因子得点の係数をcとした時、 • ここに出るcの計算方法は、 因子負荷量×相関行列の逆行列で求まる 使用する要素 • 下記の4要素から3要素を決めて分析 ① 3着以内率 ② 距離の1着に10、2着に5、3着に2.5を掛 け、着外を足したもの ③ 右回りの成績の1着に5、2着に2.5 、3着 に1を掛け、その中の中山の成績を2倍にし たもの ④ 重賞の成績の1着に5、2着に2.5 、3着に1 を掛け、GⅠの成績を2倍したもの • 中山競馬場の勝ち馬からの分析は①,②,③ を使用 • 過去の有馬記念からの分析は②,③ ,④を使 用 中山競馬場の勝ち馬からの分析方法 • 主成分分析、因子分析を行なう • 3要素の割合が勝因だと仮定 • 計算された結果を過去の有馬記念の出走馬と 2008年有馬記念の出走馬に適用する 過去の有馬記念からの分析方法 • 主成分分析、因子分析を行なう • 1,2,3着の相関が見られたなら、3要素の割合が勝 因だと仮定 • 計算された結果を2008年有馬記念の出走馬に適 用する 中山競馬場の勝ち馬からの 主成分分析の結果 • • 図1より、右側に相 関が見える 固有ベクトルより 3着に来る確率が高く 右回りの中山競馬場 が得意な馬 距離が得意な馬 図1.主成分得点の散布図 中山競馬場の勝ち馬からの 因子分析の結果 • • 図2より、右下に相 関が見える 因子負荷量より 右回りの中山競馬場 が得意な馬 距離が得意な馬 図2.因子得点の散布図 過去の有馬記念からの 主成分分析の結果 • 9 • 図3より、右上に相 関が見える 固有ベクトルより 13 総合的に強い馬 距離と重賞の成績が 良い馬 図3.主成分得点の散布図 過去の有馬記念からの 因子分析の結果 • • 図4より、右上に相 関が見える 因子負荷量より 重賞の成績が良く、右 回りの中山競馬場が 良い馬 図4.因子得点の散布図 重賞の成績が良い馬 分析の結果と実際の結果 • 中山競馬場の2500mの結果より 主成分分析 6,9,10,13,14番 因子分析 6,9,13番 • 過去の有馬記念からの結果より 主成分分析 9,13番 因子分析 6,9,11,13番 以上の結果から6,9,13番が勝つ確率が高いと予 想する • 2008年有馬記念の実際のレース結果は 1着13番、2着14番、3着6番 まとめ • 競馬の勝因は馬のコース、距離の得意、不得意、 クラス分けされた力の違いで基本的には予想は 可能である • 有馬記念は右回りの中山競馬場が得意という馬 が勝ちやすい • しかし、毎年1頭だけ予測不可能な馬が出現す る • これに相関を持たせるのが今後の課題である
© Copyright 2024 ExpyDoc