主成分分析と因子分析を用いて競馬の勝因分析

主成分分析と因子分析
による競馬の勝因の研究
大阪工業大学
情報科学部 情報科学科
真貝研究室
学生番号 A04-133
辺見 広大
研究の目的
• 主成分分析と因子分析による競馬の勝因を分析
• 新聞に載っているデータで予想可能か調べる
研究の方法
• 2つの分析を行なうため、C言語による3要素を読み
込み計算するプログラムを作成
• 主成分得点、因子得点の散布図を作成し、1,2,3
着の相関を調べる
研究の内容
•
毎年12月に中山競馬場の距離2500mで行な
われる有馬記念のレースを予想
• 要素は
1. 中山競馬場の距離2500mで勝利した42頭
2. 過去4年分の有馬記念の出走馬61頭
a. 右回り
b. 左回り
c. 中山競馬場
d. 重賞
e. GⅠ
の成績の1,2,3着と着外のデータの標準化され
た組み合わせ
• 最終目標は、実際のレースに当てはめ、研究の
勝ち馬を出し、レースで勝つか調べる
主成分分析計算方法1
• 3成分からから2つの成分を取り出す分析
• 1成分Zを3要素yで表し主成分得点Zを求める
• 相関行列をVとすると、aはVの固有ベクトル
である
rは共分散を指す
• このままでは3個の固有値と3通りの固有ベクト
ルが計算される
主成分分析計算方法2
• 固有値λの割合で、主成分得点Zのyの束ね具合
を決める、割合をμとすると、
で求まる
• これを寄与率と呼び、2つのλで約80%以上なら
十分だと考える
因子分析計算方法1
• 要素yが因子得点fで構成されていると仮定
因子負荷量bは相関行列で
残余Dを最小にしbを求める
• 10~15回の繰り返しでDの全成分の変化が
1/10000程度に収束する
因子分析計算方法2
• 因子得点の係数をcとした時、
• ここに出るcの計算方法は、
因子負荷量×相関行列の逆行列で求まる
使用する要素
•
下記の4要素から3要素を決めて分析
① 3着以内率
② 距離の1着に10、2着に5、3着に2.5を掛
け、着外を足したもの
③ 右回りの成績の1着に5、2着に2.5 、3着
に1を掛け、その中の中山の成績を2倍にし
たもの
④ 重賞の成績の1着に5、2着に2.5 、3着に1
を掛け、GⅠの成績を2倍したもの
• 中山競馬場の勝ち馬からの分析は①,②,③
を使用
• 過去の有馬記念からの分析は②,③ ,④を使
用
中山競馬場の勝ち馬からの分析方法
• 主成分分析、因子分析を行なう
• 3要素の割合が勝因だと仮定
• 計算された結果を過去の有馬記念の出走馬と
2008年有馬記念の出走馬に適用する
過去の有馬記念からの分析方法
• 主成分分析、因子分析を行なう
• 1,2,3着の相関が見られたなら、3要素の割合が勝
因だと仮定
• 計算された結果を2008年有馬記念の出走馬に適
用する
中山競馬場の勝ち馬からの
主成分分析の結果
•
•
図1より、右側に相
関が見える
固有ベクトルより
3着に来る確率が高く
右回りの中山競馬場
が得意な馬
距離が得意な馬
図1.主成分得点の散布図
中山競馬場の勝ち馬からの
因子分析の結果
•
•
図2より、右下に相
関が見える
因子負荷量より
右回りの中山競馬場
が得意な馬
距離が得意な馬
図2.因子得点の散布図
過去の有馬記念からの
主成分分析の結果
•
9
•
図3より、右上に相
関が見える
固有ベクトルより
13
総合的に強い馬
距離と重賞の成績が
良い馬
図3.主成分得点の散布図
過去の有馬記念からの
因子分析の結果
•
•
図4より、右上に相
関が見える
因子負荷量より
重賞の成績が良く、右
回りの中山競馬場が
良い馬
図4.因子得点の散布図
重賞の成績が良い馬
分析の結果と実際の結果
• 中山競馬場の2500mの結果より
主成分分析 6,9,10,13,14番
因子分析
6,9,13番
• 過去の有馬記念からの結果より
主成分分析 9,13番
因子分析
6,9,11,13番
以上の結果から6,9,13番が勝つ確率が高いと予
想する
• 2008年有馬記念の実際のレース結果は
1着13番、2着14番、3着6番
まとめ
• 競馬の勝因は馬のコース、距離の得意、不得意、
クラス分けされた力の違いで基本的には予想は
可能である
• 有馬記念は右回りの中山競馬場が得意という馬
が勝ちやすい
• しかし、毎年1頭だけ予測不可能な馬が出現す
る
• これに相関を持たせるのが今後の課題である