競馬の記述統計 【中山芝2000m編】

  • このエントリーをはてなブックマークに追加

以前、ロジスティック回帰を使って競走馬の勝敗予測を行いました。
説明変数として、過去2年間の出走成績を用いたのですが、
もっと良い説明変数があるんではないでしょうか。
より良い変数を検討するため、集計・検定を行ってみたいと思います。

 

使用データ

競馬場 : 中山
距離 : 2000m
馬場 : 芝
本賞金額 : 1600万円以上
期間 : 2004年1月1日 ~ 2014年12月31日

 

今回の集計・検定対象

・馬齢
・馬体重
・枠番

 

馬齢

Screen Shot 2015-03-09 at 2.37.57

Screen Shot 2015-03-09 at 2.38.04

barei

2歳および9歳以上は、サンプル数が少ないため、信頼性は低いですが、
グラフを見てわかる通り、4歳の1-3着以内の比率が多くなっています。

 

馬体重

Screen Shot 2015-03-09 at 3.05.12

Screen Shot 2015-03-09 at 3.05.20

bataijyu

420kg台、550kg台の比率が多くなっていますが、サンプル数が少ないからです。
ざっと見た印象だと、どの馬体重も大きな差が無いように見えます。

 

枠番

Screen Shot 2015-03-09 at 3.31.09

Screen Shot 2015-03-09 at 3.31.19

wakuban

4枠の1-3着以内比率が低くなっています。

 

t検定

1-3着以内と4着以降の馬の対象変数(馬齢、馬体重、枠番)の母平均に差があるかどうかを検定します。
帰無仮説 : 母平均に差がない
対立仮説 : 母平均に差がある
有効水準は0.05とする。

Screen Shot 2015-03-09 at 3.54.52

 

結論と今後

馬齢、馬体重、枠番とも、有意差がないという結論となりました。
ただし、今回は検証データは中山芝2000mとしているため、他の競技場の場合は別の結論になるかもしれません。

次回以降では一般の競馬ファンが考慮している、前走成績や前走距離などの検証も行いたいと思います。
乞うご期待!

  • このエントリーをはてなブックマークに追加