ポアソン回帰を使ったサッカーの勝敗予測

  • このエントリーをはてなブックマークに追加

統計モデルを使ったサッカーの予測をしてみたいと思います。
今回はサッカーの得点数をポアソン分布へあてはめることで、
それぞれのチームが勝つ確率がどの程度あるのかを計算します。
 

ポアソン分布

サッカー試合の得点数はポアソン分布に従うと言われています。※1

ポアソン分布は、下記の式で定義される確率分布です。
 
P(X = k) = \frac{\lambda^k\mathrm{e}^{-\lambda}}{k!}
Pは単位時間中に平均でλ回発生する事象がちょうどk回発生する確率で、
サッカーでいうと、「1試合という時間内」に「得点する」という事象が起こる回数の確率です。
1年間の地震の発生件数や台風の上陸件数、一定期間内の交通事故や火災の発生件数などのあてはめにも用いられています。

 

ポアソン回帰

ポアソン分布にあてはめるにあたり、パラメータλを求める必要があります。
λは単位時間内の平均発生回数です。

しかし、サッカーの場合対戦相手等によって、平均発生回数(期待得点数)が異なることが想定できます。
例えば、柏レイソルが、レアルマドリードと対戦するのと、草サッカーチームと対戦するのでは、
平均発生回数(期待得点数)が違うでしょう。

そこで、対戦する状況に応じた得点数を推定するためポアソン回帰分析を行います。
ポアソン回帰分析とは、一般化線形モデルのひとつで、
被説明変数がポアソン分布すると仮定する場合に用いられる回帰モデルです。

 

回帰式と変数

今回構築したモデルは下記の通り。

log\lambda = \alpha + \beta_0 Team + \beta_1 Opponent + \beta_2 Home
Team : 得点を推定したいチーム
Opponent : 対戦相手
Home : ホームグラウンドか否か

今回は、自チーム、対戦相手、ホームか否かを説明変数として用います。
λを上記のように推定することで、対戦相手やホームどうかに応じた平均発生回数(期待得点数)を推定することができます。

それぞれの係数は
\beta_0 : 攻撃力
\beta_1 : 守備力
\beta_2 : ホームグラウンド効果
であると言えます。

 

回帰結果

データはプレミアリーグ2013-2014シーズンと2014-2015シーズンの前半(19節まで)を用いました。

Screen Shot 2015-02-20 at 19.12.03

例えば、チェルシー(ホーム) vs エバートン(アウェイ) の場合、

チェルシーの平均発生回数(期待得点数)は
exp(Intercept + TeamChelsea + OpponentEverton + Home)
= exp(0.25707 + 0.07575 + 0.07904 + 0.27688)
= 1.99120

エバートンの平均発生回数(期待得点数)は
exp(Intercept + TeamEverton + OpponentChelsea)
= exp(0.25707 - 0.12072 - 0.44405)
= 0.73513

 
これらをλとしてポアソン分布にあてはめると、下記のようになります。
Screen Shot 2015-02-20 at 19.38.56
チェルシーの方がエバートンよりも得点を多くとる確率が高いことが分かります。
これらを用いて試合の”勝敗”を予測する方法を説明します。

 

勝敗の予測

ポアソン分布にあてはめを行うことで、発生回数(得点数)が実現する確率を計算することができます。
対戦相手同士の得点数は独立であると仮定すると、ホームチームがx点とって、
アウェイチームがy点とるといった事象は同時確率を計算することで求めることができます。
例えば、チェルシー(ホーム)が得点数の確率を
P(X = x)
エバートン(アウェイ)の得点数の確率を
P(Y = y)
とし、チェルシーが2点とって、エバートンが1点とる確率は、
P(X = 2) = \frac{1.99120^2 \mathrm{e}^{-1.99120}}{2!} = 0.27068
P(Y = 1) = \frac{0.73513^1 \mathrm{e}^{-0.73513}}{1!} = 0.35245
P(X = 2, Y = 1) = P(X = 2) P(Y = 1) = 0.09581
といった形で計算することができます。
およそ9.5%の確率であることがわかります。
 
チェルシーが勝つという事象はエバートンより多く得点をとることなので、
P(X > y)がチェルシーの勝つ確率であり、
P(Y > x)がエバートンの勝つ確率、
P(X = y, Y=x)が引き分けの確率であると言えます。

全て計算すると下記のようになります。

Screen Shot 2015-02-21 at 0.04.46

青い部分がチェルシーが勝つ確率であるP(X > y)、緑の部分がエバートンが勝つ確率であるP(Y > x)、グレーの部分が引き分けの確率であるP(X = y, Y=x)となっています。

P(X > y) = 0.66888
P(Y > x) = 0.20260
P(X = y, Y=x) = 0.12853

ということでチェルシーの勝つ確率が高いということが分かりました。

 

2014-2015シーズン20節 ~ 25節での検証

上記の方法で確率を計算し、確率が最大な結果を予想とする方法で正解率を計算しました。
試合数 : 60
正解数 : 31
正解率 : 51.67%

勝ち・引き分け・負けを完全にランダムに選ぶとしたら、確率が33.33%であるものを
半分程度の精度であてることができるという結果となりました。

【参考】予想結果
Screen Shot 2015-02-21 at 0.45.07


※1 例えば
・Maher M.J. (1982), Modelling Association Football scores. Statistica Neerlandica, 36, 109-118
・Mark J. Dixon and Coles S.G. (1997) Modeling Association Football Scores and Inefficiencies in the Football Betting Market, Applied Statistics, Volume 46, Issue 2, 265-280

  • このエントリーをはてなブックマークに追加