2015年 2月 の投稿一覧

プレミアリーグのチームごとの攻撃力・守備力を可視化する

前回はポアソン回帰を使って、勝敗の予測をしました。
今回は回帰結果の係数を使って、チームごとの攻撃力・守備力の可視化を行いたいと思います。

前回、下記の式を使って、各係数の推定を行いました。
 
log\lambda = \alpha + \beta_0 Team + \beta_1 Opponent + \beta_2 Home

Team : 得点を推定したいチーム
Opponent : 対戦相手
Home : ホームグラウンドか否か
をあらわしていますので、
それぞれにつく係数は
\beta_0 : 攻撃力
\beta_1 : 守備力
\beta_2 : ホームグラウンド効果
を意味します。

 

プレミアリーグ2014-2015シーズンの各チームの攻撃力・攻撃力

前回と同様プレミアリーグのデータを用いるのですが、2014-2015シーズンの前半(第1節 ~ 第19節)で計算しなおしました。
リーグ内の平均値を0とし、プロットすると下記のようになります。

Screen Shot 2015-02-22 at 18.02.07

攻撃も守備も優れるチーム : チェルシー、マンチェスター・シティ、マンチェスターユナイテッド、サウサンプトン
攻撃は優れるが、守備が劣るチーム : エバートン、(リバプール)
攻撃は劣るが、守備が優れるチーム : トッテナム、スウォンジー、ストーク
攻撃も劣り、守備も劣るチーム : その他

という形でチームの力が視覚的に分かりやすくなりました。

 

プレミアリーグ2013-2014シーズンの各チームの攻撃力・攻撃力

プレミアリーグ2013-2014 (第1節 ~ 第38節)のデータをもとにプロットすると下記のようになります。
特に変化が大きいチームに関して、変化の要因を移籍情報から推察してみましょう。

Screen Shot 2015-02-22 at 18.01.22

リバプール

守備はさほど変わっていないのですが、今期は攻撃力が大きく下降しています。
大きく要因として考えられるのは昨シーズンの得点王であったルイス・スアレスの移籍と
得点ランク2位だったダニエル・スタリッジの負傷による離脱でしょう。
また、スアレスの穴を埋めるべく、マリオ・バロテッリをACミランから獲得しているのですが、活躍できていないのがデータにも現れています。

ウェストハム

一方攻撃力を大きく伸ばしたのがウェストハムです。
今シーズン獲得したディアフラ・サコを8得点、2013-2014シーズンの終わりごろに加入したアンディ・キャロルは5点と、
フォワードの補強がうまくいった結果、攻撃力が伸びています。

チェルシー

昨シーズンは守備力に偏っていたチェルシーですが、
ディエゴ・コスタ、ディディエ・ドログバ、ロイク・レミーと今シーズンはフォワードを厚めに獲得した結果、攻撃力の補強に貢献しています。
特にディエゴ・コスタは今シーズンで17得点をあげており、マンチェスター・シティのアグエロと同点で暫定得点王となっています。

 

チーム軸・プレーヤー軸

今回はチームとその得点を軸に分析、考察しましたが、
チームを形作っているのはそれぞれのプレーヤーです。
プレーヤーごとの分析、たとえば、得点への貢献度など推定できたら面白いですね。
今後はチームベースの分析も行いつつ、選手ごとの分析にも着手していきたいと思います。

なんにせよ、今後もプレミアリーグから目が離せませんね!

ポアソン回帰を使ったサッカーの勝敗予測

統計モデルを使ったサッカーの予測をしてみたいと思います。
今回はサッカーの得点数をポアソン分布へあてはめることで、
それぞれのチームが勝つ確率がどの程度あるのかを計算します。
 

ポアソン分布

サッカー試合の得点数はポアソン分布に従うと言われています。※1

ポアソン分布は、下記の式で定義される確率分布です。
 
P(X = k) = \frac{\lambda^k\mathrm{e}^{-\lambda}}{k!}
Pは単位時間中に平均でλ回発生する事象がちょうどk回発生する確率で、
サッカーでいうと、「1試合という時間内」に「得点する」という事象が起こる回数の確率です。
1年間の地震の発生件数や台風の上陸件数、一定期間内の交通事故や火災の発生件数などのあてはめにも用いられています。

 

ポアソン回帰

ポアソン分布にあてはめるにあたり、パラメータλを求める必要があります。
λは単位時間内の平均発生回数です。

しかし、サッカーの場合対戦相手等によって、平均発生回数(期待得点数)が異なることが想定できます。
例えば、柏レイソルが、レアルマドリードと対戦するのと、草サッカーチームと対戦するのでは、
平均発生回数(期待得点数)が違うでしょう。

そこで、対戦する状況に応じた得点数を推定するためポアソン回帰分析を行います。
ポアソン回帰分析とは、一般化線形モデルのひとつで、
被説明変数がポアソン分布すると仮定する場合に用いられる回帰モデルです。

 

回帰式と変数

今回構築したモデルは下記の通り。

log\lambda = \alpha + \beta_0 Team + \beta_1 Opponent + \beta_2 Home
Team : 得点を推定したいチーム
Opponent : 対戦相手
Home : ホームグラウンドか否か

今回は、自チーム、対戦相手、ホームか否かを説明変数として用います。
λを上記のように推定することで、対戦相手やホームどうかに応じた平均発生回数(期待得点数)を推定することができます。

それぞれの係数は
\beta_0 : 攻撃力
\beta_1 : 守備力
\beta_2 : ホームグラウンド効果
であると言えます。

 

回帰結果

データはプレミアリーグ2013-2014シーズンと2014-2015シーズンの前半(19節まで)を用いました。

Screen Shot 2015-02-20 at 19.12.03

例えば、チェルシー(ホーム) vs エバートン(アウェイ) の場合、

チェルシーの平均発生回数(期待得点数)は
exp(Intercept + TeamChelsea + OpponentEverton + Home)
= exp(0.25707 + 0.07575 + 0.07904 + 0.27688)
= 1.99120

エバートンの平均発生回数(期待得点数)は
exp(Intercept + TeamEverton + OpponentChelsea)
= exp(0.25707 - 0.12072 - 0.44405)
= 0.73513

 
これらをλとしてポアソン分布にあてはめると、下記のようになります。
Screen Shot 2015-02-20 at 19.38.56
チェルシーの方がエバートンよりも得点を多くとる確率が高いことが分かります。
これらを用いて試合の”勝敗”を予測する方法を説明します。

 

勝敗の予測

ポアソン分布にあてはめを行うことで、発生回数(得点数)が実現する確率を計算することができます。
対戦相手同士の得点数は独立であると仮定すると、ホームチームがx点とって、
アウェイチームがy点とるといった事象は同時確率を計算することで求めることができます。
例えば、チェルシー(ホーム)が得点数の確率を
P(X = x)
エバートン(アウェイ)の得点数の確率を
P(Y = y)
とし、チェルシーが2点とって、エバートンが1点とる確率は、
P(X = 2) = \frac{1.99120^2 \mathrm{e}^{-1.99120}}{2!} = 0.27068
P(Y = 1) = \frac{0.73513^1 \mathrm{e}^{-0.73513}}{1!} = 0.35245
P(X = 2, Y = 1) = P(X = 2) P(Y = 1) = 0.09581
といった形で計算することができます。
およそ9.5%の確率であることがわかります。
 
チェルシーが勝つという事象はエバートンより多く得点をとることなので、
P(X > y)がチェルシーの勝つ確率であり、
P(Y > x)がエバートンの勝つ確率、
P(X = y, Y=x)が引き分けの確率であると言えます。

全て計算すると下記のようになります。

Screen Shot 2015-02-21 at 0.04.46

青い部分がチェルシーが勝つ確率であるP(X > y)、緑の部分がエバートンが勝つ確率であるP(Y > x)、グレーの部分が引き分けの確率であるP(X = y, Y=x)となっています。

P(X > y) = 0.66888
P(Y > x) = 0.20260
P(X = y, Y=x) = 0.12853

ということでチェルシーの勝つ確率が高いということが分かりました。

 

2014-2015シーズン20節 ~ 25節での検証

上記の方法で確率を計算し、確率が最大な結果を予想とする方法で正解率を計算しました。
試合数 : 60
正解数 : 31
正解率 : 51.67%

勝ち・引き分け・負けを完全にランダムに選ぶとしたら、確率が33.33%であるものを
半分程度の精度であてることができるという結果となりました。

【参考】予想結果
Screen Shot 2015-02-21 at 0.45.07


※1 例えば
・Maher M.J. (1982), Modelling Association Football scores. Statistica Neerlandica, 36, 109-118
・Mark J. Dixon and Coles S.G. (1997) Modeling Association Football Scores and Inefficiencies in the Football Betting Market, Applied Statistics, Volume 46, Issue 2, 265-280

【ニュース】匿名化すれば同意不要=「ビッグデータ」活用に指針

個人情報の利用に関して、データを保持している企業にとって有益な法案ができそうです。

 

政府は、開会中の通常国会に個人情報保護法の改正案を提出する。個人を特定できる内容の削除といった一定条件を満たせば、本人の同意がなくても企業などが収集・保有する個人情報を本来とは別の目的でも利用できるようにする。改正案は、膨大な個人情報を「ビッグデータ」として企業などが活用する際の基本指針となる。 
引用元 : 時事通信 – 匿名化すれば同意不要=「ビッグデータ」活用に指針—個人情報保護法改正へ

 
改正されれば、今まで個人保護法上の取扱いが不明確であったことでデータの活用に躊躇していた企業が動き出すはず。
悪用する業者が出てきて、おかしな法案にならないことを祈ります。