スポーツの戦術的なデータ解析はまだ未発達

藤井慶輔氏:よろしくお願いします。名古屋大学で教員しています、藤井といいます。今回は、チーム守備評価について、機械学習を使った行動系列予測に基づく方法を発表したいと思います。

過去のスライドはこちらにあるのでご覧ください。詳しくは論文に書いています。

これは京都大学の学生との共同研究で、彼が主となってやっていたのですが、卒業してしまったので代わりに発表するという位置付けです。

集団スポーツはみなさんご存知のとおり、相手と争い、味方と協力するという性質があります。僕自身がすごく興味があるのは、巧みな動きだったり、柔軟なチームワークだったり、最終的に予測できない結果をもたらすというところで、これが世界中の人々を虜にしている要因かなと思っています。

最近では、計測技術やモデル化技術の発達から、データ解析の発展が期待されています。ただし、僕が知る限り戦術的な解析に関してはまだ未発達です。

どういう研究があるかというと、チーム・選手のサッカーの定量的評価に関しては、3つのアプローチがあると思っています。1つ目が「得点・失点予測に基づく方法」。2つ目が「シュートにいたる過程のプレーを評価する方法」。攻撃であれば、パスの価値、有効攻撃。守備であれば、パス奪取、プレスの評価です。3つ目は「選手のポジショニング評価」で、ボロノイ領域などスペースを作る動きなどがあります。

ただ、これらのアプローチにはそれぞれ問題点があると思っています。

1つ目は、サッカーでは、得点がすごく希少であるということです。そのため、安定しないことが多く、得失点にいたるまでの多様なプレーが評価しにくいという問題があります。

2つ目は、1、2の多くがボール周りのデータを使用しているため、ボールから離れた選手の評価や、チーム全体の評価が難しいという点です。

2、3では、チームの成績と関連づけて評価することが難しいという問題点があるかなと思います。

それで今回は、これらの問題を解決する、チーム守備の評価方法を提案するというお話をします。

ボール奪取や被有効攻撃に基づいてチーム守備の過程を評価する「VDEP」

提案方法は、「Valuing Actions by Estimating Probabilities」という「VAEP」と呼ばれる有名な方法の、ActionsをDefenseに変えた「VDEP」という方法です。

これで全選手・ボールの位置を用いて行動予測を利用して評価します。得点予測に基づくのが既存のVAEPなのですが、これをボール奪取や被有効攻撃に適用して、チーム守備の過程を評価できるように修正を行ったアプローチです。

良い点としては、希少な得失点より、発生頻度の多いイベントの予測に基づくという点です。また、ボールから離れた選手の位置情報も利用して評価できます。チーム成績と関連づけて、チームの守備評価を行えるという点もあります。

今日はこの方法の評価として、実際の試合との得失点の関係や、シーズンを通したチームの成績との関係、また具体的なチームの試合分析や、シーズン総括の利用例に関してお話ししたいと思います。

データは、統計コンペというのが毎年あって、これに応募すると無料でデータが使えます。実はこのコンペのサッカー部門で優秀賞を受賞したのですが、こういうふうに論文を出したり、発表もできます。

これはJ1リーグ2019シーズンの45試合で、イベントデータ、パス・シュート・トラップなど19種類の行動ラベルと、トラッキングデータと選手全員とボールの座標が使えます。

45試合のデータの得点、シュート数、有効攻撃、ボール奪取はこのような頻度になっています。

有効攻撃は、シュートにクロスなどでペナルティエリアに侵入したイベントなどを加えたもので、ボール奪取は、プレーの前後で有効攻撃以外に攻撃チームが変わることと定義しています。

最終的には、交差検証を使って45試合全部を予測・評価しました。

VDEPは、ボール奪取や被有効攻撃の予測確立に基づく守備の価値で、これが評価したい守備の価値です。ボール奪取確率「P recoveries」と有効攻撃される確率「P attacked」です。

ボール奪取の確率が上がるとよくて、有効攻撃される確率が低くなるとよいという指標です。

入力の「Si」は、iとi−1番目の行動と、その時の座標を含む状態の集合です。Cは調整する定数なのですが、これはボール奪取と被有効攻撃の価値を調整する定数で、今回は単純化のために発生頻度で調整していて、Cはおよそ3となっています。

P recoveries、P attackedと推定する必要があるのですが、ここはXGBoostという方法で推定しました。

入力はイベント発生時のトラッキングデータや、イベントの種類、時間、点差、ゴールまでの距離・角度です。

出力は、その後5イベント以内にボール奪取や被有効攻撃が起こる確率で、これはほとんどVAEPの出力の考え方と同じです。得失点の期待値から算出しています。

VDEPが真陽性を分類できたか妥当性を評価

まずは妥当性を検証するために、簡単にF1スコアというのを用いました。有名な手法なので調べたら出てくると思います。少ない真陽性を評価して、大量の真陰性は評価したくないというのが目的です。

それで評価してみると、提案手法のVDEPはそこそこよくて、VAEPはあまりよくないということがわかりました。この理由は、イベントの回数がぜんぜん違うからです。得点や失点は3桁なのですが、ボール奪取は5桁ぐらいあるので、やはりそれが大きく効いていて、今回の方法で正確な予測に基づく評価が可能であることが示唆されました。

「悪い守備ではなかったけれど失点してしまった」守備の過程を評価できる

FマリノスとFC東京で、3ー0で横浜が勝ったという試合があるのですが、点差ほどの差は見られず、例えばシュート本数は同じであったと言われています。

実際に今回の提案手法の評価でいうと、東京のほうがよかったことを示しています。recoveriesとattackedに分解されるのですが、高いほどよくない守備で、低いほどよい守備であるattackedは東京のほうがよかったと示しました。

このように守備の評価はよかったのに、それを相手方のシュートの質が上回って、得点される場合の評価方法もできます。得点自体は3失点なので、悪いという評価なのですが、そういう評価もできます。

もう少し詳しく見ていきます。同じ試合の1失点目のシーンを紹介していきます。これがパス、トラップ、パス、トラップで最後に遠いところからシュートを打って、これが決まったという局面です。

VDEPのこの値は、正の時は良い守備をしていて、負の時は悪い守備をしているという意味です。これは全部正なので、基本的には良い守備をしていたんです。ただ、シュートが入ってしまいました。

こういう時に、結果論でやはり悪い守備だと言いがちなのですが、これは「悪い守備ではなかったけれど失点してしまった」と、結果にとらわれない評価ができるところが今回の方法の特徴と言えます。

最後に、複数試合の評価とシーズン成績の関係について、J1リーグ18チームの特徴づけを今回の手法で行ってみました。横軸はボール奪取の確率が高い、右側が良い守備が、縦軸は有効攻撃がされる確率が低い下が良い守備です。

先ほどの横浜は、この位置にあります。シーズンでは得点最多のチームで、ボール奪取が確率がすごく高いということを示しています。一方で、有効攻撃されるのも高いので、プレッシングの特徴があって、ハイリスクハイリターンの守備をしているという特徴がつけられます。

次に広島に着目したいのですが、このチームは失点がシーズン最少です。ボール奪取確率は高く、かつ有効攻撃もされないという、理想的な守備をしていたと特徴づけが可能です。

今回は、チームの守備を定量的に評価する方法を提案しました。

頻度の多いボール奪取や被有効攻撃を予測するという意味で、その信頼性が高いことを示しました。

今回は割愛してしまったのですが、VDEPは長期的な成績と安定した相関があるので、目の前の試合だけではなくて、シーズンでも評価できる安定した評価指標となる可能性が示唆されました。

詳しくはこちらの論文に載っています。

今後は、個人の貢献を分解したり、評価手法自体を評価したりすることが課題かなと考えています。

発表は以上です。