CLOSE

シーズン序盤の3Pスタッツから最終的な3P%をベイズで予測(全1記事)

シーズン序盤の成績から最終的なスタッツを予測できないか? NBAのデータからベイズ推定を用いて3ポイント成功率を算出

スポーツアナリストおよびスポーツデータ分析に興味のある方に向けたイベント、「Sports Analyst Meetup」。ここで「シーズン序盤の3Pスタッツから最終的な3P%をベイズで予測」をテーマにpauze氏が登壇。NBAのデータをもとに、ベイズ推定を活用して3ポイント成功率を算出します。

選手はシーズン序盤の成績の数値を維持するのだろうか?

pauze氏(以下、pauze):「シーズン序盤の3Pスタッツから最終的な3Pパーセンテージを予測してみた」というタイトルで発表したいと思います。(スライドを示して)最初に自己紹介です。後ほど公開する資料に、Twitterのアカウントやspoana(Sports Analyst Meetup)で過去に発表した資料のリンクなどを載せているので、興味のある方は見てもらえればと思います。

今回のテーマは、プロスポーツのシーズンが始まった時に、こんなことがニュースになったり、気になりがちかなというところです。例えば、バスケでいうと、ある選手がシーズン序盤に、外からの3ポイントのシュートを34本中17本決めたとなった時に、リーグ平均の数字の35パーセントよりも高いものの、本当にこの数値のまま維持するのかどうか気になってくるかなと思っています。

抽象的にいうと、シーズン序盤の成績から最終的なスタッツをどのように予測すればいいかが気になる方がいるかなと思っています。

最終的なスタッツを予測する分析記事から見つけた課題

そんなことを自分も思いながら、こんな記事を見かけました。

(スライドを示して)英語の記事なのでざっくり概要だけ話すと、選手ごとのシーズン序盤のスタッツに対してリーグ全体のスタッツで水増しすることで、最終的なスタッツを予測するというアプローチを書いている記事がありました。

34本中17本決めた場合は、3ポイントで決められた水増し本数240本を分母に足して、240本にリーグ全体の3ポイントの成功率である35.5パーセントを掛けたものを足すと、最終的に予測される3ポイントパーセンテージは37.3パーセントになる、というアプローチでした。

これを読んでいて、発想はおもしろかったのですが、2点課題があるとも思っています。1点目は、点推定で予測しているので、値の確からしさがわからないこと。2点目は、選手ごとの持っている能力の違いを考慮しきれていないことです。

例えば1点目でいうと、補正後の数字が37.3パーセントと出たけれど、36パーセントと38パーセントにもぶれるから、そうなる確率はどれくらいあるんだろう? ということ。また、事前の評価で3ポイントが上手い選手と微妙な選手が、例えばそれぞれ10本中5本決めたというステータスだと、先ほどの手法では同一の予測結果になるものの、それはさすがに起こりづらいのではないかというところがあります。

そこを解決するために、今回はベイズ推定を用いて、信用区間を踏まえた予測を行おうと考えました。

これができるとこんなうれしいことがある、というのも書いてあります。ファン目線でいくと、序盤で好調・不調の選手がいても「今好調だけど、この後落ちてくるかもしれないから、そういうこともあり得るよね」と思えたり、不調な選手がいても「この後盛り返してくれるだろうな」と思えたりして、心穏やかに観戦できたり。

チーム目線でいくと、シーズン中にチーム編成を考える際の材料にもなるかなと思っています。

3パターンの分析設計

ということで、ここからは具体的な分析の設計と結果。それから、所感と課題を話せればと思います。

最初に分析設計ですが、今回は、NBAのあるシーズンの最終的な3ポイント試投数トップ40人の、3ポイントパーセンテージを予測できればと思っています。

用いるのは、シーズン開始からだいたい1ヶ月ぐらいのデータと、過去2シーズンのデータを使って予測を行おうと思っています。

(スライドを示して)ベイズ推定で用いる統計モデルは、今回は事前分布に3パターン用意していますが、すべてに共通する前提は、下に書いてあるとおりです。

3ポイントの成否は独立にベルヌーイ分布に従うことと、ベルヌーイ分布のパラメータpは範囲[0.2,0.5]に入って、かつパターンごとに設定する正規分布に従うことです。[0.2,0.5]に関しては、過去の3ポイントシューターの実績から、この範囲を外れることはないだろうと設定しています。

次に、パターンごとの事前分布と正規分布を仮定しているので、そのパラメータを話していこうと思います。(スライドを示して)まず1つ目の正規分布の平均は、過去2シーズンの3ポイント試投数トップの選手の3ポイントパーセンテージの平均としていて、標準偏差はスライドの上記の数値の標準偏差としています。このコンセプトは、リーグ全体のデータを基にした事前分布を考えて設定をしています。

余談ですが、実際の3ポイントパーセンテージの分布が、少し偏りがありそうだけど正規分布に見えるというところで、今回は仮に正規分布を設定をしています。

2つ目のパターンですが、こちらは趣向が変わっています。(スライドを示して)平均は予測したい選手の過去1シーズンの3ポイントパーセンテージ、標準偏差は過去1シーズンの3ポイント試投数をn、成功率をpとした時の式で算出しています。このコンセプトは、選手個人のデータを基にした事前分布で考えています。

申し訳ないのですが、実はここで添付している画像の式は、導出を間違えていたことに気づきました。そのため、本来よりも事前分布の標準偏差が小さくなっていて、最終的に算出する信用区間も狭まっているのですが、出し直す時間がなかったので、今回は修正前に出した数値を許容してもらえればと思っています。

パターン3に関しては、パターン1とパターン2のミックスのようなものです。平均は選手の過去1シーズンの3ポイントパーセンテージです。標準偏差はパターン1と同じで、選手個人のデータとリーグ全体のデータをミックスしたものとして設定をしています。これらパターン1、2、3をそれぞれベイズで回して信用区間などを出しています。

3パターンの分析結果

結果として、まず選手ごとにどういう数値が出てくるかが書いてあります。(スライドを示して)左側が選手で、そこから右から順に序盤の3ポイントの試投数、序盤の3ポイントの成功数、序盤の3ポイントの成功率。

その次がシーズンが終わった段階での3ポイント成功数で、右から10パーセントタイル、25パーセントタイルのそれぞれの予測された3ポイントパーセンテージとなっています。

(スライドを示して)ただ、これだと見てもいまいちピンときづらいので、こんな感じにまとめたものがあります。まず1つが、パターンごとに最頻値を含む80パーセント信用区間と50パーセント信用区間を算出して、最終的な3ポイントパーセンテージがその中に含まれている割合を出してみました。

パターン1に関しては、対象者40人中80パーセント信用区間では、30人該当で75パーセント。50パーセント信用区間では、20人該当の50パーセントという結果になりました。パターン2では68.4パーセント、44.7パーセント。パターン3に関しては73.7パーセント、52.6パーセントとなっています。

最後の所感のところでも話そうと思いますが、それほど大きく外れている感じではなさそうかな、というのが個人的な感覚です。

次に、序盤の試投数ごとに信用区間がどれくらいの幅になっているかを図示してみました。パターン1に関しては、だいたい80パーセントタイルの場合だと幅がだいたい7パーセントほどで、50パーセントタイルのところだと幅が4パーセント弱となっています。本数が2倍になっても、幅が2分の1になるというようなことはなく、緩やかに減っているのかなという印象を受けます。

パターン2に関しては、事前分布の標準偏差が選手ごとに大きく異なるので、それがあってだいぶばらつきのある信用区間になっているのかなというところです。

パターン3に関しては、パターン1と標準偏差が同じなので、パターン1と同じような動き方になっているのかなというところです。

分析の所感と課題

ここまでを踏まえて、分析の所感と課題です。パターン1とパターン3に関しては、予測の幅の7パーセントと4パーセントのところが、どこまで意義のある狭さかはわからないですが、ほぼ確実に言えることを見つける点では使えるかなと思っています。

例えば、選手Aは90パーセントの確率で、3ポイント成功率が35パーセントを上回るといえそうなので、それならばこのシーズンは3ポイントを計算に入れてもいいんじゃないかと考えられると思っています。

パターン2が選手ごとの実績を最も考慮していて、ポテンシャルを感じているのですが、選手ごとのばらつきが大きいので、扱いには一苦労かかりそうかなと思っています。

一方で、課題が3つありました。1つが、序盤の試行と中盤以降の試行が独立していないところです。序盤に調子がよかったから、中盤以降でチェックされるようになってシュートが難しくなってしまったり、中盤以降でチーム編成が変わってチーム内の役割が変わり、質が変わってしまうところをどう考慮していくのかが課題の1つにあると思っています。

次に、真に予測したい数値の選定の点です。今回は、序盤で上振れや下振れが起きている選手を予測できればいいというのが一番の目的だと思いますが、その選手をどう予測できているのかは、判断するのが難しいのかなと考えています。

最後が、予測された値の精度の判断方法です。先ほどの、80パーセント信用区間に何パーセント入っているのかという区間の精度と、区間の幅の2つに関して考慮する必要があるかと思います。ここを統一的に判断する指標が軽く調べた限りでは見つからなかったので、今後検討していく必要があるのかと思っています。

例えば、80パーセント区間に7割含まれる時と、9割含まれる時ではどちらがいいのかや、80パーセント区間で7.5割だけど、50パーセント区間で5.5割というこの信用区間は妥当なのか。

80パーセント区間に8パーセントで含まれていても、両端が25パーセントから45パーセントの幅20パーセントだったら、これはさすがに使い物にならないというところがあると思うので、このあたりを指標としてどう判断していくのかは今後の課題かなと考えています。

というところで、発表のまとめです。NBAのデータにベイズ推定を用いて序盤のスタッツから最終的な3ポイント成功率を予測しました。事前分布を3パターン設定して、それぞれで3ポイント成功率がXパーセントの信用区間に入った割合や、区間の幅について算出を行いました。

それぞれ極端な予測のずれはなさそうですが、まだ課題も残っているというのが、今回の発表のまとめです。発表は以上です。ご清聴ありがとうございました。

質疑応答

司会者:ありがとうございました。この選手が序盤好調だけどそのまま続くのかみたいなところは、どの競技でもよくある課題というか、話題だと思うので、すごくおもしろい発表でした。

質問もいくつかきています。1つ目が「データは十分にあるようでしたが、予測が外れやすかった選手などはいたでしょうか。例えば若手の選手で、シーズン序盤に突然活躍したけど、対策をされるというのはよくあるパターンとしてあり得るかな」という質問です。

pauze:そうですね。そこはちょっと見てみたいと思います。例えば、序盤の成績で極端にモデルごとに上振れや下振れしていそうな選手を、どれくらい予測できているのか。ちょっと目で見てみましたが、どれもいまいちパッとしないところです。ここの傾向をつかむのは今後の課題だと考えています。

スライド26

司会者:ありがとうございます。続いて2つ目の質問で、コメントに近いかもしれないですが「3ポイントの成功率を、今回は過去のデータを使わずにいろいろやっている部分がありますが、同じ選手でも過去のシーズンの成績を使って補完できるかもしれないと思いましたが、いかがでしょう」ということです。

pauze:そうですね。今回は過去1シーズンだけしか使っていませんが、それよりもっと前のデータを使えるとよりよくなりそうだとは思っています。なので、シーズンごとの3ポイントの成功率の推移を見て、安定していそうだったらそれを盛り込んでみるとか、そういうのはやれるとよさそうだと、今コメントもらって思いました。

司会者:私はバスケをぜんぜん知らないのですが、成功率は一般にけっこうぶれる人もいるものなんですか?

pauze:微妙なところですかね。本当に3ポイントシューターとして知名度も実績もある選手は、まあよくも悪くも高いところで安定するのかなと思います。

前年は実はそこまで3ポイント数は多くなかったけれど成功率が高い選手に関しては、「あれ? 今シーズン調子悪いね」となったりすることもあるかなとは思いますね。

司会者:ありがとうございます。最後にもう1つ質問があります。こういうデータを使った時の活用方法に関する部分だと思うのですが、「3ポイントの成功率が何パーセント以上だったら、積極的に3ポイントよりも安定の2点を狙いに行くほうがいいとか、経験則でもかまわないのですが、そういう数字のようなものはあるのでしょうか」という質問です。

pauze:そうですね。ここでいくと、昨今3ポイントをメチャクチャ打つようになっているという話があると思います。基本的には、例えばシュートを打つエリアごとの成功率を見てみて、この選手はミドルで打つよりも3ポイントのほうが成功率が高くて、2ポイントが成功率50パーセントで、3ポイントが成功率35パーセントだとしたら、得点の期待値としては3ポイントのほうが少し高くなるので、そういう選手は3ポイントをどんどん打ったほうがいいみたいなところがあったりします。

逆にそういう意味でいうと、ミドルは最近あまり打たなくなってきているのですが、ミドルで60パーセント入るような選手がいるのなら、得点の期待値としては3ポイントよりも高くなるので、ミドルを打ってもいいんじゃないかとか、そういうところはあったりします。2ポイントの成功率との兼ね合いで高いほうを選ぶところがありますかね。

司会者:ありがとうございます。最後にもう1つ取り上げます。「今回の発表でもっと考慮するとおもしろそうだということの1つで、ディフェンスのプレッシャーや試合環境です。スタジアムやホーム・アウェーなどのコンテクストのようなものも可視化できたらおもしろいと思ったのですが、そういったデータの取り方などを聞いたことがありますか」という質問がきています。

pauze:NBAだと、トラッキングデータがいくつか公表されています。例えば、シュートを打つ時のディフェンスとの距離が、選手ごとに計測されています。

そういうのを使うと、「この選手はディフェンスの距離がかなり近くても、3ポイント成功率はあまり変わらない」というところが見られたりするので、そういうのを使うとより深みのある分析になるかと思います。

余談ですが、試合環境のコンテクストだと、スタジアムの標高が高すぎて空気が薄くて。そのアリーナでやる時だけちょっと慣れないという話は聞いたことがあります。

司会者:ああ、バスケでもそんなことがあるんですね。建物の中だったので、それは少し意外でした。そういうパターンも確かにあるかもしれないですね。

ありがとうございます。たくさんもらった質問も取り上げられました。これでpauzeさんの発表を以上としたいと思います。ありがとうございました。

pauze:ありがとうございました。

続きを読むには会員登録
(無料)が必要です。

会員登録していただくと、すべての記事が制限なく閲覧でき、
著者フォローや記事の保存機能など、便利な機能がご利用いただけます。

無料会員登録

会員の方はこちら

関連タグ:

この記事のスピーカー

  • pauze

同じログの記事

コミュニティ情報

Brand Topics

Brand Topics

  • 大変な現場作業も「動画を撮るだけ」で一瞬で完了 労働者不足のインフラ管理を変える、急成長スタートアップの挑戦 

人気の記事

新着イベント

ログミーBusinessに
記事掲載しませんか?

イベント・インタビュー・対談 etc.

“編集しない編集”で、
スピーカーの「意図をそのまま」お届け!