集団スポーツの特徴と種類

藤井慶輔氏(以下、藤井):藤井慶輔と言います。今回は「侵入型スポーツの戦術的な動きのデータ解析」という内容で発表したいと思います。おそらく5回目の発表ですが、過去の発表はログミーTechを見てもらえたらと思います。最近論文を書いて、そのまとめプラス考えていることなどを話したいと思ってます。よろしくお願いします。

(スライドを指して)まず、集団スポーツに関しては左側の動画や右側のバスケットボールの動画のように、味方と協力して相手と争うというところに面白さがあるかなと思ってます。近年では計測やモデル化技術の発達によって、データ解析の発展が複雑な動きに対しても期待されています。

ただし、戦術的な解析がまだ未発達だなと思っていて、人間の目視・経験に頼りがちな部分があります。これを自動化できれば、スタッフの負担軽減だったり、観客の理解促進、誰もがわかりやすく理解できることが期待できます。

集団スポーツは侵入型ゲーム、ネット型ゲーム、投・打球型ゲームといろいろありますが、データ解析に関する共通の問題としては、多くのスポーツでは人間の目で見て評価を行う、あるいは高価な計測装置が必要です。そのため、プロスポーツでない限り、基本は大量のデータの記録が難しい点と、あとは大量のデータが利用できたとしても、多人数での複雑な協働・競合を個人の貢献に分解することや、最終的な結果を予測・説明することがしばしば難しい。

私は昔からどちらかというとデータが利用可能で動きの分析が難しい侵入型ゲーム、サッカーやバスケットボールなどに着目して研究を進めてきました。

侵入型ゲームの動きの分析がなぜ難しいのか

なぜ動きの分析が難しいのかというと、スタッツ(得点・アシストなど)の分析と比べてみると多次元であったり、時系列データや、あとは変動が大きく、状況に依存的であるとか。これらの特性が、例えば音声、画像、自然言語のような、ほかの実世界のデータ解析と共通部分で難しいところかなと思います。

もう1つそれらに比べて難しいと思うところが、何らかの動きの規則が時間/空間的にありそうなものの、よくわかってないので、それらと比較してもまだ分析のツールが揃っていない状況かと思います。

これらを一般的に解決することはまだ難しいですが、画像や音声、自然言語のようなデータ解析と共通して、機械学習ベースの方法で用いると、部分的に解決できるかと思ってます。以前の「Sports Analyst Meetup」でも、これらの研究を紹介してきました。

なぜこれが必要なのかを、もう少し大まかなところから話していきます。まず、機械学習を使わないような方法論です。これは従来使われてきたものですが、経験や理論に基づいて評価したり、シミュレーションしたりする。

昔、私はこちらの方法でやっていましたが。原理の理解に一番直接的に役立ちますが、いろいろな問題を考えていくうちに、複雑にモデル化していくと、別のドメインや、競技だったり、場面に適用する時に、かなり一般化が難しくなると思っていました。

最近は機械学習を使ってやっていますが、こちらは複雑なモデル化を一般的な方法で行えるものの、しばしば原理の理解が難しくなるというトレードオフのような関係があり、一長一短です。

そう考えた時に、どのようななアプローチを取ればいいのかを考えると、複雑な動きのデータ解析には「実際のデータの背後にある原理の理解が可能なデータと学習に基づくモデル化」ということがが、求められてるのかなと考えています。

先ほどは1軸でしたが、今度は2軸で考えてみたいと思います。モデルと実世界のデータを横軸に、知識・理論と機械学習を縦軸にして考えると、従来の経験理論に基づく特徴作成というアプローチと、先ほどのシミュレーションのようなゲームと見てもいいかもしれませんが、ルールに基づき仮想空間にモデル化するアプローチがあります。

機械学習を使うと、データから機械が特徴を抽出してくれるようなメリットがある。あるいはルールを考えず、学習に基づいたモデル化ができるメリットがあります。

ただ、結局、この仮想空間と実世界データのギャップはまだ埋められていないというので、今考えているのは、知識・理論に基づいて機械学習をモデル化するような方法論、ハイブリッドな方法論を用いることで、原理の理解や評価につながるんじゃないかと考えています。

これは論文の分類体系ですが、戦術的な動きのデータ解析を、先ほどの機械学習を使ったデータ特徴抽出や行動のシミュレート制御という分類をしていきますが、このあたりに関しては、実はこれまでのSports Analyst Meetupで紹介してたとおりです。分類やクラスタリングの問題、あるいは選手軌道予測の問題は話してきました。

今回は最近一番着目している計画ベースの、もう少し行動モデルみたいな部分のテーマに関して、現状や展望をお話ししたいと思います。

戦術的な行動のモデル化と評価

戦術的な行動のモデル化と評価をしたいということですが、サッカーやバスケットボールの戦術的な行動は、現在の状態から、複数の選択肢がある中で取るべき行動を決定するというような性質があります。

これをそのまま一番わかりやすい枠組みに当てはめると、強化学習になるかなと思います。環境からエージェントが状態を観測して、その方策に基づいた行動を生成する。その行動が成功すれば、環境から報酬をもらうような枠組みです。ただし、これをなかなか実世界の侵入型スポーツに適用するとなると、実はまだまだ課題があります。データからモデル化することが難しいので、最近の研究は2つの方法論で進められています。

1つはデータからモデル化する部分問題として、関数や変数つまり状態、行動、報酬、方策みたいなもののデータから推定する。これはデータからモデルを制定するので、“逆アプローチ”と言います。

2つ目のアプローチは、計測データを用いず、強化学習のようなモデルを構築して、仮想空間でデータを生成する。これはモデルからデータを生成するので、“順アプローチ”と言います。こういった話は、機械学習の国際会議のワークショップでいろいろ議論されているので、興味がある方はご覧ください。

変数/関数をデータから推計する(逆アプローチ)

最初に、逆アプローチです。変数/関数をデータから推計するので、いくつか偏ってるんですが、行われています。一番よく行われているのが行動の評価で、ドリブルやパスやシュートなどを評価するものです。サッカーの有名なところでいうとVAEP (valuing actions by estimating probabilities)みたいなものが特徴的ですが、これはよく行われています。

状態の評価もよく行われています。厳密にはちょっと異なりますが、得点期待値やスペースの価値を定量的に評価していく研究も多いです。数は少ないですが、データから報酬を推定するものの中で、得点が報酬とされることが多いですが、もう少し細かいものを考える場合もあります。それが一般には逆強化学習と言われる枠組みで、サッカーの研究でいくつかされています。

次は“方策”と呼ばれる、状態から行動を生成する関数です。データから推定するのは、模倣学習と呼ばれるフレームワークで軌道予測という文脈で、いくつか私たちも含めて研究されています。

ただ、実世界データの強化学習は部分的にはできますが、いろいろ課題があります。(スライドを指して)最近見つけたこの論文では、そういった点を整理しています。例えばデータや報酬がスパースであり、そのためいいモデルを構築することが難しいという話です。

最近私が考えているのは、データを使ってデータだけから推定してしまうと、本当に起こった行動しか評価できず、複数の選択肢がある中で選択したところがなかなか反映されないのが、このアプローチの難しいところかなと考えています。

仮想空間にモデルを構築する(順アプローチ)

順アプローチです。仮想空間にモデルを構築するほうは、古くからはロボカップというものが昔からやられていて、2Dシミュレーションというのが実データの話と近いのかなと思います。

(スライドを指して)最近、この秋山さんという方にお話を聞く機会があり、ソースコードも公開されています。主にはルールベースがよく用いられているということでしたが、強化学習も一部のチームで使われていて、このあたりのチームなどは使っているということです。

最近着目されているのは、2020年に開催された「Google Research Football」で、機械学習のトップ会議でアルゴリズムの改善に関する研究が続々と出版されています。ただ、アルゴリズムの改善がメインなので、私たちが考えているようなデータ解析みたいな観点はやはり難しく、実データとの関連はまったく議論されていないということです。

そういった同じような問題意識から、共同研究者のスコット・アトムさんがGoogle Research FootballとJリーグの実際の選手の試合を比較して、パスの観点から似ているとこもあるんじゃないかという研究を行いました。これはけっこう大事な研究かなと思ってます。

こちらのアプローチの方は、多様な行動は自由にモデル化できるので生成できますが、実世界らしさの保証が事後的にしか検証できない部分があって、難しいなと思っています。今後は、順アプローチと逆のアプローチの両者を両立させるような方法論が求められるかなと考えてます。

まとめです。最後に少しお話ししたいのですが、私は名古屋大学で教員をしています。一緒に研究を行う博士学生、研究員を募集しています。(※登壇時点。研究員募集は既に締め切っています。)博士学生も給与をお支払いできます。もし興味ある方がいたら気軽にご連絡いただきたいなと思います。発表は以上です。ありがとうございました。

質疑応答

司会:ありがとうございました。今までたくさんSports Analyst Meetupでお話しいただいたものがすごく整理されて、まとまってきているなと素人ながら感じる部分があって、とても面白かったです。

僕は勝手に2年間ぐらい研究の流れを通じて見てきている部分があるんですが、関心の領域としては最後に発表されていたようなところが強くなってきてるというか、このあたりが探索しがいがあるなと思っている感じなんでしょうか?

藤井:そのとおりです。なかなか大学で研究する意味というか、そういうものをけっこう考えるんですが、もうちょっと根本的な問題にチャレンジしたいなというところがあって。

世界的な動向などを見ていると、まだ大きなチャレンジがあるところを見つけたので。これはおそらく本質的だと思うので、データを解析するという観点からエージェント自体をモデリングすることはけっこう大事な観点かなと思います。本質的に評価するというか。そういうふうに考えてるので、一番取り組みたいなと思っているところです。

司会:ありがとうございます。取りかかりとしてスポーツを使ってはいますが、より本質的にいろいろな集団の行動みたいなところがトピックになりそうだなとすごく感じました。

藤井:そうなんです。今日はぜんぜん関係ないんですけど、最近、動物の集団のデータなどを扱って、それで誰が誰を見てどう動いてるかみたいなのをきちんとデータから推定するという研究も行っています。モデリングは動物のほうがまだ簡単という部分があるので、基礎研究の1つとして、そういうふうに生物の研究者と組んでいろいろやったりもしています。

そういう意味ではまさにお話されたとおりで、いろいろなドメインで協力して、どれが難しいとか、どれが簡単とかいうわけではなくそれぞれの分野で難しいところがあるんですけど。そういう意味では、もしかしたらできるところからやる感じがいいかなと思って、最近視野を広げているところです。

司会:ありがとうございます。そうしたら私からもう1つ、今の質問の中でちょっと込み入ったものになるんですが、モデリングとしては生物よりもスポーツのほうがよっぽど複雑なんですか?

藤井:生物もわかってないところが多いし、動物はしゃべれないので、もし高度な認知などがあったとしても確認できません。スポーツは少なくともコーチや選手が言語化できるので、そういう意味では、かなり複雑な戦術・戦略として考えてることは間違いないと思いますね。

それを参照して、近いような数理モデルみたいなものを考えるのは、割とチャレンジングになるんじゃないかなと思います。ただ、生物のほうは生物のほうで聞き取りとかもできません。言うことも聞いてくれないですし。観測しか使えないので、そういうところも難しいかなと思います。

司会:ありがとうございます。藤井先生、ありがとうございました。

藤井:ありがとうございました。