コモディティ化するKaggleのTier 差別化のポイントは?

大久保渉太氏(以下、大久保):では次の質問に行きます。「昨今、特に日本においてKaggleのTierは、コモディティ化しつつあるように見えます。これについてどう思われますか? そこで大切になる、Tierだけでは表せない差別化ポイントは何だと思いますか?」。これは誰が答えますか?

横尾修平氏(以下、横尾):では僕が答えます。

(一同笑)

大久保:お願いします。Tierがコモディティ化しているという話ですね。

横尾:コモディティ化しているというのは、事実としてあると思っています。Grandmasterの数は、確か日本だとまだ20名ぐらいしかいない気がするので、まだまだ大丈夫なんじゃないかなと思います。マスターになってくると、今は相当数が増えているという印象があって、そうなると差別化する要素が必要になってくるのではないかなと思います。

僕自身、Grandmasterの中だと相当弱いほうなので。

(一同笑)

どういう差別化ポイントがあるのかは、今のところ見出せていないのですが、画像系のタスクはけっこう強いと自負しています。

大久保:ありがとうございます。

島越直人氏(以下、島越):GM(Grandmaster)までいくと、5枚の金メダルを持っていることが前提です。5枚も金メダルを持っていたら、出ているコンペもぜんぜん違うと思うので、それでだいぶ差別化されるのではないかなという気はしますよね。横尾さんは、画像にいっぱい出ていて画像に強い感じがするし、pocketさんはテーブルデータが強いというイメージがあるし、藤川さんはNLPが強いなと思っています。

僕はなんかいろいろやっているなと感じで、けっこう差別化はできているのではないかなと思います。この4人でも、差別化はされている気はしますね。

大久保:ありがとうございます。次は一番上の「年収は一千万円もらえていますか?」

(一同笑)

これは会社からちょっと怒られそうな質問なので、僕が引き取ります。

(一同笑)

たぶんそれなりの待遇はみなさんもらえているのではないかなと思います。求人で、なんとなくの給料面はわかるかなと思います。たぶん会社に怒られるので、飲み会で聞いてください。

(一同笑)

プロジェクトのどの段階から携わっているのか?

次です。「Grandmasterの働き方を詳しく知りたいです。ふだんはモデル開発を専門でやっているのか、企画段階から関与しているのか、教えてください」ということですね。確かにプロジェクトの内容は話しましたが、どの段階からやっているのかについてはあまり話していない気がしますね。では島越さんですかね。どうですか?

(一同笑)

島越:僕は先ほど言ったとおりMobility Technologiesでの仕事を主にやっていますが、事業部があって、そこが企画をしていると思っています。優先順位もあるので、事業部のニーズを引き取って、そのニーズに応えるためにどのようなモデルを使うのかとか、どのようなアルゴリズムを作るかという企画から入ることはありますが、基本的にはそんなに企画からは入らないかなと思っています。

ただうちのチームはけっこう特殊で、モデル開発だけではなくて、Lookerを使って分析したり、ダッシュボードを作成したり、A/Bテストをやったり、MLOpsでDAGを作ってきちんとモデルの運用もしたりなど、けっこう幅広いことはやっている感じですね。機械学習界隈でも幅広いことをやっているチームだと思っています。

大久保:専門用語も飛び出しましたが、幅広くやっている感じですね。ではABCチームですかね。どちらからいきましょうか。

藤川和樹氏(以下、藤川):では僕からで。モデル専門かどうかというと、そうではないというのがまず回答かなと思っています。もちろん問題設定に近いところだったり、実際にやってみて、難易度に応じてこういう感じでアウトプットできないですか? と相談したりすることもあるので、Kaggleのタスクをひたすら解いていくというかたちは少ないのかなと思います。

あとは、もちろん関わるプロジェクトのフェーズにもよるかなと思っていて、だいぶできあがっているプロジェクトであれば、事業部で「こういうものを解いてほしい」というのが、だいぶ明確化されているので、その場合は解くことに集中する時間が長いかなと思いますが、そうではなくて、シードとなるアイデアがあって、これをどうにかできないですかというところからだとしたら、事業部の方と問題設定を相談しながら作っていくこともけっこう多いかなと思います。

大久保:僕からも一応補足しておくと、ありがたいことにDeNAは、けっこうさまざまビジネスがすでに事業としてあるので、その事業をどう改善できるかとか、盛り上げていけるかというところ。そういう相談のフェーズから関わっていることはけっこうあるのかなと思いますね。

やりたいことが完全に決まっておて、モデルを作るところからという場合もなくはないかなという感じですかね。

実務とKaggleで一番違いを感じるポイント

次の質問です。「実務とKaggleで一番違うなと感じるポイントはどこですか?」これはけっこうよくある質問かなと思いますが、この場だとちょっと違う回答が聞けるかなと思います。どこから行きますか? 島越さんから行きますか?

(一同笑)

島越:全部、僕から来ているなという感じなんですけど。

(一同笑)

僕は実務では、時系列データを扱うことが多くて、Kaggleの時系列コンペだと、データ数がけっこう小さくて、1年分で学習させて次の2週間で予測するみたいなことができるのですが、僕らが実務で使っているデータで1年分を学習させようとすると、数テラバイトになっちゃうので、そこらへんの大きなスケールのデータをどう扱うかを考えないのが、Kaggleなのかなと思っていますね。

また、Kaggleでは評価指標という与えられた全ケースのデータに対して平均的な指標で評価されるのですが実際の業務だと、雨や地震などのエッジケースにも対応しなければダメなので、一元的には測れない評価指標も見ながらやらないといけないというのが実務とKaggleの違うポイントかなと思います。

大久保:良い話ですね。ではABCチームはどうですか?

横尾:やはり一番違うと感じるポイントは、業務の場合はゴールが明確にないところかなと思っています。例えば僕の場合だと、入社したての頃はけっこうKaggle脳で、もうKaggleに囚われていて、業務でもモデルの精度を良くするところに執着したりしていました。

だけど、モデルをいじるよりも、例えばデータの質を上げたり、量を増やしたりというアプローチのほうが、効率的だよねという場面もけっこうあるなと感じていて、最近は、そのどちらのほうが効率が良いかというところで、Kaggle脳と業務脳の切り替えがわりと大事なのかなと思っています。

大久保:では次の質問に行きます。「どのくらいの期間で1コンペに参加していますか? 参加には、週何時間ぐらいを費やしているのでしょうか?」

藤川:もちろんコンペによって、そもそもの開催時間も違いますが、やはり上位に行ける時は、わりと最初から参加していることが多いかなと思います。そういう意味だと、2ヶ月間ぐらいはやっていることが多いかなと思っています。参加している時期は、本当に業務以外はKaggleをしているぐらいのレベルの時間の使い方をしていて、プライベートも含めて時間を使っているというのが実態かなと思います。

大久保:やる時はメチャクチャやっているという感じですね。

Kaggleの成績も評価に反映される

次に行きたいと思います。「業務時間の一部でKaggleに挑戦できるとのことですが、成績は評価に反映されるのでしょうか? それとも本業の成果が中心となるのでしょうか?」ということで、これはマネージャーが答えるべき質問かなと思うので、僕が答えます。

反映されるかされないかで言うと、されます。Kaggleの成績は、技術や成長の裏付けですし、Kaggleで良い成績を上げて、世間に対してこういう取り組みや優秀な人材がいるということを発信すること自体に価値があると考えているので、評価に反映されます。

もちろんKaggleをやるためだけに仕事をしているわけではないので、事業に対してどれくらい貢献したかというところでの評価は加味されています。Kaggleで培った技術が活きてきて、ビジネスにも貢献できて、評価が上がるというのが一番ベストなパターンですね。

Kaggleを始めたそれぞれのきっかけ

次の質問、「Kaggleを始めたきっかけは何ですか?」ということで、ここらへんはけっこう人によって違うのかなと思います。では、藤川さんお願いします。

藤川:僕はもともとKagglerではなかったんですよね。DeNAでデータサイエンスチームを立ち上げるにあたって、採用から関わらせてもらったのですが、続々とKaggleで実績のある人が入ってくるのを見る中で、やはりこういう、いろいろな問題設定に対してソリューションを出せるというスキルセットがすごく大事だなと思いました。

ほかにも、AIエンジニアとしての生存戦略として、やはり対外的にきちんと評価可能なアウトプットを出し続けることがすごく大事だなと感じたのでKaggleを始めました。

大久保:横尾さんはどうですか?

横尾:僕は大学4年生の時、研究室に配属されるタイミングぐらいで始めました。僕の研究室はML系の研究室だったので、技術のキャッチアップが目的でした。あと、僕は手を動かさないと身に付かないタイプなので、手を動かしながらML系の技術を身に付けられるということで飛びついて、やったら思いのほか楽しくて、今もずっと続けているという感じですね。

大久保:良い話ですね。では島越さんはどうですか?

島越:僕は修士1回生の時にDeNAのサマーインターンシップに行ったのですが、その時はまだDeNAにはデータサイエンスチームはなくて、国内でもそんなにKaggleが流行っておらず、やっている人もあまりいなかった時期でした。その時にメンターについてくださった新卒1年目の方で、Kaggleで3位を取ったことがあって、仕事もメチャクチャできて、モデル開発もメチャクチャしていて、僕にとっては衝撃だったんですよね。

この人すごい、僕もKaggleをしたら、もしかしたらこの人になれるのではないかという淡い期待感を抱いて始めたのがきっかけですね。

大久保:なるほど。その人に近付けましたかね?

島越:どうなんですかね。

(一同笑)

大きなモデルの使用では実験の効率化が重要になる

大久保:その答え合わせは今年ですかね。良い話が聞けたので次に行きます。「どんどんAIモデルのサイズが大きくなって、学習にもお金がかかるようになっていてつらいのですが、そういう悩みはありますか?」。大きなモデルを使っていそうなのは誰ですかね? 横尾さんですか?

横尾:モデルのサイズが大きくなっているのは事実だと思いますが、それに伴って省コスト化や高速化もわりと研究が進んでいる印象があります。相殺まではされていないと思いますが、そういう一面もあるかなと思っています。

実際のところ、モデルサイズが大きければ大きいほど精度が良いというのは100パーセント当てはまることでもなくて、GPUをいっぱい持っていれば勝てるということでもないので、そのへんの事情はあるかなと思います。

大久保:島越さんはどうですか?

島越:僕は一昨日(※登壇当時)終わったNLPコンペに出たのですが、そのコンペも基本的には大きなモデルが強かったので、実験するのがつらいとやはり思いました。なので、どうやって実験を効率化するかとか、小さなモデルで実験をしたあとで大きいモデルにするとか、いかにその実験を早く切り上げるとか、その実験の効率化部分がけっこう重要なのかなと思っていますね。

Kaggleで優秀な成績を収める人は自走力がある人

大久保:ありがとうございます。では次の質問です。「Grandmasterとmasterの違いをズバリ教えてください」ということで、なんか大喜利みたいな感じですけど。

(一同笑)

誰か答えられますか? 藤川さんとか。

藤川:僕ですか!?

(一同笑)

そうですね。Grandmasterはゴールドメダルを5回経験しているということだと思いますが、masterの中にも、どこかのコンペで圧倒的な結果で上位を取りましたという人もいるので、一概にはGrandmasterとmasterの間で線が引けないかなと思います。

ただ1つ、Grandmasterに共通して言えるのは5回上位に入賞しているというところだと思うので、そういう意味だと、上位に行くための蓋然性をしっかり高める何かを持っていると言えるのではないかと思います。

大久保:なるほど。

藤川:何かありますか?(笑)。

大久保:みなさん1回はソロでコンペに参加したことがあると思いますが、やはり1回でも1人でコンペを最後までやりきるというのは、闇の中を手探りで歩くじゃないですが、相当しんどいんですよね。

なので、ソロで金メダルや銀メダルなど上位を取れる人というのは、すごく自走力がある人だと思います。ということで、けっこう自走力を持って仕事もしてくれる人なのではないかなと思います。

大久保:良い宣伝ですね。

(一同笑)

Grandmasterの次の目標とコンペ中に気をつけていること

次の質問に行きたいと思います。「Grandmasterの次の目標はあるのでしょうか?」

これはけっこうみんな気になるのではないかなと思います。入社時点でGrandmasterだった横尾さんはどうですか?

横尾:KaggleにはKaggleランクみたいなものがあって、ユーザーの中でどれぐらい強いかみたいな、すごく雑に言うとランキングがあります。1度、けっこう良い順位に行ったことがあって、その時はどうせだったらトップ10を目指そうという気持ちがあったのですが、その時は何かコンペをやらなきゃという気持ちに囚われていて、わりと精神的にきつかったので、今は気楽にやることにしました。なのでKaggleでの目標は特にないですね。強いて言うならKaggleを通していろいろな技術を身に付けたいなと思っています。

大久保:けっこう自然体で取り組んでいるという感じですかね。

横尾:そうですね。気楽にやれるというのは、けっこう重要かなと思っています。

大久保:さくさくと次に行きます。「コンペ中は、どのようなことを考えて取り組んでいますか?」

これはけっこう難しいですね(笑)。島越さんはどうですか?

島越:とりあえず、よくデータを見るように意識を持って取り組んではいます。どういう点で差別化するかというところは、そのデータの形式によりますが、そのデータがどういう生成過程でできたデータなのかを考えるようにしています。

こういう過程でできたデータなら、こういう特徴をモデルに入れたほうがいいのではないかとか、こういう構造をニューラルネットワークに持たせたほうがいいのではないかと考えています。

大久保:これはけっこう人それぞれですね。「自分もGrandmasterになってモテたいです」とコメントがありました(笑)。

(一同笑)

Grandmasterになったらモテるのかはわからないです。藤川さんはご結婚されていますよね。

(一同笑)

藤川:僕が何か答えるんですか!?

(一同笑)

では、がんばってくださいとだけ言っておきます。

(一同笑)

将来のキャリア像

大久保:では、次の質問に行きます。「将来のキャリアのイメージ像はありますか?」。これもけっこう人によって回答が違う気がしますが、どうでしょう。藤川さんは、けっこうキャリアが長いと思いますが、イメージ像はありますか?

藤川:僕自身、どういうイメージを目指していこうかというところは、やはり手探りの部分もあるのですが、Kaggleを通じて得られるのは、特定の技術領域を深めるということと、少しずつ専門分野を広げていくということかなと思っています。

それを継続的に繰り返していくことで、その分野に対しては世界のトップレベルのアウトプットが出せるという自信になっていくと思うので、そこの専門性は伸ばしつつ、より広い業務範囲でも活躍できるようになりたいと考えています。

機械学習における環境

大久保:次の質問に行きます。「オンプレGPUマシンはやはり持っているのですか?」

マネージャーとして回答します。オンプレのGPUマシンは、あるかないかでいうとあるのですが、メインはGPUマシン以外にもいわゆるクラウドのマシンを使っています。クラウドの予算はだいたい月20万円くらいまで使える制度にしていて、そこらへんも併用してやっている感じです。

「script派ですか、notebook派ですか?」という質問が来ています。これは人によって違うのかな。島越さんはどうですか?

島越:僕はscript派です。やはりscriptのほうがIDEの機能が使えるし、notebookは、実務で可視化以外にはあまり使わないと思うので、実務に役立てるという意味でもscriptでモデルを作るのに慣れていたほうがいいのではないかなという気はしますね。ちょっと刺されそうですけど。

(一同笑)

大久保:ありがとうございます。僕もnotebookを使うのは、可視化ぐらいですね。

「GBDTはオワコンですか?」という質問が来ています。たぶん僕が一番GBDTを使っていると思うので答えると、Kaggleでもまだ使えると思いますし、仕事でも使えるけっこう便利なツールかなと思います。

直接的にも、間接的にもKaggleは業務に役立っている

次の質問です。「業務でKaggleが役に立ったことはありますか?」

横尾:直接的に役に立つこともあるし、間接的に役に立つこともけっこうあります。直接的には、わりと行動試算がそのまま使えるし、間接的には、Kaggleドリブンみたいな感じで、論文を読んだり、コード読んだりできるので、その過程で身に付けた技術を業務に還元することはメチャクチャ多いですね。

大久保:ありがとうございます。時間がないのでどんどん次に行きます。「仕事以外で、例えばMLOpsに関してどのような接点を持たれているのでしょうか?」。これは島越さんですかね。

島越:そうですね。うちのチームはけっこう特殊だと思いますが、わりとMLOpsに関してもうちが持つことがあります。うちのチームにMLOpsを勉強したい人が多いというのもありますが、一緒に協力して、ちょっと手伝ってもらいながら僕たちもMLOpsを学んでいくし、逆にMLOpsチームの人もデータサイエンスを学びたい人が多いので、MLOps側もデータサイエンスを学ぶという姿勢で来ることが多いですね。

権限など細かいセキュリティのところはMLOpsチームにお任せしていますが、けっこう境界がない感じで働いています。

大久保:ありがとうございます。そろそろ時間なので、いったんここで終了したいと思います。今日はご視聴いただき、またご参加いただきありがとうございました。僕らも楽しい時間となりました。本日はこれで終了いたします。