タクシーの空車率を下げるには

本橋智光氏(以下、本橋):先ほどと同様に需要予測の事例なのですけど、この事例では複数のモデルを使い分けて、可読性を持ちつつ精度の高い需要予測を実現しました。実際に在庫や廃棄品を減らすのに、役立ちました。

またおもしろい需要予測の事例として、タクシーの需要予測があります。最近だとUberが話題ですが、我々もタクシーの需要予測に取り組んでいます。

タクシーの空車率って実はかなり高いです。だいたい半分ぐらいが空いています。逆に言うと、売上が倍以上になる可能性があるということです。

さらにベテランと新人では、空車率の差がかなりあります。そこで新人の空車率の改善を目的として、この予測を行っています。要は、変なところを周ってないで、ちゃんとお客さんがいるところを周らせるということです。

スライドにある地図は、ある条件時のタクシー需要を表したものです。タクシーの営業ログがあるので、お客さんを捕まえた地点を見つけて、道路の地図や天気の情報とマッチングさせて、予測モデルを構築しています。

例えば、ある道路において雨の日の月曜日の午後13時に何人ぐらいのお客様が期待できるのかといった感じです。この予測結果を、アプリで運転手に提供し、空車率の改善を行っています。

あとはマーケティング分析も行っています。大抵マーケティングを行う企業は、既存顧客のデータベースを持っていて、既存のお客さんの売上を上げていくだけであれば、それで十分なのですが。

新たなお客さんを増やそうとする時は、当然外部のデータが必要になります。この分析でも外部の有償データを用いました。この有償データは、国勢調査や独自調査から、どの地域にどんな人が住んでいるのか、をまとめたデータです。

このデータと既存のデータを結合して、お客さんになりやすく、まだお客さんになっていない人が住んでいる地域を見つけ出し、効率的に新たなお客さまの獲得を実現しました。

Jリーグの試合の組み合わせにも分析が使われている

あとはデータ分析とは若干違うのですが、数理最適化を用いてJリーグのスケジューリングをやっています。実は弊社がJリーグの試合を決める製品を作っています。製品名は「日程くん」というひねりのない名前ですが(笑)。Jリーグのスケジュール作りっていろいろと考える要素があってとてもおもしろいです。

例えばずっとホームが続く、ずっとアウェイが続く、辛いですね。ずっと長距離移動ばかりが続く、これも辛いです。

各チームは、土日にホームの試合をやりたいし、移動はなるべく減らしたいし、ホームやアウェイが連続するのも嫌だし、他にも様々な要望が各チームにあります。これを公平にすることが非常に重要なポイントになります。

またスケジュールは短期間で決めないといけません。というのは、天皇杯の結果によって来年度のスケジュールの条件が決まるので、事前には決められません。結果として、スケジュールを考えられる期間は実質4〜5日ぐらいしかありません。だから天皇杯の延長戦とか本当にやめて欲しいのですけどね(笑)。

製品は、カスタムの数理モデルとGurobi Optimizerを使って、手で修正できるようなUIを提供しています。数理的に最適でも、やはり手で修正したいケースやどうしても制約を破らなければならないケースなどがあり、このような仕様になっています。

次にこれは、ほとんど僕の趣味で作ったのですが、対話型レコメンドエンジンの試作品を開発しました。一応特許も取っています。

結婚式場とか物件の買い物は普通の買い物と違って、買うことは決まっているけど、買いたい物が決まってないことがほとんどです。なので、Amazonとかだと大抵は買いたい物が決まってからサイトにくるのですけど、結婚式場や物件選びのサイトはそうではないのですよね。

そこで、ユーザが何を欲しいのか気づけるようなディスカバリーエンジンが必要でないかと考え、開発しました。これは、ユーザに商品を3つぐらい提示して、どれが一番良いのかを聞き、選択の結果からユーザの好みを学び、選ばれなかった商品を入れ替える、ということを繰り返していき、ユーザ自身が本当に何を欲しいのかを見つけられるといった仕組みのものです。

この思いとしては、当時はかなりビッグデータという言葉が流行っていて、ユーザ数を集めてデータを広く見るっていう時代だったのですが、どこかでユーザ1人を深く見るという世界もあるのかなと思って作りました。まあこれはデモまでで終わってしまったのですけどね。

というところで、かなり幅広くデータ分析をやっています。なので、強みとしては、様々な分野における分析ノウハウを持っているところや、実用化というか、アクションに結びつけるというところがあります。

お試しでデータ分析ができるサービスを開発

ソリューション開発の取り組みですが、なにかすごいアルゴリズムを開発して、このアルゴリズムで需要予測を全部できますとか、そういうソリューションを作る気はぜんぜんないです。

実際、よくお客さんから相談を受けるのは分析のアルゴリズムについてではなく、データ分析を始めた時に、データはなんとなくあるけど、分析者がいない、分析環境もない、プロジェクト体制もどうすればよいかわからず困っているということでした。

「分析環境がない」ってお客さんに言われると、僕らSIerなんかが喜んで高スペックなサーバや高いツールを持っていって、お金くださいみたいな話にしたくなるのですが、当然、最初は投資対効果がわからないので、大きな予算がつかないですよね。

そういう問題を解決するために、まずはお試しでやれるようなサービスが必要ではないかなということで、私たちは「Data Veraci(ダータ ヴェラーチ)サービス」を開発しました。

どんなものかというと、データ分析環境をクラウドで提供し、さらには分析ノウハウと分析者も提供しますというサービスです。

多くのお客さんには、データ分析を徐々に自分たちでできるようになりたいという思いがあり、一緒に分析できる環境を求められていたので、このようなサービスを提供しています。現在までに、ご利用いただいたお客様は20社ぐらいですね。

あとはDataRobot様とビジネスパートナーとして仲良くさせていただいており、DataRobotの検証などもやらせていただいております。

我々の感覚ですが、本当にDataRobotはすごいツールだと感じています。我々もデータ分析のモデリングノウハウをそれなりに持ってはいるのですが、我々が本気でやらないとぜんぜん勝てないぐらいの精度をDataRobotが自動で出します。

なので、データ分析の初心者では、DataRobotの自動モデリングにはまず勝てないと思います。また、基本的にはデータを入れただけで動くので、データ分析に詳しくない人でもかなり簡単に使えると思いますね。

あとDataRobotをみて感じたのですが、データ分析の自動化も今後進んでいくと思っています。実際に数理最適化って、数理最適化を解く最適化ソルバーというものがあるのですけど、最適化ソルバーを作る人ってもうあまりいないのです。でも、最適化ソルバーを使って現実の問題を解く人の方はたくさんいます。

同じようにデータ分析もある程度の部分は自動化されていくのかなと考えています。あと……時間が余っていますね、かなり早いペースでやっちゃいましたね。残りの時間は、所感で言いたいことを言ってしまいます(笑)。

DeapLeaningはAIなのか、という話題が最近良く出てきます。物議を醸すかもしれないのですけど、まだAIとは言えないのではないかなと個人的に思っています。次元圧縮とパターンマッチングの延長上かなと思って。

もちろんそれはそれで優れたものですが、いわゆるAIと言われると、僕のイメージの中では合わないし、何か足らないなと思っています。

スモールデータからの学習技術に注目

足りないと思う技術の1つとして、スモールデータからの学習技術があると思っています。現状の機械学習技術では、大量のデータからパターンを学ぶことはできますが、少量のデータから概念や知識を抽出して学ぶことはまだできません。

例えば文字認識でも、現状の技術だと見本データが大量に必要ですが、人間だったら少ない見本データから学ぶことができますよね。

まだまだ、人間がどうやって学んでいるのかわかっていないので、先になると思いますが、いずれスモールデータからの学習技術が発展するのではと思っています。

そうすれば、データ分析でやりたいことはあるのですが、それを実現するためのデータが十分にない場合でも、データ分析ができるようになると思います。

あとは説明する技術です。理由はよくわからないけど、答えが当たればいいというケースもたくさんあるのですけど。一方で、説明が必要となるケースもあります。例えば金融とかで与信の判断をする時に、「与信に落ちました、なぜですか?」って聞かれて、「わかりません」と答えるのは難しいですよね。

またこれはかなり先の話になるかもしれませんが、データ分析が世の中に浸透していくと、分析による差別の問題が出てくると思います。例えば、採用の可否を決める分析モデルに性別や出身地が考慮されているとすると、産まれた時点である程度就職先が決まってしまうという事が起きてしまいます。

それと、実際にモデルを利用している時の、効率的なモデルの運用や管理方法ですね。例えば、データ分析モデルを業務に使っている中、新しいデータで再学習したモデルに切り替えるのは意外と簡単ではありません。

再学習したモデルが安定しなくて、古いモデルにロールバックしたいケースもあると思います。現状では各システムの作りこみで管理しているだけで、共有的な管理プラットフォームはありません。

あとはデータ分析における技術者ですが、スペシャリストももちろん必要ですが、ビジネスにおいては、ジェネラリストがかなり重要だと思っております。

データを知っていて、ビジネスも知っていて、分析もある程度わかっていて、データ分析のビジネスを実現できる人がいなければ、なかなかデータ分析の企画が進まないと思います。一時的に外部のコンサルに頼むとしても、最終的には内部で育てていかないといけないと思います。

最後に協業方法ですね。自分たちで分析チームを抱えられるところはいいのですが、そうでないところは外部に委託しないといけないと思います。ただデータ分析者を雇うにはそれなりのお金がかかってしまいます。

かといって、やってみないと効果がわからないので、いくらまでお金を出せるかは事前にはわかりません。このような問題のためには、レベニューシェアなども考えていかないといけないと思っております。

司会:本橋様、ありがとうございました。

データ分析における日本の傾向は

司会:少し時間が余っておりますが、本橋さんどうしましょう。Q&Aをやりますか。じゃあ、すみません。時間がございますので、今のご講演いただいた中で、いろいろ質問が出てきたのですけども、会場のほうから質問を受け付けていきますが、よろしいでしょうか。

質問者1:たいへんおもしろい講演ありがとうございました。そちらのほうで説明する技術というのが、気になったのですけど。機械学習ってすごく説明がしやすい解釈性が高いモデルと、あまり精度が高くないかもしれないけど説明はしやすいモデルと、あとはブラックボックスですごく精度は高いけど、中はよくわからないというものがあると思うのですけど。

けっこう海外だと、精度重視であまり説明の必要がないけど、日本はかなり解釈性を要求してくるという話を聞いたことがあるのですが、実際にデータ分析をされて、やっぱりそういう傾向は強いのですか、日本は。

本橋:ありがとうございます。おっしゃるとおりで、解釈性を強く要求するのは、日本の特徴なのかなと思っております。具体的に言うと3つパターンがあって、ブラックボックスのパターンと、箱は空いてはいるけど中を見てもわからないというものと、あとは本当に解読できるもの。

やっぱり、日本では本当に解読できるものが好まれますね。日本の会社って、やはり現場が強いです。発注とかも、現場の人がExcelのシートをながめて決めていたりするので、データ分析の予測と違うと「なんで俺のExcelの結果と違う結果になったのか答えろ!」みたいな話が出てきますね。

とはいえ、現場のノウハウにもかなり価値はあるので、僕らがよくやる活用方法は、データ分析モデルの結果を、最終的に人がチェック・修正して最終結果として使うという方法が多いですね。

ただ将来もっと人手不足が深刻になってきたら、自動化になって、そうすると可読性が悪いものも使うことが許されるのかなと思っています。

質問者1:どうもありがとうございます。

司会:他にいかがでしょうか。

新商品の需要予測はかなり難しい

質問者2:おもしろいお話をありがとうございました。1つお聞きしたいのは、案件ごとの精度をどこまで追求するかみたいな話があると思っています。

例えば先ほどの新商品の需要予測のお話ですと、けっこうやりだすと、もっと精度を上げてくれみたいな話が、いろいろ出てくると思うのですが、そこらへんのすり合わせって、どう行われているか。おうかがいできればと思います。

本橋:ありがとうございます。かなり難しいというのが正直なところですね。最初の時点で決まるケースというのは、ほとんどないかなと思っています。

既存でやられている場合は、既存のものと比較して目標を決めたりしますね。そこから先の精度向上は、どこまでコストをかけますかとお客さんに聞くことになりますね。それで、正直そこまでものすごい精度を求めてくるお客さんって、あまりいないイメージがあります。

もちろん、分析対象が大きいとそうでもないのですけどね。例えば、何千億の石油を1パーセント削るのか、1.1パーセント削るのか、みたいな話とかですね。 そうでなければ、分析の精度がビジネスにものすごい大きなインパクトを与えるわけではないので、既存のものを置き換えできるかというところが、1つの指標なのかなと思っております。

あと既存ではやっていないケースでは、現場の人が見て、感覚的に大丈夫っていう、あいまいな判断基準でやる場合が多いですね。まあそこに明確な基準は無いので大変ですけど。とまあ、実際のところはそんなふうにやっています。

質問者2:ありがとうございます。

司会:はい。では次の方。

データ分析はまず小さいプロジェクトから始める

質問者3:分析のスピードについてうかがいたいのですけど。最近DataRobotさんの商品を使わせていただいて、お客様と課題解決をし始めているのですけど。幸いなことに分析のリスクモデルをすぐに現場に装着をして、試して、そのPDCAを回せる環境にいるのですね。

私も生で予測モデルを作る人間で、数週間とか数ヶ月とかかけてやっていたのが、1日の数時間でできてしまうので。昨日予測モデルを作って、今日実装して2〜3日試してみて、良ければそのまま施策を実行するとか、そういうスピード感でやり始められるという感覚があるのですが。

いろんなプロジェクトをやられていて、こういうものを使うとやはりスピード感がかなり上がっていらっしゃいますか。

本橋:そうですね。モデリングした後からすぐに業務に使えるというのはかなり衝撃的だと思っております。ただ特殊なケースもあって、工場の設備の中にモデルを入れ込まないといけないとか、そういうケースは自前で作るケースもあります。

あとは最初のデータの前処理は、やっぱり今でも大変ですね。実際そこに7〜8割くらい労力を使ってしまいますね。ただDataRobotを使うと、モデリングをいい加減にやってしまっていた部分が、労をかけずに精度の高いモデリングになるので、やはりそれは強みかなと思っています。

質問者3:ありがとうございます。おっしゃる通り、データの前処理のところの重要性がまた上がっているなと私も感じております。

司会:ありがとうございます。他にいかがでしょうか。

質問者4:営業に行くと、データ分析はすごい期待度が高くて、それでいいのかなっていうところがあったりして。そこから現実的なところに落とすのがけっこう大変だったりするのですけど。そこをどうやって現実的なところに落とし込んでいるのか、教えていただけますでしょうか。

本橋:けっこう大変ですよね。かなり夢を煽って広げている人たちもいるので。正直、けっこう辛いという思うことがありますね。

とはいえ今はお客さんがけっこう冷静になりつつあるのと、実際にやってみて失敗した話も出てきてはいるので、だんだんそういうケースは減ってきていると思います。

あとは、失敗する前提というと大げさですが、とりあえずやってみたい方には、すごく小さめのプロジェクトから始めてもらいますね。そして、プロジェクトの中で、現実のデータ分析を知ってもらいながら、徐々に修正していきますね。

質問者4:ありがとうございます。

司会:それでは最後の質問にさせていただきます。

大量のデータを別の方法で見ると新しいビジネス価値が生まれる

質問者5:すみません。特許のところだったと思いますけれども。個人の深いデータの時代が、これから来るのではないかと思って、開発されたという下りがあったのですけれども。たぶん個人的な感想になると思うのですけれども、どういう将来イメージを描かれているのか。できる範囲でお聞かせ願えたらと思います。

本橋:そうですね。きちんと考え切れてはないのですけど。結局今は相関性をとらえることに注力されがちで、「なぜ」がわからないことが多いかなと思っています。「なぜ」がわかるためには、例えば家を買う時も、この物件を見て、あの物件を見て、1週間悩んで、銀行のサイトに行って、ローンを見て、やっぱり購入金額を上げようかなと悩んで上げて、最終的にある家に決めたっていうデータが必要になると思います。

この個人についての深いデータから、この人は何を考えて買ったのかということがわかるようになる可能性はあると思います。例えば、銀行に行ったら意外とローンの利率が良かったから、グレードを上げた家を選んだのかもしれないなっていうところがわかるようになるみたいな感じです。

とはいえ、それがどうビジネスに生きるかというのは、まだわかりません。データや分析のコストもかかるので、コスト以上の利益が上がるのかという問題もあります。ですが、そういう深い理解をしようという取り組みは、今後は徐々に出てくると思います。

特に複数のサービスのID統合から、ユーザ1人に対する大量のデータを集めることができるようになり、ユーザの深い理解ができるようになって、新しいビジネス価値が生まれてくるのではないかと勝手な妄想というか、構想を持っています。

司会者:ありがとうございました。それではお時間となりましたので、本橋様ありがとうございました。

(会場拍手)