「メルカリ×Engine」の3種類の燃料

Mok Oh氏:おはようございます。Mok Ohと申します。「メルカリ×Engine」についてお話したいと思います。「Engine」とは何かと言えば、燃料によって前に進むデバイスです。「メルカリ×Engine」の3種類の燃料についてお話します。

最初は「発見×交換」というエンジンです。次は「データ×マシンラーニング(fML)」で、この「f」というのは関数のことです。3つ目は「人×文化」のエンジンです。

核となる「発見×交換」からオートメーションする必要があります。つまり、マシンラーニングから「発見×交換」にかけての改革が必要です。

まずはメルカリの特色である「発見×交換」のエンジンについて話します。こちらがバイヤーで、何かを購入しようとしてメルカリの店を発見します。

これがバイヤーのたどることになる典型的な流れ(カスタマージャーニー)です。

メルカリのおもしろいところは、販売者ルートもあるところですね。(販売者の)この女性は、いろいろなものを所持していて、彼女もまたメルカリを発見して売ります。

リスティングして、売って、送る。これが販売者側の一連の流れとなります。バイヤーと販売者を見てみると、パラレルな関係にあることがわかるでしょう。バイヤーは欲しがって、販売者は所持している。そこにお互いの「発見」が生じている、ということです。これが我々のコアとなる部分のひとつです。

次に、リスティングとショッピング、購入と販売、発送と入手。これらが「交換」にあたります。メルカリの発見が販売者もバイヤーも雇用もあるという状況をもたらした、まさに「魔法」です。

1億もの商品データをマシンラーニングでマッチングさせる

ここからは「データ×マシンラーニング」について少し話していきます。先ほどの核(発見×交換)から、とにかくたくさんのデータが得られます。

こちらは、2017年から2018年のアメリカ合衆国におけるGMV(流通総額)です。月ごとにボリュームが上がったり下がったりしていて、このうちのひとつが未来に向かっていて、テキサス州のヒューストンです。とても激しく現れています。

(モニターの動画を指して)次に見ていただきたいのは、ヒューストンのトランザクションです。青いところは出荷のトランザクション、赤いところは入荷のトランザクションを示していて、はるばるハワイまで送っている人がいるのがわかります(笑)。

(会場笑)

他にもたくさんの物が送られてきているわけです。これだけ大量のトランザクションデータというものを持っています。これ、第1四半期だけなんですよ。

それではデータの詳細部分について見ていきましょう。販売者が商品を持っており、購入者がそれを手に入れる。矢印はそれぞれの挙動を示しています。これがデータベースの核となっている部分です。これが我々です。

しかし、我々はここで立ち止まることなく、実際にどのようなデータベースがあるのか理解するため、(アメリカの)外に出てみます。だれかがメルカリに出品したデータベースが全世界にあって、商品データベースをマシンラーニングでマッチさせています。1億もの商品データです。

そこからデータを送って構成しておりますが、さらにその他にも販売者やバイヤーにも届いて、トランザクションのデータとなります。データだけでは不十分なので、マシンラーニングが必要となります。このマシンラーニングによって、「魔法」が実現されます。

できることはいっぱいあるのですが、混乱すると思うので全部はお話しないでおきます。データとマシンラーニングについては以上です。

購入者や販売者の好みや共通点を予測する

Genome(ゲノム)エンジンについてお話しします。これはかなりシンプルで、「f」(ファンクション)にはインプット、そしてアウトプットがあります。もしこれがアイテムだったらどうでしょう。 全てのデータを人間の読めるものからマシンの読めるものへとn次元ベクトルとして変換します。

これはGenomeという一続きの特殊な番号で、アイテムについて説明するものとなるのです。メルカリのすべてのリスティングをチェックしたとして、そのGenomeがこうなっていて、100次元あるということです。つまり、クラスター化するということですね。

いろんなパターンができて、ここにはシャツがあってオーダーできる。他のシャツもあって、ドレスもあって、ズボンもあって、他のは少し遠いところにあります。こういったクラスタリング自体はフラットになっているけれど、実際は階層化されていて、近しいものはグループになっているということです。

これが100次元あるところを3次元に落とし込みます。ラップトップがあって、スマホがあって、これを完全にオートメーションにするということですね。

iPhone、服、ナイキです。面白いことは、メインブランチにあるiPhoneがラップトップやスマートウォッチには分岐せず、服の方に行っているということです。 非常に興味深いことです。そしてこれは事実です。

ではこういった関数を使って私たちには何ができるか。ここに類似性という関数があって、シャツと靴はどう類似しているのかを示しています。類似性は0.78だから似ているねと言えます。それに対して、シャツとラップトップでは0.12になりました。つまり、「このシャツが好きならこの靴も好きだろう」ということが言えるのです。これらはデータとマシンラーニングで自動観測できることです。

さらに、購入者や販売者(の情報)もGenomeに落とし込むことが可能です。ということは、例えば優秀な販売者が1人いたとして、(Genomeを利用し)似たような販売者たちを見つけてきます。

すると「その販売者がこんな商品を売っていたので、似たような販売者たちも同じような商品を販売しているかもしれない」ということをはじき出してくれるのです。

データサイエンスによって発見できるもの

もうひとつのデータを見てみます。ここに見えているすべてのドットはバイヤーを示していて、何千というGenomeを2次元に落とし込みました。これをズームしてみると、購入者はナイキを購入していることがわかります。男女差を見ていくと、男性にも女性にも購入されているとわかります。

下のドットを見てみましょう。ファッションやFunko(米国の玩具)があります。そしてここに任天堂です。任天堂とFunkoは主に男性によって購入されています。女性向けファッションのところにはピンクの点が、つまり女性によって購入されているのがわかります。

クラスタリングによって自分に非常に似ている身近な人がわかるわけです。分析すればするほどさらに見えてくるものがあって、これがコンピューターサイエンスのメリットとも言えますが、 実際には人間が中に入り見ていかなければなりません。

女性の購入者の場合、ほとんどがファッションやアクセサリーです。どれがグロースプロダクションなのかわかります。

男性の場合はテクノロジー、コレクション、住宅関連が伸びています。こういったことがデータサイエンスによって発見できます。これらがGenomeです。

次は「予測」エンジンについて。予測というのは、質問したらオラクル(神託)を与えられるということですが、これは72時間後に売れるのかという予測です。どれくらいの確率で売れるのかというようなもので、「Sellability Score」(売れやすさ点数)と私たちは呼んでいます。

これは非常に興味深いデータなのですが、これらのドットはその1日でリスティングされた全てのデータで、どれくらい売れやすいかを表示しています。実際の様子を上から下にマッピングしてみると、私たちが販売を予想できたものはトップに表示されています。そして売れなかったものは下に表示されます。

これで何ができるかというと、「ねえ、あなたのはSellability Scoreが低いからもっと写真をアップしたり商品の詳細を追加した方がいいよ」とか「これはSellability Scoreが高いから検索でヒットしやすくなってるよ」なんてデータをもとにレスポンスすることができます。

キャンセルや購入される確率も予測可能

ここでまた別の予測です。どれくらいの確率でキャンセルされるかということです。リスティングされたシャツを誰かが買おうとしたがキャンセルした。こういったことは稀に起こります。こういった行動を予想したいわけですね。

こちらも非常に参考になった注目すべきデータですが、全てのドットは実際に売れたもので、同じくのアイテムへの予測も上から下に表示されています。

これを重ねてみると、上にあるものはキャンセルされるだろうと予測したもので、実際にキャンセルされました。つまりキャンセルも予測が可能だということです。

リストにはあるもののキャンセル率が高いということが言えます。そして、こういったものは訪問者におすすめできるものにはなりません、よくない体験となるでしょうから。

ここでできることはたくさんあります。そして、たくさんの質問があります。たとえばこのアイテムは偽物か、(ちなみに)これはルーカスが取り組んでいます。転売かどうか、つまりオーナーがこのアイテムを所有しているのか。もし私が販売者なら、ほかのどのようなアイテムを売るべきかというようなことも予測できます。

パーソナルなことにも言及できて、もし私がこれを売れば、この人が買う確率はどれくらいかということまでもわかります。演算をもとにパーソナライズすることも可能ということです。こういった「魔法」を働かせるために、ビッグデータとマシンラーニングが必要なのです。

メルカリの「魔法」を実現するプロトコル

では「データ×マシンラーニング」を支えるものとして「人×文化」についても話していきましょう。みなさんご存じのとおり、「人×カルチャー」というのは最も重要な事柄です。我々の4つの拠点として、東京、アメリカのポートランドとパロアルト、最近はボストンにも。そこには1人しかいないんですが(笑)。

(会場笑)

まあそんな感じでオフィスを始めました。

(どの拠点も)みんな情熱にあふれていて、本当に素晴らしいチームなんです。

テクノロジーアドバイザリーボードもいて、MITの教授も参加しています。左はフレド教授(Fredo Durand)、コンピューテーショナルフォトグラフィです。ボイチェフ教授(Wojciech Matusik)はマシンラーニングとコンピュータビジョンをしています。素晴らしい人がボストンにもいます。

最後に、チームをどのように分けているかというと、テーマごとです。このようなスクラムテーマがあり、販売者と購入者、両方のユーザーのジャーニーに合わせ、グロース、サーチ、コンバージョン、コンプリージョン、サポート、ファンデーション(の6つ)を展開しています。

すべてのプラットフォームにチームもあります。マシーナリーやデータについてたくさんお話ししましたが、「人」なしでは私たちは何もできません。チーム力が必要なのです。ずっと言ってきた「魔法」というものを実現するのは「人×文化」です。まず「人×文化」がイノベーションのためにあり、オートメーションのためのデータがあり、そして「発見×交換」に還っていく。

そういった構造になっています。これがプロトコルでした。ありがとうございます。