キーワードとして溢れているAIという言葉

森正弥氏:みなさま、こんにちは。今日は、みなさまにおもしろい話題が提供できればと思っています。

AIが、このトラックの主要な話です。AIは今、キーワードとして溢れています。AIという言葉自体には、明確な定義は存在しておりませんが、だいたい過去の、AIの定義を振り返ると、基本的にはその時代における最先端の技術によって実現が期待される情報処理そのものであろうかと思います。

つまるところ、それはコンピュータがやっていること、目指していることそのものですので、コンピュータがやっていることはすべてAIにつながっていくわけですね。ですが、そんなことを言いつつも、AIに対して人々の共通イメージみたいなものが存在しています。そのなかで今のコンピュータの技術のなかで、このあたりがAIなのだろうと人々は考えるわけです。

2012年に再発見された、ディープラーニングの非常に破壊的なポイント。その多くはほとんど理解されていないのですけれど、それによって現在の新しい、第3世代と言われているAIのブームが起きています。

かつ、それが実際に今のビジネスのシーンを大きく変えてきている。そういった話のなかで、私からは、今の世の中はAIの話がすごいいっぱいあるのですが、こんな話は聞いたことがない、今日は来てよかったと思っていただけるような、ちょっと自分でハードルを上げてますが、お話ができればと思っております。

非常に重要な問いがありまして、「革新をどう受け止めるか」ということがございます。実はAIに限らず、我々は不可逆的な、かつ今までの常識を変えてしまう技術変化には、何回か直面してきているわけです。今現在のAIも、非常にそういう要素があります。

1つ、ビデオをご覧いただければと思います。こちらは、2012年にディープラーニングが再発見されたときに、我々がやった画像認識の技術です。右側にあるのが、我々のCtoCアプリケーションの「ラクマ」(注:楽天の無料フリーマーケットアプリ)で、実際にお客様が売られている商品。それを認識させてみようということを2012年にやりました。

前作業をやるとディープラーニングの精度が落ちる?

(動画が流れる)

例えば、この(ベビー服の)画像を認識させると、「ベビー服の95センチまでのオール(つなぎ)である」という可能性を、99パーセントの信頼度で認識するんですね。次にこの(時計の)画像を認識させると「バッグ、小物、レディースアクセサリーの時計である」という可能性を、95.6パーセントの信頼度で認識する。

この(スニーカーの)画像を認識させると、ディープラーニングはメンズの靴、スニーカーである可能性が99.6パーセントだと言うんですね。これを我々が実際に軽くテストでやってみたら、異様な精度が出て、非常にびっくりしました。

(動画ここまで)

これは本格的に導入していかなきゃいけないということで、実際に商品画像を撮って、その画像がなんであるかを認識するのを、我々日本のラクマと、あとフランスにおける最大級のE-Commerce 企業であるPriceMinisterは、実は楽天グループなのですが、こちらのサービスにも導入して、リリースしています。

それだけではなくて、実は不正な商品を画像から発見するという技術にも、このディープラーニングの技術を使っています。

単に精度が高いから便利だという話だけではなくて、我々がこれをやったときに、非常に衝撃を受けたことがありました。と言いますのは、それまでの画像処理もそうですが、データにまつわる処理は、そのほとんどが前作業なんです。

データがどこになにがあるかを確認して、それを整理して、フォーマットがきちんと取れているかを見て、期待通りの値が入ってるのかを確認して、フォーマットが整ってなかったら整えて、それをきちんと分析にまわす。

ほとんどのデータにまつわる作業の80パーセントは、その前処理だったわけなんですけど、我々がこのディープラーニングをCtoC領域でやったときに発見した驚異的な事実は、前作業をやってデータを整えてしまうと精度が落ちるということなんですね。前作業をやらずに、ノイズの入ったデータをそのまま処理させたほうが精度が高いんですよ。

これはなにかと言うと、要するにノイズがノイズであるということを、ちゃんと認識するように学習するからなんです。整えてしまうと、なにがノイズかわからないケースがでてくる。

例えるなら、温室育ちの子どもに……やっちゃだめなことを教えずに、やっていいことだけを見せていたりすると、その子がやっちゃだめなリアルな環境にきたときに、いろいろ戸惑うみたいな話と同じで。

ディープラーニングをCtoC領域に適用した時、お膳立てをしてやると精度が落ちたというのはすごい衝撃で。なぜ衝撃なのかと言いますと、データにまつわる作業は80パーセントが前作業だと言われていたわけですね。それは本当に当たり前のような話だったわけです。

それをやったら精度が落ちる。つまり、業務プロセスが完全に変わってしまうわけです。ディープラーニングは基本的に画像認識への適用からブームが始まっているんですけど、今実は、我々はマーケティングの領域でディープラーニングを様々に活用していまして、そこでも従来の考え方を完全に変えなければいけないような発見をしています。業務プロセスというのを完全に見直さなければいけない、という問題意識をもってやっています。

今のAIも便利なツールだという考え方、あるいは所詮技術はツールでしかないから、プロセスはちゃんと従来通りのやり方を守って人間がやらなければいけないという発想をしていると、この破壊的な技術を本当に使いこなせる会社や、あるいは世代にあっさりと負けてしまう。

負けてしまうというか……次のジェネレーションでは、もうそれが当たり前になっている人たちの世界なので。今起きているその革新的な技術をどう受け止めるかということが、非常に重要であるというお話です。これは、またおいおい出てきます。

映画やテレビドラマの領域では、楽天の機械翻訳は世界最高峰

ところで、私は森正弥と申します。主に楽天では、技術戦略を担当する役員をしております。メインの職掌としましては、楽天技術研究所という組織を統括しております。

主にコンピュータ・サイエンスのPh.Dを中心に、かなり成長していまして、120名以上、世界複数拠点。東京、ボストン、パリ、シンガポール、あとサテライトとしてニューヨークに拠点を設けています。アカデミックな分野での研究を、楽天というビジネスフィールドで行うことで実証し活用を進めていく組織として推進しております。

例えば、その成果としましては、去年、楽天グループは企業としては世界ではじめて、ドローンデリバリーを実現しているわけですが、その技術スタッフとして関わっているのが、楽天技術研究所のメンバーです。独自の画像認識技術を搭載することで、日本の厳しいレギュレーションをカバーするセーフティランディングを実現したりしています。

先ほどの、画像処理を使ったディープラーニングのCtoCアプリケーションでも言及させてもらったんですが、実はさまざまなディープラーニングの応用もやっております。

例えば、シンガポール発の、「Rakuten Viki」というビデオストリーミングビジネスがあります。実はこれは、日本ではユーザーは多くないのですが、世界では200ヶ国以上にユーザーがいる非常にグローバルなビジネスになっております。

そこで我々、楽天技術研究所が作ったマシントランスレーション。機械翻訳技術をリリースしています。実際、さまざまな映画やドラマがあるんですけれど、その映画やドラマの字幕を他言語の字幕へ翻訳するということに使っております。

実は、映画やテレビドラマの領域に限りますと、我々の機械翻訳というのは世界最高峰の精度を実現しています。

楽天といいますと非常にドメスティックなイメージがありますが、今の楽天、そして楽天技術研究所は非常にグローバルに活動をしております。

例えば、シンガポール科学技術庁と一緒にAI人材を育成するプログラムに取り組んでおりますし、スタンフォード大学のAI・NLP研究の第一人者であるダン・ジュラフスキー先生と、自然言語処理に関する研究も行っています。

他には、今MITのレジーナ・バージレイ教授という、これまたAIの第一人者で、先月マッカーサー基金から天才賞を受賞された先生がいるんですけど、その先生とも共同研究をしております。また、筑波大とは一緒にAI等による新しいショッピング体験の研究をしていく実験室を、筑波大のキャンパスのなかに設けていたりしています。

人工知能を活用しなければ生きていけない

なぜそこまでするのかというと、我々には根本的な問題意識がありまして。人工知能を活用しないことには、もはや生きていけないという危機意識があります。これはリアルな危機意識として存在しています。

その中心的なテーマとなるのは、専門家が負けていくという問題です。専門家が負けていくということはどういうことか。一番はじめに、非常にわかりやすい例としては、AIの性能、精度が高くなっているという話。

1つの例として、楽天グループのエピソードをお持ちしました。楽天グループは70以上の事業が存在するんですけれど、そのうちの1つに競馬事業があります。実は楽天の社員も、競馬事業が存在することをあまり知らなかったりするんですが。

地方競馬の馬券購入システムを、楽天が開発していることからの事業でして、そこで、地方競馬を盛り上げるためのハッカソンというイベントを2年前に開催しています。

社外から、50名ほどの若い社会人や学生の方も集めて、地方競馬を盛り上げるためのアプリやサービスを考えてみましょうという、2日間のイベントだったわけです。有名な競馬コメンテーターも審査員にお呼びしました。

集まった50名の方々は、その場ではじめて会ったんですけど、9つのチームになって、アプリやサービスを考える。多くのチームは、パーティアプリみたいなものを考えたわけです。ソーシャルサービスと連動して、どうやって競馬の情報を流しながら盛り上がっていくか、ということを考えたりしました。

なかにはAIのファンクションを使ったチームもありまして。例えばおもしろいチームでは、みなさまの顔写真を撮りますと、あなたの顔に似た馬を教えてくれるというサービスを作ったチームがありました。そういう、地方競馬を身近に感じるようなサービスが多かった。最終的な審査では、やはりパーティゲーム、パーティアプリが選ばれたということです。

集合学習を活かして精度の高い予想アプリを生み出した

懇親会が終わったあとに大井競馬場で観戦しました。競馬博士も来ていたんですけど、競馬を見たことがないという方が多かったので、大井競馬場でレースを見ましょうと。

そのなかで、1つのチームが勝ち馬の予想アプリを作っていたんですね。「じゃあ実際に勝ち馬を予想してみましょう」ということになりまして、彼らのアプリで1位になると予想した馬が、第1レースで1着だったわけですね。

第2レースは、彼らのアプリで1位になると予想した馬が2着だったんですけど。実はこれ、最後までずっと1位で、最後にギリギリ抜かれたので、ほとんど合っていたようなものだったんですね。

第3レースは、このアプリで1位になると予想した馬が1着。それよりも私が驚いたのは、懇親会だからテーブルに分かれて座っていたんですが、私と一緒のテーブルに座っていた審査員の方々が、あっという間にいなくなっていて、気が付いたら、そのチームと名刺交換をしていたんですよね。やっぱりそういうフットワークが大事だなというのが、すごく勉強になったという(笑)。すみません、ぜんぜん違う話でした。

ポイントは、彼らは競馬のことをまったく知らなかったんですよ。このハッカソンに来て、はじめて競馬のルールも知ったという話だったんです。ただ、彼らはAI、機械学習の知識がすごくあって、集合学習と言われる、典型的な手法の1つを使ったわけです。

これは、ビジネスの知識を用いずとも、精度をどうやって上げていくかというところに適している手法です。逆に言うと、彼らは競馬というドメイン知識がないことをよくわかっているから、集合学習を活かしていこうというところに集中できて、非常に精度の高い予想ができたわけです。

決して、「AIで馬券を予想しましょう」ということが言いたいわけではなくて。これは非常にわかりやすい、身近なAIの話ですよね。例えばAlphaGoが、史上最強の碁のプレイヤーに勝ったという話は、まあなんだかんだ言って一般のビジネスからすると遠い話ではあります。

最近、そのアルファ碁がアップデートされてAlphaGo Zeroができて、歴史上最強の碁の棋士に勝ったとされたAlphaGo と100回戦って、AlphaGo Zeroのほうが100戦とも勝ってしまった。かつ、AlphaGo Zeroのほうが搭載されてるチップの数も10分の1少なくて、かつ、人間の棋士の棋譜データを一切なにも学習していないという、とんでもない話が最近、アップデートされています。

もう遠い世界にいっちゃったな、という話なわけですが、そういう遠い話ではなくて、非常に身近な話として、こういう競馬の話があります。2年前の話です。

ロングテールは、実は誰も見たことがないグラフになる

これは非常にわかりやすいです。専門家が負けていくという話なんですけど、実はこの話はあまり重要ではなくて。それよりももっと重要な話は、「そもそも専門家が誰もいないよね」という問題です。新しい状況に、我々が突入していっている話。

1つは、ロングテールの発展という問題です。ロングテールというのは、みなさん多くの方がご存知だと思うんですけれど、eコマースにおけるデータ分布に見られる状況です。

例えば商品の販売量を縦軸にとり、商品の売り上げ順位、どの商品がどれぐらい売れているかを横軸にとりますと、こういうグラフになると説明されます。

ですが、これは正しくない。と言いますのは、この縮尺で書いたら、実は横軸が何キロも続くんですね。なので、ロングテールというのは、実は誰も見たことがないグラフで、イメージとしてはこうなんですけど、これもまったく正しくないわけです。

重要なポイントは、それまで我々はさまざまなデータ分布を考えたときに、経済学的に、あるいはビジネス的には、パレートの法則というところを非常に意識していたわけです。

イタリアの経済学者のパレートさん(ヴィルフレド・パレート)が発見した経験則で、80対20の法則と知られていることもあるわけですが。例えば、売上の80パーセントは20パーセントの商品から生み出される。だから20パーセントの商品にフォーカスする、というような話です。

もともとパレートさんは、工場における故障品がどういうふうに分布しているかという分析から、普遍的にいろいろなものに成立する法則を発見したわけです。

どうやったらロングテールを克服するのかは、非常に難しいテーマ

ポイントは、ロングテールというこの現象は、80対20の法則とは異なる分布である。このテールがちょっとだけ売れている部分。例えば年間通して30万円とか、個々の商品の売り上げは少なくても、そういう売上の部分をぜんぶ積み上げると全体の売上の9割を構成するという分布なんですね。

つまり、20パーセントの商品に注目しても全体から見て大きな売上が構成されるという話ではない。まったくそうではないと。この延々と続く、けっこう小さくなっている値が全体の90パーセントを成しているという、まったく違うグラフなわけです。

これは多くにおいて我々の直感に反していて、非常にやりづらい。どうやったらロングテールを克服するのかは、非常に難しいテーマで。

例えば、データサイエンティストのチームを作って、ある商品を3ヶ月間PDCAをまわして、売上が上がるようにプランを立てました。その結果、年間30万円の売上が40万円になりましたと言っても、誰の給料も払えないですよね。

このテールというのは、本当に売上的には重要でないような商品みたいに見えるということです。なんですけど、それが全体の9割を成しているんだとしたら、つまり、全体に対して重要なのだとしたら、この全体の売上にたいして、どういうふうに我々はインパクトを与えればいいのかというところが、まったくわからなくなるわけです。これが非常に難しい。

結論を言ってしまうと、要するにAIを使うしかないんですよね、という話なんです。

ロングテールは、どんどん拡大しています。2000年にクリス・アンダーソンさんが発表された時点では仮説だったんですけれど、2008年に慶応大学の井庭先生と楽天技術研究所が共同論文を発表しまして、そこで実証されております。

ロングテールは実在するということをそこで確認していて、ロングテールには非常に興味深いいろいろな性質があることもわかりました。

2005年と2013年のコンクラーベ

ちょっとご紹介します。実は、ロングテールというのは更に普遍的なものとして拡大しております。なぜ拡大しているかというのは、わかりやすい話です。

(スライドの)この写真はなにかと言いますと、バチカン市国で撮られたいわゆるコンクラーベのときの写真です。

コンクラーベというのは、ローマ法王がなんらかの理由で亡くなられたり、退位されたときに、次のローマ法王を決めなければいけない。

空位があってはいけないので、枢機卿の方々がこの建物の会議室に近衛兵によって閉じ込められまして、次のローマ法王を決めるまで出てくるなという状態になりまして、ひたすら議論や投票する。その進捗が、上のほうから煙で出てくるわけですね。「新しいローマ法王が決まった」「まだ実は議論している」というようなお話です。その新しいローマ法王が決まるまでの進捗を、固唾を飲んで見守っている方々の写真です。

この写真は、実は2005年の写真です。コンクラーベは2013年にもありました。2013年の写真はどうなっているかと言いますと、こちらでございます。

なんか会場の反応が薄い(笑)。もうこんなの知っているから見せるなとか、そういう空気かもしれませんけど(笑)。みなさんたぶん、おわかりなんだということで。

これは世界的な現象なんです。どこに行ってもこうなんですね。すごく重要なポイントとしては、2005年にいる人々というのはその場にいる、固唾を飲んで見守っている人たちだったわけですね。以上だったわけですが、2013年の人たちとはまったく違うわけですよね。

もしかしたら、友達とLINEをして「ちょっと今コンクラーベ見てるんだけど、なんか煙が上がってきた!」みたいなことを言っているのかもしれないし、もしかしたらYouTubeやツイキャスとか、いわば動画配信をリアルタイムでやっているのかもしれない。ウィキペディアを使って、「そもそもコンクラーベってなんだっけ?」「過去のローマ法王ってどういうふうに決まったんだっけ?」ということを調べているのかもしれない。

常に世界の情報と繋がっていると、まったく制約されない

2005年の人と、2013年の人は、ぜんぜん違うわけですね。そうなったときにどうなるか。これはけっこう重要な問題で。実は我々の多くがいまだに人々、集団に対して持っているイメージというのは、2005年の人々の像、姿というわけです。

どういうイメージか。つまり、時間的、空間的に制約されていて、その制約されているなかから商品を選んだり、ものを選択したりしている人々。そしてその選択を、それがその人の好みであるとなぜか我々は理解してしまっていたわけです。

でも(2013年の)こういうふうに、常に世界の情報と繋がり、常に世界と繋がっている人になると、まったく制約されないんですよ。時間にも空間にも制約されない。

例えば、20年前、30年前は行ける場所、開いている店、その開いている店の時間、扱っている商品、在庫みたいななかでものを買っていたわけですが、データを受け取っている企業側は、「この客はこういうのが好みなんだな」と理解していたわけです。

でも果たして、これが正しいのか。例えば今現在になると、夜中にふっと気が付いて、商品を見ていたらいい商品があったのでクリックする。それが日本語で説明されていても、実はそれはスイスのカバンで、買ったときに、送料無料で、香港から送られてきたとか。それが本当に今は普通になっているんですよね。

そうなったときに人々のデータ分布というのは、どうなっているのか。つまり、これがロングテールの正体なわけです。

ところで、話が完全に逸れるんですけど、コンクラーベでローマ法王を決めるまで閉じ込められて出てこないというのは廃止されたらしくて。「ブラックすぎる」という理由らしいです。

働き方改革というのを、この世界的な歴史も影響を与えるんだなという。まったく……あ、ちょっとウケましたけど(笑)。

ロングテールの実像

実は楽天市場でビジネスをしたときに、我々はロングテールの現象は2008年のデータ分析でわかったんですけど、データでわかる前から、実際に現場でビジネスをしている人間は肌感覚でわかっていることがありました。

例えばこれは、和歌山県の北山村という飛び地で売っている柑橘系の果物です。

これは、四国のある店舗さまが売っているリアルな甲冑です。着ることができる甲冑で、1体200万も300万もします。これは静岡県のある店舗さまがありまして、そこでお芋を売っているんですけど、そこが干し芋を1,500袋売り出したりしています。

重要なポイントは、この柑橘系の果物も鎧も干し芋も、人気商品すぎて買おうと思っても買えないという話なんですね。例えば、リアルな甲冑を着てなにをするのかよくわからないんだけど、6ヶ月先まで予約でいっぱいで買えなかったりするんですよ。「お父さん、週末に鎧を買っちゃうぞ」って決意しても、買うことができない。

この干し芋は、1,500袋。1,500袋の干し芋が売られたら、1分で完売するんですよ。それを待ち構えている人たちがいて、売られた瞬間にみんなで買って、1,500袋が1分で完売するんですね。

iPhoneやプレイステーションの新機種ならわかりますけど、「みなさんネットの裏側で干し芋を待ち構えますか?」っていう。でも、なによりもびっくりしたのが、この干し芋を待ち構えて1分内で買った人のなかに僕の奥さんがいたという(笑)。「すごい、ここにいた!」と思ったんです。

ただ、これは重要な示唆があります。例えば、新人の方になにかを指導するとき、商品企画をその新人にやってもらうという指示を出す。そして新人から提案されてきたものを見たときに、「お前さ、これ自分がお客さんだったら買うと思う? 少なくとも俺がお客さんだったら買わないね」みたいなフィードバックをする話は普通にあって。

それは非常に重要な指導だったわけですけれど、じゃあみなさんじゃばら(例に出した柑橘系の果物)を買いますか? 鎧を買いますか? 干し芋を買いますか? という話なんですね。でもこれは、人気商品で買おうと思っても買えないんですよ。直観に反する。これがロングテールの実像なんです。

近代経済学の用語「情報の非対称性」

例えば、(買う人が)旭川で1名いて、青森県に3名いて、山梨県甲府市に2名いて。でも、足し合わせたら常に100人の人がそれを買っている。そうしたら他の人は誰も買えない。それがネットの力であり、ロングテールの分布である。

こういうこととあわさってかなり新しい状況がやってきて、それが新しい情報の非対称性という問題です。これはどちらかと言うと、直感的には理解しやすい話かと思います。

情報の非対称性という言葉は、近代経済学の用語です。経済学といえば、古典的にはアダム・スミスさんの「神の見えざる手」みたいな話が有名といいますか、経済学の基礎ですね。需要と供給が一致するところで価格が決まり、マーケットが均衡するという話です。

その話が発展していき、例えば1つのマーケットで、需要と供給が一致するところで価格が決まって均衡すると、その均衡がほかのマーケット、ほかのプロダクトのマーケットにも伝播していき、すべてのマーケットが均衡するというのが、均衡原則や均衡原理という話ができたわけですね。

というふうに、経済学が進んできたわけですが。近代に入って、1900年以降になって、「そもそもその仮説は合ってないんじゃないの?」という話がはじまってきたわけです。「需要と供給が一致するところで価格なんて決まってないよね」という指摘が出てきたんですね。

そのなかで、「そもそもアダム・スミスは成立しない暗黙の前提を置いてるんじゃないの?」という話です。それが、この情報の非対称性という問題です。つまりアダム・スミスは、暗黙のうちに売り手も買い手も同じ情報を持っているという前提を置いていて、その前提がないとそもそも売り手と買い手が一致するところで価格なんて決まらないんじゃないか、という指摘があったわけですね。

この情報の非対称性を導入して、経済学の批判的な見直しがあったんです。例えば、中古車市場での指摘というのがあります。中古車市場っていうのは要するに、どの中古車がどういう具合なのかということは売り手のほうが分かっているし、中古車のどこに気をつけて見るべきか、ということは、買い手にはなかなかわかりにくかったので。

つまり、圧倒的に売り手のほうが情報を持っているという状態のなかで、マーケットはどうなるか。多くの場合においては、基本的には売り手のほうが情報を持っているなかでどうなるか。

基本的には、需要と供給が一致するところでは価格は決まらないし、常に悪い商品がよい商品をマーケットから駆逐するような感じで選択される、というケースもわかってきたわけです。それが市場の失敗と言われる話で、レモンの原理とか言われたりもするんですけど。

多くの場合において、売り手のほうが情報を持っているので、常にマーケットは失敗する。そうならないように、例えば公正取引委員会のような監視活動があったり、あるいは政府、行政が公共的なものと民間的なものとの位置付けや役割を分けて、政府の役割ということをやってマーケットがなるべく機能するようにしようという話になってきたわけですね。

インターネットによる逆転された情報の非対称性

ここまでは情報の非対称性の話なんですが、2000年以降、新しい情報の非対称性が発生しているという指摘が生まれてきました。それが、インターネットによる逆転された情報の非対称性です。

それはどういう話なのかと言いますと、例えばみなさんはカメラがすごく趣味で、カメラの量販店に行く。そこに行ったときにスタッフの方が出てきて、「カメラがお好きなんですね。じゃあ、ご説明しますね」と説明をされたときに、こういう風に感じることもあるかもしれない。「俺のほうが、このカメラに詳しいんじゃない?」っていう。

そういうことではなくて、例えばみなさんが、100万人に1人かかるような病気にかかる。非常に重大な病気です。そうすると、みなさんはインターネットの力を使ってすごく調べるし、ソーシャルネットワークで繋がっている友人、知人にもすごい聞きますよね。自分の人生の一大事だから。とにかくインターネットの力を使って調べ尽くしてやるわけですね。そして、ある日病院でお医者さんの診察を受けたときに、「この医者より俺のほうが詳しくない?」みたいな。

でも、それは実は当たり前で。カメラの量販店のスタッフさんもお医者さんも、1日に何百人、何千人と会い、へたすると何万人のニーズを見なければいけない。そのときに特定のプロダクトや、10万人に1人、100万人に1人の病気を深く詳細に調べている時間はないんですね。なぜならば、多くの人がどういう病気でどうなるか、次はなにをしたらいいのかということにフォーカスしなければいけないから。

でも、カメラの大好きなお客さん、あるいは患者であるみなさんからすると、自分にとってはこれが重大事であって。とにかくインターネットの力を使ってひたすら調べますよね。

つまり、現代というのは関心のレベルが、重大性のレベルがその人の情報量を決めている。それによって、売り手よりも買い手のほうが常に詳しいという、まったく逆の状態が起きているわけですよね。

これは非常に本質的な問題なわけです。企業がなにをしようと、商品を売ろうという行為のなかには、結局買い手一人ひとりの考えていることは、本質的にもうわからなくなっている。なぜならば、インターネットの力を使って人々はそれぞれの関心事に個別化してしまっているわけです。

従来のAI技術は日本語の処理の質が欠けている

これをどうするかと言ったら、AIの力を使うしかないんです。その問題意識を持って、我々は地道に個別のデータをAIに理解させるということを試みてきました。でもこれが非常に難しい。

商品のデータを理解させるところからスタートしますけど、商品のデータと聞くとみなさん、理解させるのは簡単かなと思うかもしれないですけど、実はそうではなくて。(スライドの写真の)これは実際に売っているロマネ・コンティなんですけど、これが商品解説文なんですね。

「日本国内の運送会社のすべてから配送を断られました。そのため私自身が飛行機でジュラルミンケースで、助手席に立てて運んできました。あまりにも高級なワインのために、保険をかけられても破損する確率が高いという理由でした」。これ、商品そのものの説明じゃないんですよ(笑)。

でも、この店舗さんの情熱は伝わってきます。あと、価格が1,500万円。「残りあと1個」と煽られているのも気になるんですけど(笑)。つまり、このように商品の個別のデータはやはり一筋ではいかないので、日本語をどう理解していくか、情報をどう選別していくかみたいな技術を整えていく必要がある。

とくに日本の商品というのは、まさにロングテールであり、多様です。例えばこの白瀧酒造の「上善如水 純米吟醸」、従来のAI技術、自然言語処理ではうまくいってくれなかったんですね。

形態素を解析しようにも、白瀧、上、善みたいな感じで文字が切れて、純米が純と米で切れちゃったりして。要するに、これが純米であるとちゃんと認識できる処理にならないんですよ。これでは純米で検索しても、検索がヒットしないようになってしまうわけです。

ですが、我々がちゃんとこのような日本の商品名に適した日本語処理をして商品名を理解するエンジンを作りました。例えば、「白瀧 上善如水」というふうに言葉が切れる。吟醸のところが変化する可能性がある。本吟醸が大吟醸に変化していくということを、ちゃんと理解できるようなエンジンを作っています。

これはちなみに、オープンソースで公開しております。これもそうなんですね。「うっとろりんとする」。これは実は、しょこたん(中川翔子)さんが発明した言葉なんですけど。「うっとろりんとする」と言われると、なんとなくみなさんわかりますよね。うっとろりんとしているんだなということがわかるんですけど(笑)。

これが、従来のコンピュータの言語処理ではわからなかったわけです。(楽天のエンジンでは)「うっとろりん」という状態であるとして、さらに「とする」は変化しうる部分なんだよと理解している。

評判の分析をするのは意外と難しい

実際に我々の商品、eコマースの商品は我々自身ではなくて、45,000店ある店舗様がそれぞれ売っているわけで、データの精度というか粒度は、均一ではないわけですよね。そこからマスターデータを自動的にAIが作り出すということを、2012年に行いました。これは簡単なようで実は大変で。

例えば、ワインだったら、どういうデータ項目があるか、例えば、色、味わい、ぶどうの品種、産地というデータ項目があることが一般的にわかりますよね。でも、鎧の場合だったら、なにが鎧のデータ項目になるかわからないじゃないですか。でも、わからなくてもAIにそのデータ項目をも作らせるということをやって。

つまり、データの値だけではなくて項目もAIに作らせるということをやって、すべての商品を整理するということを、2012年に一気にやりました。その結果、なんの商品データが間違っているのかということも、AIが指摘できるようになりました。自動的に訂正した結果、間違ったデータを登録していた、あるお客様、店舗様の売上が20パーセント向上するというような効果もありました。

そういうことができるようになり、商品同士のグルーピングというのも非常にしやすくなりました。例えば、「この商品は一緒に買われる商品だよ」「この商品は、買うときに比較される商品だよ」と。

「この商品群というのは、一見関係がないように見えて、実は30代後半のガンダムが好きな男性にヒットする」とか。そういう商品同士のグルーピングもできるようになりました。さらに商品同士のグルーピングから、お客様が商品をどう理解しているかという目線で、商品をさらに分析していこうとなりました。

つまり、評判の分析ですね。これは意外と難しくて。単純に、「この商品がいい、悪い」ということだけではなくて、この商品は会社に向いているとか、この商品はプライベートに向いているとか、この商品は贈答用に向いているとか。いろいろあるということですね。

かつ、例えば店舗様のアフターサービスがよかったとか、商品とは直接関係のないような付帯情報もあるわけですね。どういう軸でその商品を分析しているのかということを的確に理解して、どういう評価項目なのかということを分析し、かつ総合的に、それはポジティブに評価しているのか、ネガティブで評価しているのかということも理解して、評判情報を分析して、それを商品の理解に反映しました。

ちなみに、それによってレビューの分析もできるようになって。実はこの質の高いレビュー、ポジティブに最終的には評価しているレビューと、ネガティブに評価しているレビューを提示するということをやったところ、年間で数百億円流通が上がるという。要するにこれは、本当にAIによる言語処理だけで売上を創出するということです。

仮説をAIが立てたら売上が非常に上がった

さらには、商品が理解できた。お客様がどういうふうに商品を見ているかということも、理解できるようになった。そこからさらに、お客様のさまざまな行動、要するにどのページを見ているかとか、どういう計算をしているかという情報から、まだこの商品ジャンルは世の中に存在していないけれど、お客様の頭のなかにはどうやらあるっぽい、という隠れたニーズを抽出し、それに基づいてAIにマーケティングさせるということをやりました。

例えばここに、「Sweet Feminine」とか「COOL&SEXY」と書いてあるんですけど、これは実は予め人間がが作ったものではありません。

コンピュータがユーザーの行動から、「この商品ジャンルは存在しないんだけれど、ユーザーはこれを求めている。ニーズがある」というのを分析、抽出して32パターン作ったんですね。

それらパターンを見て、じゃあこれは「COOL&SEXY」と名付けていいね、「Sweet Feminine」と名付けていいね、とあとから名前を付ける。つまり、仮説をAIが立てるということをやってキャンペーンをやったという話で、売上が向上したという結果になりました。

さらには、我々はニーズの分析ができるようになったので、ここでさらにディープラーニングを活用していくことで、クライアント企業が、例えばビールが好きなんだけれどコンビニでビールを買うお客様を見つけたい、みたいなすごく曖昧なニーズでも、「このお客様のグループが、まさにコンビニでビールを買うお客様です」ということを抽出する技術を作りました。

実はこれ、潜在顧客抽出というマーケティング手法として提供しています。これはディープラーニングを使っているので、それがどういうロジックでそうなっているかが、見てもわからないんですね。もうAIが非常に複雑に、ある意味、ぐちゃぐちゃに計算しているので。

人間が理解しやすい手法ももちろん同時でやっているんですけど、それよりもはるかに精度がいいです。それはなぜかと言うと、結局のところもう人間には、企業には、売り手にはお客様のことはわからないという大前提が存在するんです。

さらに、そこから時系列にデータを見ていくということもやりました。例えば、楽天は2億5,000万以上の商品を扱っているんですけれど、その商品とさまざまなトレンドがどうリンクしているかを人手で分析すると大変なので、これも自動的に、同じような動きをするものを抽出するみたいなこともやっています。

例えばステテコって父の日にしか買われないらしいんです。みなさんはご存知でした? これ、僕的にはすごい感動だったんですね。なんと言っても、研究所の社員は8割以上がノンジャパニーズでして、この感動を伝えることができなくて非常に残念に思います(笑)。トラディショナルファッショナブルアンダーウェアとか言っても、クスリともしないんです(笑)。

そういう技術だけでなく、楽天市場の開発部隊においては、2億5,000万ある商品の動向をすべて分析・予測していくというシステムを作り、さらにはどういうタイミングでニーズが変動して、それがどういう価格帯に反応するかということを見て、ユーザーごと、商品ごとに在庫を引き当てて、どういうクーポンを発行すればいいかを、自動的に全部計算するシステムを作っています。これも店舗様に提供を開始しております。

新しい枠組みを作るのは人間の仕事

さらにそのような技術を、金融のマーケットにも応用していまして。言える話ですと、景気動向の予測をやっております。これは、内閣府が発表する景気動向の予測の3ヶ月前に、3ヶ月後の内閣府がどういう予測を発表するかを誤差0.4パーセントで当てるという予測ができております。

そういうような話をしていくと、「じゃあ人間はこれからはなんの仕事をするんだ?」という話に、最終的にはなりますよね。それに対しては一つの答えがあります。今までさまざまなマーケティングの手法をAIにやらせたり、予測をAIにやらせるということをやってきたんですけれど。

まったく当たらなかったものがあったんですね。それはなにかと言いますと、秋元康さんが関わるものはすべて当たらないということがありまして。やはり秋元康さんはすごい天才なんですよ。従来の商慣習にないものを、どんどん生み出していくんですね。

例えば、握手券付きCDとか。つまり、ものを売るということではなくて、新しい需要を作り出すというか、新しい枠組みを作り出すということをやっているがゆえに、秋元康さんが最初にやることというのは、まったく予測できないんです。

それはまさにそうで、先ほどAlphaGoがアップデートされてAlphaGo Zeroになって、過去最強の碁のプレイヤーに勝ったAlphaGoに、100回戦ってAlphaGo Zeroが勝つという話になっても、AlphaGo Zero自体は碁よりおもしろいゲームは作れないわけですよね。

ゲームを作るのは人間の仕事なんです。新しい枠組みを作るのは、人間の仕事なんです。新しいビジネス、新しいスキーム。スタートアップを作っていくとか、新しい事業を起こしていくのは、やはり人間の仕事で。そのなかで生み出された枠組みのなかで、大量のデータを処理するというところに、AIの仕事がやってくる。

そういう意味で、人は創造性を持っていて、AIはロングテールのビッグデータを、個別のデータも処理できる。そういう、まったく違う役割が存在するので、ここをどうコラボレーションしていくか。あるいは統合していく環境を作っていくかということが、今後非常に重要です。そういうことに向けた研究もやっていこうと思っています。

ということで、ご清聴いただきまして、ありがとうございました。

(会場拍手)