リクルートテクノロジーズの石川氏が登壇
石川信行氏(以下、石川):こんにちは。ご紹介ありがとうございます。リクルートテクノロジーズの石川です。
(会場拍手)
私の自己紹介のスライドがありますので、簡単にご説明させていただきます。ここで言いたいのは、私、昆虫が大好きでして。みなさん、NHKのEテレの『昆虫すごいぜ!』って番組を見たことがある方いますか? あれおもしろいですよね。私は、本当はああいう仕事をしたかったんですけれども、なぜか今AIをやっています。
これは、好奇心さえあれば、専門家じゃなくてもAIという仕事はできるんだよ、という夢を与えるスライドでございます。ここみなさん笑うところなので、ぜひ笑っていただいてください。
今日の内容ですが、こんな感じで進めていければと思っています。はじめに簡単にリクルートのご紹介をさせていただき、次にリクルートにおいてAIがどういうふうに始まったのかをちょっと歴史を振り返ってお話ししようと思います。
次に、事例をもとに、AIや機械学習の技術がどういったものに使われているのかをお話しします。最後に勘所をちょっとお話ししてまとめられればと思っています。よろしくお願いします。
リクルートという会社をご存じの方が多いかなと思っておりますが、はじめに簡単にご説明します。我々の会社は、カスタマーのみなさんとクライアントのみなさんの情報を、情報誌やWebサイト、アプリケーションとマッチングするビジネスを展開しています。
これらのさまざまなドメインで事業を展開しておりまして、ライフイベントのような人生に一度ないし二度のイベントで情報を提供することもあれば、日常の消費領域でも情報提供をしています。
このリクルートという組織の中で、我々リクルートテクノロジーズがどういう会社かといいますと、先ほどの媒体を展開している事業部に、技術を提供する立ち位置です。その中の1つにビッグデータの部門があるということを覚えていただければと思います。
AI発展の歴史は、データ解析と深い関係がある
最近の組織体制ですが、このリクルートテクノロジーズの中に、私が率いている「データテクノロジーラボ」という部署があります。ここは簡単にいうと、いろんな媒体領域にデータテクノロジーを提供して活用を行う部門もあれば、R&D(Research & Development)を行う部門、インフラを提供する部門もあります。
全体の組織ミッションとしては、「Research & Development(R&D)」と掲げていますが、みなさんが思う単純な技術のR&Dではなくて、データテクノロジーを検証・開発して、必ずビジネスに活用用途を見いだす、といったところをミッションにしています。
今回、私がマネージャーを兼務している「プロダクト開発グループ」を中心に、事例をお話ししていこうと思っています。最初に、リクルートにおいてAI、機械学習というものがどういうふうに利用が始まったのかをちょっと振り返ってお話しできればと思います。
実は「(AIや機械学習の)歴史の出発点はどこかな?」と私が振り返ったときに「ここなんじゃないか?」と思うことが1個あります。それはHadoopなんですね。このHadoopを導入する時に、データの利活用という観点が見いだされたというか、浸透していったことは考えられると思っています。
みなさんご存じだと思うんですけど、実はこのAI領域の発展は、データ解析の領域とかなり関係性があると思っています。
このHadoopを使って、例えばバッチ処理を早くしたりデータを1箇所に集めるというスタンダードのメリットは享受するんですけど、私が注目したのは(スライドの)下に書いてある、このファイルシステムの特徴なんですね。
このファイルシステムは、たまたまHDFS(Hadoop Distributed File System)というファイルシステムであって、きれいなデータ、いわゆる構造データを集めるだけじゃなくて、音声とか画像とか動画とか、こういった非構造のデータを集めることもできた。今振り返ると実は、ここがトリガーだったんじゃないかなと思っています。
また、これを推進する追い風となったリクルートならではの「ボトムアップ」という文化も、大きく発展をけん引したと思っております。ここも随時、お話しします。
画像のビッグデータを活用するためにディープラーニングを始めた
こういったところでHadoopにデータがどんどんたまってくるんですね。その中でとくに多かったのが画像なんです。画像のデータをどう使うかという発展になっていったわけですね。
思考の一発目として注目したのは、ネイルのデザインのデータです。これは別に女性受けするから選んだわけではないんですけれども。「このネイルのデザインを使って、類似のネイルデザインのレコメンドとかできないのかな?」みたいなところを、我々メンバーのレイヤーで考えて実装していったんです。
実は、このネイルのデザインを判別するのに古典的な特徴量を使って、最初はSIFT(Scale-Invariant Feature Transform)とか、SURF(Speeded Up Robust Features)で、ネイルのデザインの特徴を抜いてきて、デザインを推定するということをやっていたんですが、なかなかこの特徴がうまく取れない。簡単にいうと、デザインを当てられないという事象が起きてたんですね。
そのなかで、ちょうどこの頃「Caffe(カフェ)」というディープラーニングのフレームワークがあり、それが発展してきたというか、ちょっと流れに乗ってきた時代でした。なので、「これを使ってネイルのデザインを判別したらどうだろうか?」というところから時代は動いていったのかなと思っています。これで我々は初めてディープラーニングに触れていったということです。
こういうことをやっていくと、いろいろ気づくことがあったんですね。例えばディープラーニングとデータとなにか課題があったときに、けっこう多くの課題をこのフレームワークで解決できそうだと思うわけです。その可能性について、期待に胸を膨らませたということです。
しかも、それをもっとひいてみると、このフレームワークの多くは、人間の作業をある程度代替しうる要素を持ち合わせているんだなと気づくわけです。それで、我々はこれをうまくフレーム化して、今「AI」という言葉、バズワードですが、これをリクルート内部でこういうふうに捉えようとしました。
今のAIはまだ人間の行動パターンを忠実に模倣するレベル
「AI」と呼ばれるものは、まだまだ現在は感情を理解するとか意識の概念、人間よりも高度な判断をするといったことはできないと思っています。なので、現時点では、あくまでも人の行っていた行動パターンを忠実に模倣するレベルであると定義したわけです。
すなわち、人が見たり、触ったり、聞いたりしたものを、データをもとに思考してなにか行動をする。こういうところをデータとアルゴリズムで再現して、人の作業を代替できないかと思いました。
誤解を恐れずにいうと、私がよく、事業(部)や企画(部)のみなさんに「AI、機械学習はこういうものですよ」と話すとき、こういう資料を使って展開しています。「カブトムシという名前を覚えるのと一緒だよ」ということを単に書いているわけですね。
カブトムシが出てくるのはたぶん僕の資料だけなので、見かけたら僕の資料だと思っていただければいいのかなと思っています。
こういうところを考えていく上で、さらにもっと気づくこと、やらなきゃならないことが考え出されていったわけです。リクルートが蓄積しているデータって、本当はもっとあるんですね。ただ、例えばハードディスクに置いて保管したままとか、使われていなかった。
このディープラーニングというフレームワークがあることで、こういったデータが本当はもっと使えるんじゃないかと思うわけです。「教師データとしてさらにもっと多くきれいなデータを集めなきゃならないな」とも思うわけですね。
さらにもっというと、ディープラーニングを使ってなにかの作業を代替するようなことを行う上で、実は簡単な複数のパーツに分解して効率的な運用ができそうだなと思いました。データを集める、モデルを作る、予測をする、というところに分けられるかなと思いました。
機械学習・AIを効率よく展開していくために
そして、「これをまとめてなにか提供できないか?」と思うわけですね。そこで誕生したのが、今回メインでお話しする「A3RT」というプロダクトです。これは、リクルートが提供している機械学習のAPI(Application Programming Interface)群と呼ばれるものです。
ちなみに、ここにぶら下がっているプロダクトの一覧があります。画像解析もあれば、テキストの解析やチャットボットもあります。最近では、さらに強化学習や、テキストからSQL(Structured English Query Language)へ変換するものの研究も進んでいます。そちらからラインナップしていくと思っています。
我々がこのAPI化によって目指す世界は、簡単にいうと、リクルートの内部で効率よく機械学習・AIを展開していくことです。
先ほどのネイルの事例のように、例えば「ホットペッパービューティー」で画像解析を行ったあと、のちほど事例にございますが、「カーセンサー」に展開して画像解析を行いました。そうすると、この施策を2番目に行った事業は、前例があるので簡単に、コストも安く早く展開できるわけです。
こういったメリットを享受し合いながら、リクルート内部で利用を加速させる。それを機能組織である、我々リクルートテクノロジーズが担っていくことを宣言したわけです。
ただ、このAPIを1つ用意したからといってビジネス活用が進むかというと、そんなわけではぜんぜんなかったんですね。みなさんがよく普通にやると思いますが、ビジネス検討、要件定義、それから終わったあとの振り返り、運用。AIに関してもやっぱり、こういった普通のことが必要なんです。
しかも、AIというコアの部分がわりと一般の方、普通の方にとっては難しいということもありますので、ここもきちんと説明できなきゃならない。難しい仕事です。
それで、コアのロジックの部分はこの「A3RT」というプロダクトでカバーして、我々ヒトが組織として前後をカバーしますよ、ということをやっていきます。
こういった歴史があって、今リクルートの内部ではさまざまな事例が展開されています。その事例を簡単にご説明していきたいと思います。