ディープラーニングが変える未来 PFNの事業戦略とChainer on AWS

比戸将平氏(以下、比戸):みなさんこんにちは。Preferred Networksの比戸と申します。本日はこのようなタイトルでお話しさせていただきます。

まず、弊社からこのAWSのイベントに登壇させていただくのはおそらく初めてでご存じない方もいらっしゃると思いますので、軽く会社の紹介から始めさせていただきたいと思います。

設立はおよそ4年前です。2014年の3月にPreferred Infrastructureという別のスタートアップからスピンアウトするかたちでできました。現在、東京の本社に150名、米国バークレーの子会社に7名ほどおります。

我々がフォーカスしている分野としては人工知能ですね。人工知能技術、ディープラーニングをはじめとした技術を産業応用に使うということで、トヨタ自動車様やファナック様のようなインダストリのパートナーと一緒に先端の人工知能応用をやっています。

まず「ディープラーニングが変える未来」ということで、そもそもディープラーニングとはなんぞや、という話から始めさせていただいて、その分野において我々がどういうことを考えてやっているか。その中でこのChainerというPythonの深層学習フレームワークを開発してきたわけですが、その紹介をさせていただきたいと思います。

最後に、今日ここにいる理由ですが、最近Amazonさんといろいろ協業させていただいて、ChainerがAWSの中でいろいろ使いやすくなってきました。今日のキーノートの中でもSageMakerでのサポートが発表されましたが、そのあたりについて紹介させていただきたいと思います。

今日ここにいる方の中で、少しでもChainerを触ったことがあるという方、どれぐらいいらっしゃいますか?

(会場挙手)

おっ、けっこういらっしゃいますね。ありがとうございます。その中でAWSでChainerを触ったことがある方はどのぐらいいらっしゃいますか?

(会場挙手)

やっぱりちょっと少なくなります。なので、今回はChainerのユーザーを増やすのと、Chainerのユーザーの中でAWSを使える人を増やすというのがこのトークの目標となりますので、最終日、もう午後夕方近くなってきてお疲れとは思いますが、お付き合いいただければと思います。

ディープラーニングとは何か?

まず、ディープラーニングとはなんぞや? ということなんですけれども、単純に言うと、層が深いニューラルネットワークを利用した機械学習の手法およびその応用のことをざっくり「ディープラーニング」と呼んでいます。

最近いろんなところで「AI、AI」とテレビや新聞で見ないことがない日がないぐらいですが、それらはおよそ深層学習、ディープラーニングを用いたものであると思っていただいてほぼ間違いないと思います。

その「深い」とはどういう意味かというと、ここに2014年のGoogleがあるコンテストで優勝した時のネットワークのアーキテクチャを表示しているんですが、この時は22層というかたちで、行列のかけ算みたいなものが22回繰り返されるようなかたちです。

計算としては、行列のかけ算と足し算を一生懸命やって、答えが合っていたらそのままでやる。答えが間違っていたら、このネットワークの構造を少し変えたり、そのモデルの重みを少しアップデートするというかたちで、どんどん精度のよい出力を得られるようにしていくという単純なものです。ただ、この大きさをどんどん大きくするだけで、いろんな応用における精度が高まってきたというのがここ5〜6年の歴史です。

実際にその同じコンテストで次の年に優勝したMicrosoft Researchのアーキテクチャがその右にああります。もう細かすぎてわからないんですけど、これ22層だったものが150層になって「どうだ、精度上がっただろ?」という世界でした。

それが2012年にブレイクスルーがありまして、論文もたくさん出て研究が進んで、応用が広がってきたのがこの5〜6年ですね。

画像認識・音声認識が最も早い応用だったんですが、これからどんどん産業界で応用されていくときには、もっと別のものにも使われていくだろうというのが見えてきているのが今の状況です。それについては後ほどちょっと紹介させていただきます。

みなさんがご存じの応用の中で一番エポックメイキングだったのは、おそらくDeepMindというGoogleの子会社ですね。ロンドンにある会社が「AlphaGo」という囲碁ソフトを作りまして、イ・セドル、韓国の伝説的な囲碁プレイヤーを倒したという出来事が2年前にありました。それがディープラーニングベースであったということもみなさんご存じかなと思います。

その歴史を振り返ると、これが2012年にあった最初のブレイクスルーです。ImageNetという画像認識のコンテストで、1,000クラス分類ですね。

1,000クラス、猫とか犬とか、ここにあるのだとtigerとかtape playerとか、そういうクラスが1,000クラスあるなかで、ある1つの画像が与えられたときに「それはどのクラスでしょう?」というのを当てます。

「上位5番目までを一応予測して、その中に正解があったら当たりだと思いましょう。それ以外だったら外れだと思いましょう」という設定でコンテストが行われていて。この2012年にディープラーニングベースの手法が使われるまでは、だいたい26パーセントが限界だったんですね。エラー率が26パーセント。なので、正解率が74パーセントですね。

ところが、その精度がディープラーニングを使った途端に10パーセント上がりました。これはそれまでのコンテストの改善からすると、年々1パーセントか0.5パーセントぐらい、ちょっとずつよくなっていたのが、いきなり10パーセント上がったというのは関係者からするとかなりショッキングな出来事でした。

しかも、やった人たちが旧来の画像認識の研究をやってきた人たちではなくて、ニューラルネットワークを研究してきた人たちがこのコンテストに出たら勝ってしまったという、研究者にとっては衝撃的な結果でした。これが始まりとなりました。

これを見ると、例えば「lens cap」というのはあたっていないですね。「tiger」は一応ものすごく当たっているであるとか、あとは、「planetarium」も当たっている。

「tape player」は当たっていないんですけれども、予測を見てみると「cellular telephone」とか、要は人の顔の横に機械みたいなものが写っているので携帯電話だと思ってたような予測が得られていたりとか、人間からすると直感的というか、理解できるような予測がこの時点でもだいたい得られるようになっていたという例ですね。

画像認識が応用される分野

その技術を使った画像認識の応用として今最も進んでいるのが、おそらく医療画像解析だと思われます。

これは両方とも去年発表された論文から引っ張ってきたんですが、左下の例が皮膚がんですね。

皮膚がんの分類において、皮膚科医と同じぐらいの精度を画像認識、ディープラーニングを用いたモデルが達成したという結果になっています。これは『Nature』論文になったものですね。

皮膚がんのこの患部の映像から、だいたい70種類ぐらいいろんな種類の皮膚がんがあって、それに対していろいろ治療方法であったりとかがんの進行度が違うらしいんですけども、そういうものの分類がうまくできているということが言われています。これが皮膚科医レベルのclassification、判別能力というタイトルで『Nature』に出ました。

右下はもう1つ別の応用例で、リンパ節への転移ですね。これもがんですけれども、これらにおいて、どの領域がリンパ節に転移しているのかを、画像認識の中でもセグメンテーションと呼ばれる一つひとつのピクセルに対してラベルを振るようなタスクですけれども、そこにおいても非常に精度が高まってきたということが言われています。

自動運転の今と未来

同じように画像認識がよく使われているのが、みなさんもご存じとおり自動運転です。

まだなかなか人間レベルの運転まではいってないんですが、少なくとも車両の周辺の認識機能にディープラーニングを使うのは業界ではほぼスタンダードですね。

カメラだけではなくて、LIDARやレーダーなどさまざまなセンサーを車につけるわけですけれども、その中で歩行者や他車挙動などを認識することが自動運転で非常にキーとなる一番最初にやらなければならないことなので、その精度をみなで競い合って高めています。車会社だけではなくてGoogleのような会社であるとかUberのような会社もそこで開発競争をしているという状況ですね。

そこでもさまざまなアプローチがありまして。今言ったLIDARなどのセンサーのようなものをたくさんつければ精度が出やすいんですが、コストが上がりすぎます。それが左下のDrive.aiという会社ですね。

なので、そうではなくて、センサーの数はなるべく絞りながら精度を上げてやろう、コストを下げながら精度を上げてやろうというのがテスラがやっているようなアプローチで、こちらにはLIDARはついていないんですね。複数種類のカメラと超音波とレーダーだけでやる。そうすると見た目がゴツくならない。

こっちはLIDARというものがどうしてもあのような見た目になってしまうので、ちょっと商用車に向かないので、テスラはこういうアプローチでやっている。というところでさまざまな研究競争が起きています。

では自動運転、今はとりあえず認識ができて、なんとなく高速道路などの簡単なところでは走れるようになってきたけど、今度からどうなるんだというと、今認識でしか使われていないものがおそらくプランニングや制御でも使われるようになるだろうというのが見えてきています。

車両の状況を全部把握したあとに、どう曲がる、いつ車両をレーンチェンジをするかとか、どう衝突を回避するかとか、プランニングであるとかアクションの部分、制御の部分もいろいろ変えていけなければならないわけです。

左下のアプローチは一つひとつのモジュールを少しずつディープラーニングベースのモジュールに書き換えていく。

今あそこにPerception(認識)のモジュールがありますが、あそこがディープラーニングになりました。次はおそらくこのPlanningというところがディープラーニングベースになって、最後にControlがディープラーニングベースになる。

現実的に、そのようなアプローチで進んでいっているところが多いです。とくに車会社を中心にして、ということですね。

一方で、右下のやり方はかなりアグレッシブでですね。人間のやっていることが考えると、人間はだいたい目で見える範囲だけで、ステアリングを握って、右に行くか左に行くか、ブレーキを踏むかアクセル踏むかを判断できているので、それと同じ機能を持った単一のニューラルネットワークも作れるはずだろうというアプローチです。

これは本当に3方向だけ、前方と左右についたカメラの映像を1つのニューラルネットワークに突っ込んで、そこからの出力をステアリングアングルにする。これを人間が行動したときと一致するように出力がちゃんと出るようにニューラルネットワークを学習することで、一気通貫のドライバーモデルのようなものを作っていこうというアプローチです。

これもうまくいくかどうかわかりませんが、技術的にはチャレンジが進んでいます。

かつての“冬の時代”とは何が違うのか?

ここまでで1回話をまとめたいと思います。「ディープラーニングって本当に使い物になるの?」とか「AIって今までも何回も盛り上がったけど、結局そんなに世の中に使われずに終わってしまったよね」という話もあるんですけれども、実際にそういう極端な楽観とか極端な悲観による議論とか、あるいはAIが世界を破滅に導くとかそういう議論もありますが、これまでの冬の時代と違うのは、確実に実社会で応用され始めているということが言えるかなと思います。

先ほどの医療画像への応用なども申し上げましたが、そういうものが、つい先週、先々週ぐらいに、アメリカのFDA(注:アメリカ食品医薬品局)で「画像診断を実際の医療に使っていいですよ」という承認が得られたました。

これは非常にエポックメイキングなことで、今までは、承認が受けられた医療行為しかもちろん許されていないわけですけれども、そういうAIのような中身がブラックボックスでよくわからないものに関してはFDAがなかなか承認が出せないということがボトルネックになっていました。

これからはFDAも、しっかり実験をやればAIベースの治療をacceptしていくという方針が示されたということですので、日本でもおそらくそういうことが、これから何年後になるかわかりませんが進んでいくだろうと思われます。

一方で、過度の期待を集めすぎているところもあるので、そこに関しては多少落ち着かせなければいけません。例えば「自動運転が2020年までにできます」って言っていた人はいっぱいいるわけですけれども、2020年ってあと2年なので、2年後までに自動運転の車が日本の市街地のどこでも、雨の日も、夜であっても走るということはちょっと想像しづらいと思います。

ただ、着実に自動運転の技術は上がってきている。そのうち、そういう車は、少なくとも高速道路は行けます、市街地は行けます、夜もなんとか走れます、雨でもかなり正確に走れます、ということになっていくだろうと思っています。

AIが普及すれば「AI」とは呼ばれなくなる

私の考えとしては、普及したAIの応用はだんだん「AI」と呼ばれなくなると考えています。最初は「AI技術を使った〇〇です」と言われるんですけれども、十分普及してみんなにとって当たり前になると、「AI」というものが消えて、単にその機能だけが残るんですね。

例えば、今みなさんがネットで買い物をすると、必ずレコメンド機能って入っています。これ(注:スライド左下)は私のKindleストアにさっき出てきた「おすすめ商品」ですが、こういうものをみなさんが見たときに裏側で使われているロジックって気にしないですよね。これがAIによって作られているかどうかというのは気にしないと。

ただ、機械学習の研究者から見ると、自動運転だろうがSiriのような音声認識であろうが、使われている技術はかなり似通っているんですね。ただ、今はもうレコメンドは当たり前になりすぎていて、単にスマートなレコメンドがみなさんに来るという事実だけが残りました。AIが動いていることはもうみんな気にしていないと。

今はSiriもだいぶ一般化してきて、熱いのがこのAmazonさんのEchoをはじめとするスマートスピーカーの部分。このへんはまだAIを使っていると言われることもありますけれども、音声エージェントとして向き合っているときに「これはロジックで動いているのかな?」と思うのはおそらく我々のような一部の技術者だけで、一般の方からすると、本当にサービスのコンタクトポイントとして使える便利なデバイスということで受け入れられ始めているのかなと思います。

それを繰り返していけば、おそらく自動運転というものも、今は「AIによる自動運転」と言っていますが、自動運転が本当に一般化したら、単にそこにあるのは自動で運転してくれる賢い車であって、AIと言う人はいなくなるのかなと思っています。

これは今までもどんどん計算機が使われる中で、AIだったりマイコンだったりそういう、あるいはファジー制御みたいなものが出てくる製品の頭につくんだけれども、そのうちなくなるということと同じ歴史を繰り返すのかなと考えています。

AIの未来の一端

1つ未来の話としてお見せしたいのが、弊社の研究で、今年、ICRA(International Conference on Robotics and Automation)というロボット系の世界最高峰の会議でHuman-Robot Interaction部門でBest Paper Awardを獲った映像です。ちょっと見ていただきたいと思います。

(映像が流れる)

「Can you move the brown fluffy thing to the bottom?」「Sure, I’ll work on that.」

これはなにをやっているかというと、彼女が言ったことに従って、ある物を掴んで別のところに移すということをロボットがやっています。

「Can you move the tissue box to the left?」「Sure, I’ll work on that.」

これは各オブジェクトをなんと呼ぶかを定義して、どういうふうに指示したらどういうふうに動くかというのを全部プログラムしておけば難しくはないだろうというふうに思われるかもしれないんですけれども、次の質問。

「Can you move the white and blue box to the right?」「Sure, I’ll work on that.」

彼女は先ほど「tissue box」と言ったんですが、今度は「white and blue box」と言いました。そういうかたちで、どのオブジェクトがなんと呼ばれるかというものはあらかじめ与えているのではなくて、学習して得られたものになっています。

「Can you move the orange triangle thing to the top left?」「Sure, I’ll work on that.」

なので、これもオレンジの三角形のものを動かしています。まあ、これがおにぎりケースって分かる人はおにぎりケースって呼ぶかもしれないですけれども。そういうものが、データから学習されただけで、プログラムしたものではないというのがポイントです。

「Can you move the sandal to the top right?」「Sorry, which one do you mean?」「The red one.」「Sure, I’ll work on that.」

この例ではサンダルが2つあるのでコンピュータは判断できない。それを聞き返して「赤いほうだよ」って言ってあげると、赤いほうをちゃんと掴むみます。

これもすべてプログラムされたのではなくて、指示された中で一番最もらしいものを探してきているんですね。

(映像終わり)

「一番それっぽいもの」を判断できることの重要性

これをディープラーニングでどうやっているかというと、得られた画像の中でまずはオブジェクトを検出してきます。その中で言われたテキストに最も近いもののマッチングを取っているんですね。

緑の箱で示しているのが自然言語処理で使われる手法です。青いほうが画像認識の処理なんですけれども、それらで抽出してきた音声とテキストのデータのマッチングをあそこで取っています。画像データと音声データがそこの段階ではディープラーニングの中の1つの行列として扱えるので、それのマッチングを取っていると。

それが当たっていたら取りにいくし、外れていたらどちらかのニューラルネットワークの構造を変えていくことで、この制御系を実現しています。

そのデータに関しては、クラウドソーシングを使ってそれぞれのオブジェクトがなんと呼ばれるかという多様な表現、例えば先ほどの「tissue box」であったりとか「白と青の箱」であったりとか「直方体の物体」とかいろいろ言い方はあると思いますが、そうしたことを学習することで、写っているものの中で一番それっぽいのはなにかが判断できるような機械を作ってきました。

こうしたことができるようになると、コンピュータと、あるいはロボットと人間のインタラクションの中でもかなり自由度が高まっていくことがわかると思います。これが我々が示す1つの未来の可能性です。