画像認識が人間の目を超えた　人工知能の歴史的ブレークスルーの先に

人工知能は人間を超えるか

松尾豊氏：よろしくお願いいたします。「人工知能は人間を超えるか」というテーマでお話しさせていただきます。

まず、自己紹介からですけれど、私は人工知能の研究をずっとやっております。日本に人工知能学会というのがありますが、そこで編集委員長を2年ほどやらせていただいて、今、倫理委員会というのができて、そこの委員長をやらせていただいております。

ディープラーニングという技術が非常に重要だということを、ずっと言ってきています。ここでもそういった話をしていきたいと思います。みなさんも記憶に新しいと思いますけれど、Googleの人工知能、DeepMindというGoogleの子会社が作ったAlphaGoが、囲碁でプロ棋士を破りました。これが今年（2016年）の3月で、4勝1敗でかなり圧勝をいたしました。

序盤、AlphaGoが一見悪く見える手を打っていて、解説者も「AlphaGo、これは弱いですね。間違えてますね」と言っていたのが、中盤・終盤になってその意思が繋がってきて、最終的には逆転勝ちということで、AlphaGoはかなり強さを見せています。このことは人工知能研究者にとっても、かなり衝撃的なことでした。

通常、囲碁（のコンピュータープログラム）は将棋に比べて10年遅れと言われてきました。将棋では、ここ2～3年でようやくトッププロに勝てるようになってきましたから、囲碁の場合、トッププロに勝つのはだいたい2025年くらいだろうと言われていたわけですけれど、それがこんなに早く来てしまった。10年、前倒しで来てしまったということで、多くの人が衝撃を受けたわけです。

なぜ急に勝ったかというと、1番大きな原因がこのディープラーニングという技術を使ったということですね。ディープラーニングが画像認識で非常に強いんですけれど、囲碁の場合、この盤面を絵として見る度合いが強い。画像として見る度合いが強いので、これがモロに効いたということだと思います。

人工知能ブームは3度目

今、人工知能ブームになってきていますけれど、歴史的に見ると3回目のブームです。1956年に人工知能という分野ができたとされていますので、今年でちょうど60年。そういう分野になります。この60年の間に、ブームになっては冬の時代が来るということを何回も繰り返して、今回で3回目です。

ブームですので、いろんなキーワードが出てきます。IBMのWatson、iPhoneに入っているSiri、自動運転、ソフトバンクのPepper、それから将棋、囲碁。いろんなキーワードが出てきますけれど、技術的に見ますと、60年間研究をしていますので、昔からやっていた技術が少しずつよくなっているという理解が正しいと思います。

今までできなかったことが急にできるようになっているわけではなくて、少しずつよくなっている。そういう意味では今、人工知能に対する注目が集まりすぎて、期待感が高すぎて、僕はかなり危険な状態だと思っています。

一方で、ディープラーニングというのは別格だと思っています。今まで何十年もできなかったことが、この2～3年の間に急激にできるようになってきているということです。ここに関しては、僕は今、投資効率が非常に高い、期待してもしすぎることがないくらい潜在的な可能性が大きい、そういう領域じゃないかと思っています。

そういう意味では、僕は一般の人工知能の話と、このディープラーニングは分けて考えたほうがいいんじゃないかと思っています。

ディープラーニングでできる3つのこと

では、ディープラーニングでなにができるのかというと、非常にざっくり言ってしまうと、「認識」「運動の習熟」「言語の意味理解」ができるということです。

「認識」というのは、画像認識ですね。今までコンピューターは、非常にこれが苦手だったんですけれど、これができるようになります。「運動の習熟」というのは、ロボット、機械が練習して上達するということができるようになります。「言語の意味理解」というのは、言葉の意味を本当にコンピューターがわかるようになります。こういう大きな3つの変化が起こっていきます。これを順番にお話していきたいと思います。

まず、画像認識のところからですけれど、（スライド上部に）3枚写真があります。左から「猫」「犬」「オオカミ」。人間が見ると一瞬でわかるわけですが、これをコンピューターに判断させたい時にどうするかというと、すごく単純に考えると、この3つの写真を眺めて目の形に注目すればいいんじゃないか、と。

猫は目が丸いので、目が丸ければ「猫」と判定すればよさそうだ。目が細長くて耳が垂れていると「犬」で、耳が尖っていると「オオカミ」でしょ、と。こう判断すると、なんだかわけられそうだと思うわけですけれど、ところが、こういうのがいまして（スライド右下に「犬」の写真が追加される）。

（会場笑）

目が細長くて耳が尖っているんですけれど、「オオカミ」じゃなくて「犬」です。こういうシベリアン・ハスキーみたいなものがいるわけですよね。確かに、右上のオオカミの写真を見るとオオカミっぽい顔をしていて、右下の犬を見ると犬っぽい顔をしているわけです。なぜ我々は、「これがオオカミっぽい」とか「犬っぽい」と思うのか。

オオカミと犬をわけるルールを明示的に作ってくださいと言われても、困っちゃうと思うんですよね。「よくわからないけど、なんとなくオオカミっぽい」ということしか言えないわけです。要するに、目が丸いとか、耳が垂れているとか、こういうものを特徴量と言いますけれど、こういう特徴量を人間が定義している限りは、この画像認識の問題はぜったい解けなかったんです。

人工知能が長年抱えてきた問題

今お話したのが、スライドの「難しい問題1」と書いてあるところです。機械学習において、この特徴量を設計するということがすごく難しかったという問題です。それ以外にも、人工知能は60年研究していますので、難しいとされている問題がたくさんあります。

1つはフレーム問題、あるいはシンボルグラウンディング問題。こういう問題は、人工知能の世界で長年難問だとされてきました。

たくさん問題があるように見えますけれど、僕は根本的には問題は1つしかないと思っています。根本的な問題からいろんな問題が発生してるだけだ、と。

では、その根本的な問題はなにかというと、結局、今までの人工知能というのは、すべて人間が現実世界を一生懸命観察して、どこが重要かというのを見抜いてモデルを作っていたんですね。いったんモデルを作ることができると、その後の処理はいくらでも自動化できた。

ところが、モデルを作る行為そのものは、一向に自動化できなかったわけです。どんな場合でも、人間が世界を一生懸命観察して「ここらへんが重要だ」というのを見抜いてから、モデルを立てて自動化の処理をやっていたわけです。ここを、人間がモデルを作る行為そのものを自動化しない限りは、当然いろんな問題が出てくる。

「あるところで作ったモデルを別のところに持っていくとうまくいきません」とか、「例外に対応できません」とか、いろんな問題が出てくるわけです。ここをやり始めてるのがディープラーニングだということで、僕は「人工知能における50年来のブレークスルーだ」と言っているわけです。

今までの人工知能というのは、すべて人間がモデル化した後の自動化をさせていたんですね。ところが、今回のディープラーニングというのは、「人間がモデル化する行為そのものをいかに自動化するか」ということをやっているわけなので、対象としているフェーズが違うわけです。

画像認識は人間の目を超えた

なかでどういうことをやるのかというのは、いろんな方式がありますので割愛しますけれど、非常に有名なのがGoogleの「猫」という研究です。

これは2012年にインターネットから取ってきた画像をたくさん入力して、ニューラルネットワークというタイプの人工知能に学習させると、猫に該当するような、こういうニューロンが自然に出てくるということですね。これはつまり、猫の「猫らしさ」というのが、画像をたくさん見せるだけで学習されているということです。これができたのが2012年。

もう少し前の2006年くらいから、そういう技術は少しずつ進んできていたわけですけれど、2012年にディープラーニングは画像認識で非常に優秀な成果を出しました。画像認識のコンペティションで圧勝したんですね。この場合は4枚写真がありますけれど、左からレオパード、ヒョウですね。ヒョウ、コンテナ船、プラネタリウム、コアラという4枚。こういうものを当てる。

1,000カテゴリの中から当てるのでけっこう大変な問題ですけれど、その下に出ているのがコンピューターの出力で、レオパードという棒グラフの棒が1番長くなっていますから、これは当たっています。コンテナ船も当たっています。プラネタリウムも当たっています。コアラなんですけど、ウォンバットと答えてますね。ですから、これは間違えている。4問中3問正解1問失敗なので、この例だと間違い率、エラー率が25パーセントということです。

この2012年の前の2011年、2010年くらいは、このエラー率がだいたい25〜26パーセントくらいでした。ところが、この2012年のコンペティションではディープラーニングのチームが現れて、ほかのチームが軒並み26パーセント台で僅差で競っているところを、いきなり16パーセントというのを出した。10パーセントちぎって勝っちゃったんですね。

ほかのチームは、基本的にはさっきの猫の耳とか目のような例がありましたけれど、そういう特徴量を人間が一生懸命定義して精度を上げていたんですけれど、ディープラーニング自身はそういうのをぜんぜんやらずに勝ったということで、衝撃的でした。その後、すごい勢いでこのエラー率というのが下がっています。2012年に16.4パーセントですごいと言っていたのが、2013年には11.7パーセントになり、2014年には6.7パーセントになりました。

このタスクを人間がやると何パーセント間違うかというと、けっこう難しいタスクなので、人間がやっても5.1パーセント間違うんですね。それに対して、昨年の2月にはMicrosoftが4.9パーセント、Googleが3月に4.8パーセント。今、この時点での最高記録はMicrosoftの3.6パーセントということで、人間のエラー率を下回っちゃっているということです。

僕は、これはのちのち歴史の教科書に載ってもいいんじゃないかと思うくらいの革命的なできごとだと思うんですけれど、要するに、昨年の2月にコンピューターが画像認識で人間の精度を超えたということが、もう実際に起こっているわけです。これはコンピューターができて100年くらい経ちますけれども、はじめてのことです。

Occurred on 2016-07-21, Published at 2016-09-28 11:48

注目