言語=意味理解

松尾豊氏:冒頭でお話ししたように、認識・運動・言語という順番で進んでいきます。もうだいぶ認識ができるようになってますし、運動もだいぶ見えてきている。

最後、言語というのはなにかというと、これは意味理解ですね。言葉の意味を理解するというのは、これも人間は理解できるけどコンピュータは一切できなかったんです。

今まで自然言語処理というのがありましたけれども、基本的には統計的にどういう言葉とどういう言葉がよく一緒に出てくるかを計算して、処理しているように見せかけているだけなので、意味を理解してやってるわけじゃないと。翻訳をしているわけじゃない。

ところが、意味を理解した言語処理というのができる。意味を理解するとはどういうことかというと、僕は基本的には「文と映像を相互変換すること」だと思っています。

文を聞いて映像を頭のなかに再現することができると、逆に映像から文を生成することができるという。この2つができると、意味理解ができるんだと。それがたぶんできるようになるだろうと思っています。

(スクリーンを指して)この変化が2030年ぐらいまでに起こるんじゃないかと思って書いた図がこちらなんですけれども。当然、認識ができると、例えば医療の診断、画像の診断、CTとかMRIができるようになります。防犯監視できるようになります。

運動の習熟までいくと、自動運転、物流、建設、農業の自動化、介護、調理、掃除というのができるようになります。で、言葉の意味理解までいくと、翻訳、教育、ホワイトカラー支援全般ができるようになります。

ということなんですけれども、このスピードは2030年どころじゃないぐらいのスピードで今進んでいまして。もう言葉の意味理解まで僕は入りつつあると思ってます。

1つの技術は、おもしろいのは「Automated Image Capturing」というもので。画像を入れると文章が出てくるんですね。

例えば、左上の写真は男の人がギターを弾いてるんですけれども。

これを入れると、「Man in blackshirt is playing guitar.」という文が出てきます。その下の写真を入れると「Girl in pink dress is jumping in air.」という文章が出てきます。こういう、写真を入れるとそれをディスクライブするような文が出てくる。

文章から画像を生成することも可能に

昨年末にはこの逆ができるようになっています。文を入れると絵が出てくる。「A very large commercial plane flying in blue skies.」という文を入れると、こういう絵が出てくるんですね。画像が出てきます。飛行機が空を飛んでるっぽい絵が出てきます。

「blue」を「rainy」に変えるとrainyぽい絵が出てきます。「象が砂漠を歩いています」「象が野原を歩いてます」と入れると、こんな絵が出る。

これは画像を検索してるんじゃなくて、コンピュータが描いてるんですね。したがって、ありえない文も入れることができて。「A stop sign flying in blue sky.(止まれの標識が空を飛んでます)」って入れると、本当に止まれの標識が空を飛んでる絵を描くんですね。

これはまさに、我々が子供の時にお話を聞きながらその情景を頭のなかに思い浮かべたということとすごく近いことができるようになってる。

ここまでできるともう、例えば日本語の文からこういう絵を作って、これを英語にすれば翻訳になってますねと。これは画像を介した翻訳で、今までにない翻訳というか、本当はこっちのほうが正しいわけですよね。

本当はこっちが正しいはずなのに、今まではどうやってもこれができないから、しょうがなく統計的な言語処理で言葉から言葉へ無理やり翻訳しようとしてきたわけで。

日本語から「風船が飛んでるよ」みたいな絵を作って。それじゃあ「風船が山のほうまで飛んでいったね」という絵を作って、それを日本語に戻せば「風船どこいくのかな」という文もつくることができると。

こうやって、もうほとんど意味をちゃんとわかってるのとほぼ同等ですよねという、僕はこういう世界がやってくるだろうと思ってます。

日本が勝てる分野は「労働機械」

僕は子供の人工知能・大人の人工知能って分けてまして。子供ができることこそがコンピュータにやらせるのが難しかったという状況が何十年も続いてきたなかで、今それが変わりつつあるというのが子供の人工知能です。

一方で、大人の人工知能というのは、データが取れなかった領域でデータが取れるようになってきました。そこに昔からある人工知能の技術をちゃんと使えばいろいろおもしろいことができますよね、というのが大人の人工知能ですね。

というふうに言ってたんですけれども。ジェリー・カプランという人が昨年本を出してるんですけれども、そこでまったく同じことを言ってまして。

「Synthetic Intellects」というのと「Forged Laborers」という、合成知能、労働機械というふうに言ってますけれども。この2つが大きく変わっていくんだと言ってます。

僕は合成知能のほう、大人の人工知能のほうは、これはもう日本はグローバルに勝てないので、もう厳しいんじゃないか、諦めたほうがいいんじゃないかと思います。労働機械はいけるんじゃないかと思っています。

なんでかというと、例えば、農業、建設、食品加工、こういった分野というのは対象が自然界なので、環境が条件で時々刻々変わるわけですね。なので、認識ができないかぎり自動化というのは非常に難しかった領域です。これが実は自動化できる可能性がある。

ですから、例えば農業でいまだにトマトを収穫するロボットってないですね。トマトがどこになってるかというのを上手に見つけて、それを上手にもぎ取るというのは今までできなかったわけです。

ところが、それをできるようになると。そう考えると、農業というのはほぼすべての作業が人間の認識の能力を必要としてるんですね。そこが自動化できると。

建設もそうですね。食品加工、調理なんかもそうです。そうすると、ここに非常に巨大な産業が立ち上がるんじゃないかと思ってます。

要するに、どういうことかというと、世の中に画像認識ができないから人間がやってる仕事がたくさんあって、そこが自動化されていきますよと。

警備員の方の仕事も、それから警察官ですね。交番の前で見張ってるような仕事なんかも、基本的には認識の力を使ってるわけで、これはカメラに代替できます。そうすると、実は街のなかで犯罪とか交通違反みたいのを非常に減らすことができるかもしれないですね。カメラを置けば置くほど見つけられるようになりますから。

今まではカメラを置いても見てる人が必要だったので無理だったんですね。ところが、カメラを置けばいいということで、じゃあ犯罪の率が非常に減ると。街っていうのも変わってきますよねと思います。

言語の意味理解ができると言葉の障壁がなくなる

運動の習熟でいうと、機械も習熟するし、ロボットも上達するようになる。それから、言語の意味理解までいくと、日本語の障壁がなくなって、まさに日本人がグローバルに自由に出ていけるようなる。

といったときに、僕は初めて日本人というのが日本語と日本文化は分けて考えなきゃいけなくなると。

僕が成田空港で海外から帰ってくると「Welcome」って英語で書いてあって、その下に「お帰りなさい」って日本語で書いてあるんですね。これ、僕、非常にいいなと思う一方で、日本人=日本語だからこれができるんだと。ほかの国だとできないわけですよね。

ところが、それが言語の壁がなくなると、日本語でいろんな世界の方とコミュニケーションできるようになるのはいいことですけど、初めて「日本人っていったいなんなんだろう?」ということを問われるということじゃないのかなと思っています。

あと、やればいいこともたくさんありまして。例えば認識系の技術だと、まさにまちづくりに関係したところだと、防犯とか交通違反ですね。それから顔による認証とかログインとか、こういうのができますし。

表情の読み取り。例えばこの空間のなかでどのぐらい笑顔の人がいるのかとか、そういうのが数字的にわかるわけですね。これサービス業全般にとって非常に重要なKPIになるはずで。人を笑顔にするって非常に重要なことですから。そういうのもできると。

あと入国管理とか。それから実世界のなかで、例えば店舗内の行動とか建物内の行動で、それを最適化していくと。

例えばよりクリエイティブな空間にするにはどうしたらいいのかというのを、認識の技術を使って最適化することができると思います。

あと運動系では、重機とか建設現場での自動運転もそうですし、産業ロボット、調理。

産業ロボットとか、自動運転などもPreferredさんがどんどんやられてるので、安心だと思うんですけれども。それ以外にもたくさんあると思います。医療、介護、バイオなども重要だと思います。

AI業界は人材不足

こういうのを、僕が「もうやっちゃえばいい」といくら言っても、日本の国内だけですとPreferredさんしかやってないので(笑)。

そんなことないですけど、ほかにもベンチャーありますけれども。もうみんなどんどんやりましょうよと。非常に巨大なエリアなのでやったほうがいいんじゃないかと。

始めること自体はそんな難しくなくて。もちろんレベルはありますけれども。やっぱり数学の知識、プログラムの知識というのがある程度あれば、やること自体はそんな難しくないです。

TensorFlowというのをGoogleが出してまして、非常に使いやすくなってますし。教科書もいろいろあります。ということで、理系の人は半年もやればそこそこできるようになるんですね。ですので、みんなやりましょうと思ってます。

で、ディープラーニングと言っても、やっぱり詳しくはいろいろ本とか見ていただくほうがいいんですけれども。CNNというのとRNNというのとオートエンコーダ系。だいたいこの3つぐらいがあります。

CNNは画像です。RNNは時系列データです。オートエンコーダは生成ができます。という、このぐらいざっくり理解していれば自分のやりたいことにどれが近いのかということを調べながらやっていくといいんじゃないかと思ってます。

あと、どうやって人材を獲得していくのかというのを、国内で技術力のあるベンチャーって非常に数が限られてると思います。人材が不足しているのは世界各国共通で、どこに行っても不足している。

国内だとPreferredさんはすばらしいんですけれども。もうトヨタさんとかファナックさんとか、すごいところとやられているので。やっぱりそういう企業がどんどん出てきてほしいと思ってます。

教育、どうやってそういう人を増やしていくかというのは非常に重要なテーマだと思っています。大学内にディープラーニングの講義も作ってますけれども。Courseraなんかオンラインで、英語ですけれども、いい講義があるのでこういうのをどんどん見ていけばいいんじゃないかと。

それから大企業が社内でこういう人材を育成するということも非常に重要だと思います。いずれにしても、僕は連携とか交流は非常に重要だと思っています。技術者あるいは起業家が、大企業の方含めて、こういう場で交流していくということが非常に重要じゃないかと思っています。