「第3次AIブーム」の盛り上がりをどう見ているか?

ーー最近は「ChatGPT」が盛り上がりを見せるなど、第3次AIブームと言われていると思いますが、この盛り上がりをどう感じられていますか?

三宅陽一郎氏(以下、三宅):今は第3回目のブームということで、第1回は1960年代で、これは主に専門家内で盛り上がって日本はほとんど関係がなかった。2回目は1980年代。これは世界の中で日本が一番騒いだんじゃないかなぐらい盛り上がった。ただ、アカデミックと産業の間の橋がかかりそうでかからなかったし、社会実装はされたけれど、人々が思うような期待に沿うことはできなかった。

第3次ブームも最初の頃は、「繰り返しかな」と思っていました。AIって、期待値を上げて後で失望させるケースがけっこう多いんですね。今回の第3次ブームは複雑なかたちになっていて、最初の盛り上がりと今のジェネレーティブAIの盛り上がりは、別文脈なんですよ。

第3次ブームの初期の盛り上がりは、それ以前のクラウドを基底としたビッグデータの解析。ビッグデータを解析するソフトとしてディープラーニングが注目されて、主に画像認識や、その応用として囲碁のAIなどがあったわけです。

それが収束するかに見えた時、ほかのいろいろなブーム……ブロックチェーンとかメタバースとかが来たタイミングで、ジェネレーティブAIとしてもう1度ブームが起こっているという、1回のブームの中に実は2種類のブームが含まれていて、かつそれがユーザーの手にまで渡っているというのが現在です。

これは本来AIのブームが目指してきたところの1つの着地点で、1956年以来、AIという言葉ができて以来70年かかっている。そのくらいかかってようやくユーザーの手元にAIが届いたというのがおもしろいところというか、けっこう大きなインパクトかなと思っていますね。

今の生成系AIはとても“人間っぽい”

ーー今までAIというと、人間の脳そのものを目指して開発が進められていたと思います。ChatGPTは確率処理を基に開発をされていますよね。AI開発そのもの、AIというところの定義が揺れているのでしょうか?

三宅:実は揺れている部分とまったく揺れていない部分があります。AIという言葉が定義された時には、おっしゃるとおり人間が1つの規範でした。自己修復する機械など、そういう概念が打ち出されたのが1956年のダートマス会議で、それ以来、人間を規範としてやってきたのですが、ディープラーニングが出た時に「スーパーインテリジェンス」とか「アフターヒューマン」とか「ポストヒューマン」みたいな言葉が出てきて第3次の前半は、むしろ人間じゃなくていいじゃない的な流れになりました。

ところが今の生成系AIっていうのは、むしろ人間なんですよね。人間が作った画像や人間が作った文章を、人間より濃く学習している、むしろ人間に特化しちゃった感じがあって、逆に言うと人間っぽいAIが量産されていますね。

ーー人間っぽいAIですか?

三宅:人間のような絵を描きますよね。人間のような言葉をしゃべっている。これは第3次ブームの初期に言ったポストヒューマンとはまったく逆です。当時は、人間とはまったく違う次元の、例えば囲碁で人間には考えようがない手を打つとか、そういう文脈が一瞬ありました。ポストヒューマン、あるいは人間を超えるシンギュラリティみたいなものが第3次ブームの最初を支えていたんです。

一方、今の段階は、人間のデータをすごく濃く学習して、人間以上に青く染まったようなところで、本当に人間人間したものを生み出しているというね。

もう1つ大きなインパクトは、言語をしゃべるということですね。日本人にとっては「おもしろツール」になっていますけど、欧米の人にとっては、AIに言葉をしゃべらせるということこそが、実はこの人工知能70年の歴史の目標だったんです。

特に欧米圏は、言葉を知性のアイデンティティとして大事にしていて、すごく重きを置いている。「はじめに言葉ありき」という言葉もあるし、契約文化でもあるし、言葉をしゃべることが動物と人間を分かつという考えがあるし、そういうふうに、言葉をしゃべることが知性の証明になるから、人工知能にも言葉をしゃべらせたいと思っていた。本当にずっと言葉をしゃべらせるAIの研究がされてきた。しかしその道は険しかった。

例えばその主要なメーカーは、IBMだったわけです。IBMは本当に、1950年代からずっと自動翻訳に携わってきました。人類のAIのレベルは、ビッグデータを学習して言葉をしゃべらせるところまでは来ている。

これに対して、おそらく欧米のほうが強いインパクトを持っていて、かつ、アイデンティティの中心部分にけっこうインパクトがあると思うんですよね。日本人にとっては、そこまでのインパクトがないと思うんですよ。「すごいね」とは思っていますが。

言語系AIはけっこう欧米文化の根幹に関わるところに入ってきているので、特にヨーロッパでは、ただごとではない感じではあると思います。哲学的に言っても、文化的に言っても、海外と日本でだいぶ温度差があるんじゃないかと思います。

「知能とは何か?」という基本問題に立ち返る仕事が生まれたらいいな

ーー三宅さん自身が、この第3次AIブームに期待をしていることはありますか?

三宅:第3次ブームは機能重視なんですね。例えば1980年代にあった第2次ブームの頃は、今から見ればコンピューターの性能が十分ではなかった。機能といっても大した機能はなかったし、ちょっとした機能を出すにもけっこう大きなコンピューターが必要だった。だから哲学的ではあった。

今は、手元のコンピューターでそれなりのAIができるようになって、逆に「知能とは何か?」という、けっこう基礎的な問題が逆にほったらかしにされがちです。

せっかく機能がここまで上ったから、そこからむしろ根源的な「知能とは何か?」という基本問題に立ち返る仕事が、第3次の中で生まれたらいいなと思っています。

例えば今、ChatGPTがしゃべるっていっても、なにかを理解しているのか? というと、今の見解だと、理解していないんですよね。ChatGPTが「冷たい」と言っていても、当たり前ですが感覚はないから。人間がそう言っているから学習して、言葉の上でそういう言葉を出しているんですね。

人工知能が、この世界を体験するぐらいの深い知能を持つようになるための実験ができるようになっていて、例えばマルチモーダルといって、目をつけたり耳をつけたりした上でのChatGPTとかね。そういう、世界にどれくらい根付かせることができるかというのをAIではグラウンディング問題ってずっと言ってきているんですよ。

要するに、AIがきちんと世界に根付いているか? という。実はその根付くというのが、人工知能はすごく苦手なんです。当たり前ですが、人間はこの地球が生み出した存在だから、もともと根付いていますよね。ところが人工知能は、コンピューターの中で生まれた存在だから、地球とか知らないよ、という話なんですよ。

そういう存在がこの世界に根付かない限り、この世界をうまく理解できない。人間が生み出した残滓を学習してそれっぽいことは言っているけれど、根を持っていない。「根を持つ人工知能」を作るのが僕の目標でもあります。

人工知能が本当にこの地上で生命的に生きるにはどうしたらいいのか。そこまでを含んでのブームであってほしい。また冬の時代が来てからそんなことを言っても、誰も聞いてくれないかもしれないから。

ーーゲーム業界という視点ではどうですか?

三宅:ゲームにとっても重要で、ゲーム産業が作っているゲームのモンスターたちのAIはちゃんと体があるんですね。手も目も耳もある人工生命が本当に意識や感覚を持ったり、ゲーム世界でゲームを体験したり……すぐにはできないと思っていますが、そこにちょっとでも近づきたいと思っています。

AIの表面的機能だけじゃなくて、中身の構造まで下りていくことができたらいいなと思うけれど、あまりそういう研究者は少ない。半分が人工生命だからこそ、ゲームのAIはちょっと特殊な位置にいるのかもしれませんね。

おもしろいのが、人工知能は現実が苦手ということ。これは間違いないですが、「現実のほうを変えてしまえばいいじゃない?」という発想があるわけです。「世の中を全部デジタルデータにしちゃえばいいじゃない」とか「現実がわからないんだったら、先に現実世界をメタバースとかでデジタル化しちゃえばいいじゃない」という方向です。Googleさんはこの方向かと思います。

確かに、仮想空間だとむしろAIのほうが強いので、社会活動がメタバースになったらAIは大活躍できる。現実空間だと局所的にはいろいろできますが、大した体も持っていないので、人間には敵わないし大したことはできない。

現実のほうが変貌して、デジタルクリーチャーたちが活躍する場がゲームだけじゃなくメタバースやらスマートシティやらARやら、いろいろなところに広がっているので、そこは大きなチャンスがあるかなと思っています。

ゲームAIで培われた技術は社会の中心的なシステムになれる

ーー先ほど、AIが世界に根付くのは難しいとおっしゃっていましたが、そこをゴールとした場合、今どのぐらいまで到達しているのでしょうか?

三宅:数字の根拠はうまく言えないけれど、20パーセントぐらいじゃないかな。

AIって2つあるんですよ。データベース型と言われる、たくさんのデータを解析するAIですね。これはすごく多い。ビッグデータAIですよね。画像生成AIやChatGPTはその一種です。もう1個が、リアルタイム・インタラクティブで体を持つAIです。簡単に言うとロボットですね。

この2つはだいぶ違いがあって、ロボットやゲームキャラクターは、人間と同じ空間と時間を生きるんですよね。まぁ、生きるという言い方が適切かどうかはわからないですが。

一方、人間をいくら待たせてもいいから正しい答えを言ったり、将棋の手を返したりするデータベース型は、現実が要らない。サーバーの上でひたすら計算して答えを出す。

たぶん、今人工知能をやっている人のほとんどはデータベースのほうで、インタラクティブなAIは実はそんなに多くない。

インタラクティブなAIは人間と同じスピードでできないといけないので、とにかく高速に回さないといけないのですが、そんなにたくさんの計算量はできないので、けっこう制限が強いんですね。

そこが、今みたいな、「ディープラーニングをめっちゃ動かします」という風潮の中では、逆側といいますかね。そういうことを目指して前進してはいるけれど、この第3次ブームの中でどこまで深いところまで行けるかというと、まだそこまで行けていないですね。ゲームにおいては開発時に学習して、推論だけを実行時に動かす、というスタイルです。

例えば今ここの部屋にAIがいるかというと、いないですよね。この時点でまだ社会実装されていない感じがします。じゃあ、2023年中にここになにかAI機能が入るかというと、入らないかもしれない。現実のほうにAIがなかなか深く根付いていないからです。

例えば、都市の中に都市の情報を蓄積しているAIがいたら、そこに初めて来るエージェントたちがコミュニケーションを取ることで現実空間でも十分に動けます。そういうかたちでロボットたちが、デパートの中とか駅のホームの中とか、現実に出ていけばいいなと思っています。

それって、ずっとゲームがやってきたことでもあるんですよね。ゲームのモンスターたちって実は、必ずしも自分でなにもかもセンサリングをしているわけではありません。足元から空間を解析してくれているスパーシャルAI(空間AI)がいたり、上から指令を出してくれるメタAIがいるんですよ(※図1)。

その指令を「自分のほうがローカルで情報を持っているから、俺のほうが正しいと思います」と拒否してもいいし、逆に強制的に聞かせることもできます。「プレイヤーがこっちから来るから、こっちに遠回りして背中について」みたいな、上から見ている神さまAI……メタAIが指令してゲームの状況を動的に作るという技術があります。

図1. 現代のゲームAIの仕組み

「メタAIがいる・キャラクターがいる・空間AIがいる」という、ゲームのAIの3つのシステムは都市空間そのものにも応用できると思っています。簡単に言うと都市空間はゲームみたいなものだから、その技術をなるべく外に出していきたいと思っています。ゲームAIの40年の歴史の中で培われた技術を社会に還元したいなと。大袈裟に言うと、これから社会の中心的なシステムになれるんじゃないかな、と思っています。

不思議な話でこれは僕自身でさえもなかなか予想できなかったことですが、ゲームという一番軽いエンタメの世界が、一番重い都市空間の真ん中でも役に立つ可能性は十分にあると思っています。

(次回へつづく)