ITの歴史上最も重要な出来事

ジョン・ヘネシー氏:ここからはAIのディープラーニングの革命について、全体像をお話しします。これはITの歴史上最も重要な出来事であり、トランジスタの発明やデジタルコンピューターによる変革以来となるものです。この2つから世界の産業全体が生まれたのですが、ディープラーニングはそれに匹敵する技術です。

この技術の応用範囲は飛躍的な広がりを見せています。AlphaGoが囲碁チャンピオンに勝利するという2つのブレイクスルーが早期段階で起こり、大きな話題になりました。AI業界の人間ですら、あの勝利に到達するには10~20年はかかると考えていました。それほど技術は劇的に進化しているのです。

そして、このあとご紹介するImageNetと画像認識です。

画像認識こそが自動運転車を推進する技術です。自動運転車には必ず優れた画像認識技術が搭載されています。画像認識は必須の機能です。自動車と歩行者と車を識別し、それが動いているかどうか識別できなければなりません。

複雑な問題が数多くあります。一時停止の標識や信号を認識する機能が必要です。このような難しい問題に対処するのに機械学習の技術がなければ、複雑すぎてアルゴリズムを作成できません。

これは私のお気に入りの事例です。Googleとスタンフォード大学医学部が共同構築したもので、皮膚の病変を見て、がんであるかどうかを判断します。このシステムは今や医師団と同等のパフォーマンスを発揮することができます。大量のデータで訓練した結果です。事実、皮膚科医などを養成する際に用いるのとまったく同じデータで訓練しています。このため非常に高い性能を持つのです。

そして自動翻訳です。ラテン語をベースとする言語でバイリンガルと同等の翻訳ができるまでになりました。英語と日本語ではそこまでに至っていませんが、1~2年もすれば達成できるでしょう。バイリンガル並みの翻訳ができるはずです。

一方で、まったく別の活用例もあります。その成果に人々は衝撃を受けました。計算生物学の最重要の問題の1つとは、タンパク質のフォールディングや構造の検出です。

これは非常に重要な問題です。新薬を計画する際には、タンパク質の構造とそれに対する化合の状況を把握する必要があります。ロンドンにあるグループ会社のDeepMindはAlphaFoldを構築しました。AlphaFoldはタンパク質フォールディングに関して基本的に他社より20年進んでいる技術でした。長い歴史に裏打ちされた努力の結晶です。

私の同僚のスタンフォード大のマイケル・レヴィットがノーベル賞を受賞した長年の研究を基に進歩を20年早めました。そして、AIラーニングにより大量のデータからタンパク質の構造を計算するという大きな進歩を遂げました。

AI領域で驚異的なブレイクスルーが起きた理由

これは最近見つけた興味深いスライドです。この黒い線は人間の性能を示し、すなわち人間の優位性を示しています。ここに示すさまざまなタスクについて、AIが人間に比べ、いかに優れているかがわかります。

画像認識や手書き文字認識、音声認識などはすべて改善されています。過去2年間に注目すると、グラフの線はほぼ垂直になっています。ChatGPTなどのいわゆる大規模言語モデルがここで登場したのです。

これらの分野は、ここ数年で利用が始まった技術です。大きなブレイクスルーがあって、今もこの分野は進化を続けています。私はコンピューターサイエンスに45年携わっていますが、このように進化する領域を見たことはありません。驚異的なスピードです。

このポイントですべての問題について人間のパフォーマンスを超えています。次々に新たな技術が登場しています。この進化の理由とは何でしょう。すべての技術を成功に導くブレイクスルーが突如起きた理由とは。いくつかポイントがあります。

まず、アルゴリズムのブレイクスルーです。ディープラーニング、誤差逆伝播法、埋め込み、機械学習の一種である強化学習。大量のデータや科学者・専門家の存在です。たくさんの研究が中心となり、改善を進めてきました。

そして大規模言語モデルや基盤モデルと呼ばれるもの。ChatGPTはその基盤モデルです。これらは大規模言語モデルで、非常に大規模です。自然言語を一般的な知識と組み合わせています。2つの要素が結合しているのです。

単なる自然言語や一般知識ではなく、2つの組み合わせであるがゆえに強みを発揮するのです。コンピューターサイエンスのチューリングテストにも合格するでしょう。これはアラン・チューリングが提唱した、知能を測るためのテストです。

チューリングの考えとして、まず近くの部屋にいる人と会話を続けたとします。相手がコンピューターか人間かわからなければ、知能を持ったシステムとなります。知能を定義することはできません。唯一の定義は知能があるように振る舞うことです。

チューリングはこうした考えからこのテストを作り出しました。会話し続けると相手が人間かChatGPTか区別できなくなることが多かったと思います。本当にそうです。とても自然にやり取りできるので、人間との区別がつかなくなるのです。

もちろん、今はまだ間違うこともありますが、一般的な会話なら人間と話すのと変わりないでしょう。

大規模言語AIモデルに、ある物語を要約させるという実験が実際に行われたことがあります。2段落の要約を書いた新しいデータストアです。

AIモデルだけではなく人間にも要約を書いてもらいました。そして、オーディエンスに対して、どちらが人間が書いたもので、どちらがコンピューターが書いたものかと尋ねました。ご想像の通り、どちらが人間かコンピューターかはオーディエンスにはわかりませんでした。

システムの訓練に使われる膨大なデータ

3点目は、システムを訓練するための膨大なデータです。訓練用のデータがなければ、知能が低いシステムのままです。一般常識も持ち合わせていません。データセットから学んだことしかわからない状態です。

ですから、WWWやWikipediaやImageNetなど訓練用に膨大なデータが必要です。これは、非常に重要です。そしてデータが良質でクリーンであることも必要です。Wikipediaの99パーセントは正確な情報です。十分に良質だと言えるでしょう。

正確性が重視されます。システムの質は訓練データ次第です。大量の演算リソースも必要です。世界で最も大規模な演算が必要となるのは、このようなAIの訓練の実行です。天気予報や車両衝突解析モデルをはるかに上回る規模の演算です。

例えば、航空機の設計など、あらゆる演算モデルの中でも、最も品質が優れています。これらより大規模でもあります。それは数千億もの変数を使用するためです。ニューラルネットワークの重み付けも使っています。ニューラルネットワークの入力層に1,000のエントリーがあると想像してください。

出力層にも1,000のエントリーがあり、15~20のレベルを持っています。そうすると、設定すべきパラメータは数千億に及びます。つまり計算上、極めて高い訓練のコストがかかります。高い利用コストがかかる上、訓練のコストはそれを上回ります。

ImageNetについて紹介します。私の同僚であるスタンフォード大学のフェイフェイ・リがクラウドソーシングにより構築したのがImageNetです。

インターネット上の画像に馬や犬などのラベルをつけていって、この膨大なデータセットを作り上げるために使用されました。その中には8万以上のオブジェクトがあり、オブジェクトごとに500以上の画像があります。非常に大規模なデータセットです。

画像認識システムの訓練には、このようなデータセットが使われます。人間を超越する可能性を持つ理由とは、このシステムが違いを見分けられるからです。

犬か猫かを判断する際の人間とシステムの違い

犬か猫かを区別するだけではなく、犬の種類まで判断できます。犬でも猫でも判断可能です。人間にとってはかなり難しいことで、できない場合もよくあります。システムをこのレベルまで訓練できるのです。

しかしシステムは人間と同じように考えるわけではありません。例えば、私の4歳の孫娘に「なぜあれが猫なのか」と尋ねてみます。耳が尖っていて、犬よりふわふわしていて、尻尾が丸まっているからと彼女は答えるでしょう。

システムはそのように考えません。絶対に違います。システムは犬と猫の画像を大量に見ることで初めて見る画像に対して判定を行います。統計的に犬と猫のどちらに近いか判断するのです。このような統計的判断は、耳が尖っているとか小型であるといった思考とはまったく別のものです。画像を見てデータを単純に処理し、結果を導き出しています。

これらのシステムは一般常識による思考などに特に長けているのではなく、データを入力すれば適切な対処をするだけです。こうした訓練のコストがどの程度のスピードで上昇するかグラフをご覧ください。

最初期のものとして2013年頃、ディープラーニングシステムに変革をもたらしたAlexNetを取り上げています。また2020年頃にはAlphaGo Zeroが登場します。これはAlphaGoのあるバージョンで、組み込み型知識を使わず、囲碁の学習訓練を行っています。よって、戦略も一切持っていません。

AlphaGo Zeroに加え、チェスをプレーするAlpha Zeroもあります。プレーを学ぶため、プログラムの別バージョンと対局します。2つのバージョンが対局し勝者が決まると、どちらの重み付けがよいかが判断できます。

これを基に重みを調整して、再度対局させ、勝者を昇格させていきます。何局ほど必要になるのでしょうか。適切な結果を得るには1億回の対局が必要です。棋士は生涯で1億回も対局するでしょうか。優れた対局をするとしても、数は遠く及ばないでしょう。

しかしシステムは囲碁についての書籍などから得られるであろうシンプルな情報を明らかにするために、膨大な量の演算を行います。書籍の代わりに大量のデータを使うのです。

ルールや指示ではなく、「大量のデータ」による訓練の効果

別の角度から考えてみましょう。プログラミングにルールや指示ではなく、データを用いるのです。システムのために大量のルールを設定するのではなく、データを使ってインテリジェントに反応するシステムを構築します。

LLMと呼ばれる最新の大規模言語モデルには、ChatGPTの基盤であるGPT-3やDeepMindのLaMDAなどがありますが、これらは数千億のパラメータを持ちます。ChatGPTのパラメータは約1,500億です。

訓練時には1,500億ものパラメータを一つひとつ設定しなければなりません。これが演算上コストが高い理由です。この作業だけをこなすのに、世界最速のマシンでも数ヶ月もかかると考えてみてください。訓練には月1,000万ドルがかかり、それがおそらく5ヶ月分必要となるでしょう。とてつもなく大変な仕事量です。

しかし、これらが世界を変えつつあります。世界を変えていくその理由の1つは、いわゆる創発的行動に対応するようになったことです。

システムの能力は私たちの想定を上回っています。私たちが考えるよりも知的で“思慮深い”振る舞いをするのです。これは大量のデータで訓練されているためです。

ChatGPTはWikipediaの20~25倍のデータで訓練されていると思われます。Wikipediaは実際に印刷された世界最大の百科事典より約20倍の情報量を持ちます。つまり百科事典の500倍のデータに相当します。

ChatGPTは膨大な量のデータで訓練され、新しい手法を採り入れてもいます。非常に多くの研究が行われることで、日々新たな手法が生み出されています。

数年前までは翻訳には長・短期記憶と呼ばれる技術を使っていました。しかし、ベスト・オブ・ブリードの技術であったにもかかわらず、Transformerモデルという新しいシステムに置き換えられ、4年ほどでまったく使われなくなりました。

ChatGPTもTransformerをベースとしています。文字列を入力すると文字列が出力されます。入力文字列を出力文字列に変換し、重み付けを設定することで意味のある内容にします。

ChatGPTの回答精度を高めるユーザーのフィードバック

ただし、信ぴょう性は判断されず、有害な回答を防ぐこともできません。粗悪な訓練データを用いれば、粗悪な回答しか得られません。信ぴょう性はまったく問われないのです。わかりやすい例を挙げましょう。

ChatGPTにトピックを与えて作文させたところ、引用とともに文章を返してきました。しかし、存在しない参照先の記事を挙げてきたのです。ChatGPTは引用の形式は知っていても、議論されるトピックに関連した論文を引用しなければならないことは知りませんでした。

その意味でこれらのシステムは極めて脆弱です。そこでChatGPTの開発者たちは、何千人もの人にChatGPTを実行させました。回答が誤りである場合は指摘をさせるということをしていました。

そして、その情報を取り込みます。このように、システムを微調整していきました。訓練を最初からやり直す必要はなく、微調整を行うことで、次に同じ質問をされた時に正しい回答ができるようにします。

人手はかかりますが、このシステムには多くの魅力的な用途があるため、フィードバックのために大量の人員を雇うだけの投資に見合う価値があるのです。

ChatGPTのユーザーもおもしろい回答を得られるかどうかにかかわらず、みんな「喜んでフィードバック」しています。

文章、コード、画像、動画作成…急拡大する技術の用途

つい、話がそれてしまいました。これは時間のある時にお読みください。私はChatGPTに対し、日本人の最も重要な特徴について尋ねてみました。すると、社会体制を重んじ、礼儀正しく、家族やコミュニティを大切にする特徴があるという回答が得られました。

AIシステムの回答としてはかなり良いものです。Wikipediaの内容をそのまま述べるのではなく、回答をかなり興味深い方法で組み立てています。時には誤った回答をすることもありますが、かなりの頻度で適切に答えています。

この技術の用途はさまざまな分野で急速に拡大しています。

文章も適切に理解できます。マーケティングのコピーもこうしたシステムが書くようになるでしょう。Salesforceの次のバージョンも、このような技術を基盤とし、生成AIを活用することになるでしょう。

コードに関しては、Copilotなどが自動的に作成してくれます。間違いもあるため確認は必要です。とはいえ、相当な品質を実現しています。

DALL·Eなどは画像を生成することができます。PowerPointでこういった画像が必要でしょうか。それを検索するだけではなく、描画するように命じることもできます。

ゴッホが描いたようなひまわりの中にいる紫の猫の画像が必要なら描いてくれます。音声認識についても、すでに実績があります。動画の自動生成についても、取り組みが進んでいます。水の中を歩く宇宙飛行士の動画さえも問題なく作成できます。

このように、用途は拡大しています。これはSequoiaの友人によるスライドです。

これらの多くがさまざまな製品にどんどん組み込まれるようになりました。今後実現するものもあります。技術は急速に発展し、人々も進化を続けています。あと10年もたてば実現できるでしょう。

詳しくは後ほどご覧いただければと思いますが、この分野は驚異的な速度で進化しています。

「AI時代」の人間の競争力

本日の締めくくりに、多くの人から問われる、実に興味深い問いを投げかけたいと思います。これらのシステムが多様なタスクで人間に匹敵する力を持つのはいつ頃でしょうか。これは特化型AIの対義語としてしばしば「汎用人工知能」と呼ばれるものです。

1つの機能のみ持つのではなく、大変多くのことができるAIです。このようなシステムの実現は日に日に近づいています。大規模言語モデルは、少なくともこの10年間で大きく進化しました。汎用人工知能も、やがて実現するでしょう。完全に人間に置き換わるわけではありません。

赤ん坊は、物事をどのように学んでいるでしょうか。大人が横に座って一字一句言葉や絵を教えるわけではありません。猫だ犬だ魚だとすべて教えたりはしませんよね? 赤ん坊は自然に知識を身につけるのです。システムではそれができません。そこが問題なのです。

しかし、システムは非常に迅速に学習ができます。人間がチェスや囲碁で世界クラスになるにはどれくらいかかるでしょうか。20年以上かかるかもしれません。システムならたった24時間です。

人間の脳の作りでコンピューターには決して敵わないすばらしい強みが1つあります。私たちの脳は、20ワット程度のエネルギーしか消費しません。一方、システムは訓練にその1,000倍ものエネルギーが必要です。1,000倍も必要です! 

私たちには神や進化により与えられた効率性や創造性があり、それに匹敵するものなど存在しないのです。だからこそ、この分野は非常に刺激的で驚異的なブレイクスルーが生まれるはずです。人間には付加価値を提供し、真に創造性を発揮できるチャンスがあふれています。ご清聴ありがとうございました。