松尾豊氏の自己紹介

松尾豊氏:よろしくお願いします。45分ほど、お話をします。

(スライドを示して)私の自己紹介ですが、人工知能の研究をずっとやっています。もう26年ぐらい、ずっと人工知能の研究をやっています。

2017年に日本ディープラーニング協会を作って、2021年からは、「新しい資本主義実現会議」の有識者構成員をしています。

また、2023年5月からは、政府が立ち上げたAI戦略会議の座長も務めています。

AIとは何か?

今日は生成AIの話をしていきたいと思います。

今、生成AIは非常に注目を集めていますが、人工知能の分野自体は非常に歴史が長く、1956年からスタートしています。コンピューターができてほぼすぐの時期に、分野がスタートしました。

第1次AIブーム、第2次AIブームがあって、2010年代から現在にかけてが第3次AIブームだと位置づけられています。

これの中心となっているのがディープラーニングという技術で、その背景にマシンパワーの向上、データ量の増大があります。

(スライドを示して)少し整理しますが、人工知能という分野の中に、機械学習、マシンラーニングという領域があり、その中にディープラーニング、深層学習という領域があり、その中に生成AIがあります。こういった包含関係になっています。

(スライドを示して)生成AIと言ったり、基盤モデルと言ったり、大規模言語モデル、LLMと言ったりするわけですが、多少概念が違っています。

生成AIというのは、生成という側面に注目をした言い方です。生成というのは、もともと機械学習、深層学習の分野でも生成モデルという言い方をしていて、データの生成過程に注目をしたモデルです。

画像認識とかの識別モデル、分類のモデルに比べて、画像を生成するGANやVAEという技術がもともとあったわけですが、そういったモデルを生成モデルと呼んできました。

その性能が非常に上がってきたという意味で、生成AIという言い方をしますが、専門用語的には定義がはっきり定まっているわけではなく、生成モデルというものともちょっと違いますし、若干ざっくりとした用語です。

一方で、基盤モデル、Foundation Modelという言い方もしますが、これは自然言語や画像などに共通して、事前に学習したモデルを用いて継続タスク、ダウンストリームのタスクに適用可能にしたもので、トランスフォーマーが使われる場合が多いです。そして、言語だけではなく画像に対しても共通に、同じような枠組みが使えるはずで、それを基盤モデルと呼びましょうということですね。

大規模言語モデルは言語モデルなので、言語に限った話ですが、これを大規模にすればするほどいいということがわかったので、これが大規模化していることを指した言葉ですね。

なので、それぞれ微妙に意味合いが違うのですが、みなさんだいぶそれぞれ使っておられるので、ちょっと整理しました。

鍵となる技術その1 トランスフォーマー

(スライドを示して)いずれにしても、非常に重要な技術的なポイントが2個だけあって、それはトランスフォーマーと自己教師あり学習です。私は、この2つだけを理解すれば、ほとんど大雑把には理解できると思っています。

トランスフォーマーは、ディープラーニングの技術の1つですが、従来のものとだいぶ形が違っています。

2017年に『Attention Is All You Need』という論文が出ました。アテンションという、ニューラルネットワークの中のどこに注目するかという機構があるのですが、これを大規模に使う、多層に使うということをやったものです。

右のように、セルフアテンション、マルチヘッドのアテンションという機構と、フィードフォワードの部分が折り重なっていくような構造をしています。

これでなぜうまくいくのかというのは、いろいろと説明が難しく、その挙動が十分にわかっていない部分もあるのですが、いずれにしても非常に柔軟な処理が可能です。

要するに、遠くのほうの依存関係を取り出すことができます。自然言語の文の場合における、例えば「これ」とか「それ」とか「あれ」というような指示代名詞は、非常に遠くを指すこともありますし、トピックのつながりも非常に長距離にわたることがあります。

そういった長距離の依存関係も取り出すことができますし、そういった依存関係に基づいて、また次の挙動を変えていくこともできるということで、非常に柔軟な挙動が可能です。データからデータを学習できるようになっているということで、トランスフォーマーは非常に重要です。

鍵となる技術その2 自己教師あり学習

もう1つが、自己教師あり学習です。これはNext Word PredictionやNext-Token Predictionという言われ方もしますが、自然言語処理の場合は、途中までの部分を読み込ませて次の単語を予測します。

そうすると、正解データ、正解のラベルを用意しなくていいです。文章があるだけで、途中まで(の文章)から次の単語を予測するという予測問題を作ることができ、この問題を使って学習をさせると、次の単語がうまく当てられるモデルができるわけです。

なぜそれができるといいかというと、次の単語をうまく当てられるようになるには、単語の連接の確率だけではなく、文法構造やトピックのつながりや背景知識など、いろいろなことを学習する必要があるからです。トランスフォーマーを使ってやるだけで、非常に背後にあるいろいろな構造を学習することができます。

いったんこれを学習しておくと、継続タスク、ダウンストリームのタスクに対して、サンプル数が少なくても、非常に精度が上がりやすいということが起きるので、この自己教師あり学習がトランスフォーマーと併せて使われるようになりました。

パラメーターを大きくすればするほど精度が上がるという法則「Scaling Law」

(スライドを示して)この仕組みが非常に有効だということで、いろいろな開発が進んできたのですが、2020年に「GPT-3」が出ました。基本的には、非常に大きなモデルを作るといいので、1750億パラメーターという非常に巨大なモデルになっています。

2020年の夏、当時、研究者らの間では非常にこのGPT-3は話題になっていて、かなりすごい技術だよねと言われていました。

人間の質問に対して非常に的確に答えることができるとか、パラメーター数が多いモデルなのでいろいろなことを覚えていて、例えばミシガン州の人口も取り出すことができるとか、少しキーワードを入れるだけで文章を非常にきちんと生成できるということが、すでに知られていました。

(スライドを示して)重要な法則が、Scaling Law、スケール則です。これはパラメーターを大きくすればするほど精度が上がるという法則です。

一番右の図を見てもらうと、パラメーターの数が横軸で、縦軸がTest Lossと書いてあります。トレーニングをしてテストをする時のテストの図なので、間違いの確率と読み替えてもらってもいいのですが、これが下がるということは、要するに性能が上がるということです。

なので、パラメーターの数を増やせば増やすほど性能が上がります。これは、両対数なのですが、重要なのはサチらないということで、どこかで精度が止まったりせずに、ひたすら良くなり続けるということです。

パラメーターの数、データセットの大きさ、それから計算機のパワー、いずれも大きくすればするほどTest Lossが下がります。

これは、生成AI、LLMの文脈でよく知られている図ですが、非常に不思議なことで、パラメーターの数が大きくなると性能が上がるというのは、従来の統計や機械学習のパラダイムとまったく違います。

従来は、基本的に適切なモデルサイズにすべきだということで、パラメーターの数を大きくしすぎるとオーバーフィットする、過剰適合すると。なので、トレーニングには良くても、テストの時には性能が下がるというのが一般的な話でした。

ところが、このトランスフォーマー、自己教師あり学習のパラダイムは、パラメーターの数を大きくすればするほど性能が上がって、Test Lossが実際に下がるということで、非常に不思議な現象が起きています。

この説明もできますが、まだまだどういうことが起こっているかというのがはっきりわかっているわけではありません。ただ非常に今までと違うことが起きているということですね。

こういうScaling Law(スケーリング則)、大きくすれば性能が上がるということがわかったがゆえに、「より大きなモデルを作りましょう」という競争が起こりました。

適切なサイズのモデルを使えばいいという従来どおりの話であれば、今のような大規模にするという競争は起きていなかったわけです。

ですが、パラメーターの数を大きくすればいいということがわかったわけなので、次々とより大きなモデルが提案されて、中国では1兆7,500億パラメーターという非常に巨大なものも作られています。

(次回へつづく)