2024.12.19
システムの穴を運用でカバーしようとしてミス多発… バグが大量発生、決算が合わない状態から業務効率化を実現するまで
リンクをコピー
記事をブックマーク
松尾豊氏:よろしくお願いします。45分ほど、お話をします。
(スライドを示して)私の自己紹介ですが、人工知能の研究をずっとやっています。もう26年ぐらい、ずっと人工知能の研究をやっています。
2017年に日本ディープラーニング協会を作って、2021年からは、「新しい資本主義実現会議」の有識者構成員をしています。
また、2023年5月からは、政府が立ち上げたAI戦略会議の座長も務めています。
今日は生成AIの話をしていきたいと思います。
今、生成AIは非常に注目を集めていますが、人工知能の分野自体は非常に歴史が長く、1956年からスタートしています。コンピューターができてほぼすぐの時期に、分野がスタートしました。
第1次AIブーム、第2次AIブームがあって、2010年代から現在にかけてが第3次AIブームだと位置づけられています。
これの中心となっているのがディープラーニングという技術で、その背景にマシンパワーの向上、データ量の増大があります。
(スライドを示して)少し整理しますが、人工知能という分野の中に、機械学習、マシンラーニングという領域があり、その中にディープラーニング、深層学習という領域があり、その中に生成AIがあります。こういった包含関係になっています。
(スライドを示して)生成AIと言ったり、基盤モデルと言ったり、大規模言語モデル、LLMと言ったりするわけですが、多少概念が違っています。
生成AIというのは、生成という側面に注目をした言い方です。生成というのは、もともと機械学習、深層学習の分野でも生成モデルという言い方をしていて、データの生成過程に注目をしたモデルです。
画像認識とかの識別モデル、分類のモデルに比べて、画像を生成するGANやVAEという技術がもともとあったわけですが、そういったモデルを生成モデルと呼んできました。
その性能が非常に上がってきたという意味で、生成AIという言い方をしますが、専門用語的には定義がはっきり定まっているわけではなく、生成モデルというものともちょっと違いますし、若干ざっくりとした用語です。
一方で、基盤モデル、Foundation Modelという言い方もしますが、これは自然言語や画像などに共通して、事前に学習したモデルを用いて継続タスク、ダウンストリームのタスクに適用可能にしたもので、トランスフォーマーが使われる場合が多いです。そして、言語だけではなく画像に対しても共通に、同じような枠組みが使えるはずで、それを基盤モデルと呼びましょうということですね。
大規模言語モデルは言語モデルなので、言語に限った話ですが、これを大規模にすればするほどいいということがわかったので、これが大規模化していることを指した言葉ですね。
なので、それぞれ微妙に意味合いが違うのですが、みなさんだいぶそれぞれ使っておられるので、ちょっと整理しました。
(スライドを示して)いずれにしても、非常に重要な技術的なポイントが2個だけあって、それはトランスフォーマーと自己教師あり学習です。私は、この2つだけを理解すれば、ほとんど大雑把には理解できると思っています。
トランスフォーマーは、ディープラーニングの技術の1つですが、従来のものとだいぶ形が違っています。
2017年に『Attention Is All You Need』という論文が出ました。アテンションという、ニューラルネットワークの中のどこに注目するかという機構があるのですが、これを大規模に使う、多層に使うということをやったものです。
右のように、セルフアテンション、マルチヘッドのアテンションという機構と、フィードフォワードの部分が折り重なっていくような構造をしています。
これでなぜうまくいくのかというのは、いろいろと説明が難しく、その挙動が十分にわかっていない部分もあるのですが、いずれにしても非常に柔軟な処理が可能です。
要するに、遠くのほうの依存関係を取り出すことができます。自然言語の文の場合における、例えば「これ」とか「それ」とか「あれ」というような指示代名詞は、非常に遠くを指すこともありますし、トピックのつながりも非常に長距離にわたることがあります。
そういった長距離の依存関係も取り出すことができますし、そういった依存関係に基づいて、また次の挙動を変えていくこともできるということで、非常に柔軟な挙動が可能です。データからデータを学習できるようになっているということで、トランスフォーマーは非常に重要です。
もう1つが、自己教師あり学習です。これはNext Word PredictionやNext-Token Predictionという言われ方もしますが、自然言語処理の場合は、途中までの部分を読み込ませて次の単語を予測します。
そうすると、正解データ、正解のラベルを用意しなくていいです。文章があるだけで、途中まで(の文章)から次の単語を予測するという予測問題を作ることができ、この問題を使って学習をさせると、次の単語がうまく当てられるモデルができるわけです。
なぜそれができるといいかというと、次の単語をうまく当てられるようになるには、単語の連接の確率だけではなく、文法構造やトピックのつながりや背景知識など、いろいろなことを学習する必要があるからです。トランスフォーマーを使ってやるだけで、非常に背後にあるいろいろな構造を学習することができます。
いったんこれを学習しておくと、継続タスク、ダウンストリームのタスクに対して、サンプル数が少なくても、非常に精度が上がりやすいということが起きるので、この自己教師あり学習がトランスフォーマーと併せて使われるようになりました。
(スライドを示して)この仕組みが非常に有効だということで、いろいろな開発が進んできたのですが、2020年に「GPT-3」が出ました。基本的には、非常に大きなモデルを作るといいので、1750億パラメーターという非常に巨大なモデルになっています。
2020年の夏、当時、研究者らの間では非常にこのGPT-3は話題になっていて、かなりすごい技術だよねと言われていました。
人間の質問に対して非常に的確に答えることができるとか、パラメーター数が多いモデルなのでいろいろなことを覚えていて、例えばミシガン州の人口も取り出すことができるとか、少しキーワードを入れるだけで文章を非常にきちんと生成できるということが、すでに知られていました。
(スライドを示して)重要な法則が、Scaling Law、スケール則です。これはパラメーターを大きくすればするほど精度が上がるという法則です。
一番右の図を見てもらうと、パラメーターの数が横軸で、縦軸がTest Lossと書いてあります。トレーニングをしてテストをする時のテストの図なので、間違いの確率と読み替えてもらってもいいのですが、これが下がるということは、要するに性能が上がるということです。
なので、パラメーターの数を増やせば増やすほど性能が上がります。これは、両対数なのですが、重要なのはサチらないということで、どこかで精度が止まったりせずに、ひたすら良くなり続けるということです。
パラメーターの数、データセットの大きさ、それから計算機のパワー、いずれも大きくすればするほどTest Lossが下がります。
これは、生成AI、LLMの文脈でよく知られている図ですが、非常に不思議なことで、パラメーターの数が大きくなると性能が上がるというのは、従来の統計や機械学習のパラダイムとまったく違います。
従来は、基本的に適切なモデルサイズにすべきだということで、パラメーターの数を大きくしすぎるとオーバーフィットする、過剰適合すると。なので、トレーニングには良くても、テストの時には性能が下がるというのが一般的な話でした。
ところが、このトランスフォーマー、自己教師あり学習のパラダイムは、パラメーターの数を大きくすればするほど性能が上がって、Test Lossが実際に下がるということで、非常に不思議な現象が起きています。
この説明もできますが、まだまだどういうことが起こっているかというのがはっきりわかっているわけではありません。ただ非常に今までと違うことが起きているということですね。
こういうScaling Law(スケーリング則)、大きくすれば性能が上がるということがわかったがゆえに、「より大きなモデルを作りましょう」という競争が起こりました。
適切なサイズのモデルを使えばいいという従来どおりの話であれば、今のような大規模にするという競争は起きていなかったわけです。
ですが、パラメーターの数を大きくすればいいということがわかったわけなので、次々とより大きなモデルが提案されて、中国では1兆7,500億パラメーターという非常に巨大なものも作られています。
(次回へつづく)
2024.12.20
日本の約10倍がん患者が殺到し、病院はキャパオーバー ジャパンハートが描く医療の未来と、カンボジアに新病院を作る理由
2024.12.19
12万通りの「資格の組み合わせ」の中で厳選された60の項目 532の資格を持つ林雄次氏の新刊『資格のかけ算』の見所
2024.12.16
32歳で成績最下位から1年でトップ営業になれた理由 売るテクニックよりも大事な「あり方」
2023.03.21
民間宇宙開発で高まる「飛行機とロケットの衝突」の危機...どうやって回避する?
PR | 2024.12.20
モンスター化したExcelが、ある日突然崩壊 昭和のガス工事会社を生まれ変わらせた、起死回生のノーコード活用術
2024.12.12
会議で発言しやすくなる「心理的安全性」を高めるには ファシリテーションがうまい人の3つの条件
2024.12.18
「社長以外みんな儲かる給与設計」にした理由 経営者たちが語る、優秀な人材集め・会社を発展させるためのヒント
2024.12.17
面接で「後輩を指導できなさそう」と思われる人の伝え方 歳を重ねるほど重視される経験の「ノウハウ化」
2024.12.13
ファシリテーターは「しゃべらないほうがいい」理由 入山章栄氏が語る、心理的安全性の高い場を作るポイント
2024.12.10
メールのラリー回数でわかる「評価されない人」の特徴 職場での評価を下げる行動5選
Climbers Startup JAPAN EXPO 2024 - 秋 -
2024.11.20 - 2024.11.21
『主体的なキャリア形成』を考える~資格のかけ算について〜
2024.12.07 - 2024.12.07
Startup CTO of the year 2024
2024.11.19 - 2024.11.19
社員の力を引き出す経営戦略〜ひとり一人が自ら成長する組織づくり〜
2024.11.20 - 2024.11.20
「確率思考」で未来を見通す 事業を成功に導く意思決定 ~エビデンス・ベースド・マーケティング思考の調査分析で事業に有効な予測手法とは~
2024.11.05 - 2024.11.05