ログイン

会員登録

ログイン

会員登録

検索

お知らせ

ログイン

メニュー

検索

お知らせ

ログイン

メニュー

Developer eXperience Day 2023

2023.06.14 - 2023.06.15

ChatGPTという現象、 LLMが開いたAI時代と日本の戦略（全3記事）

2023.07.26

メインカテゴリテクノロジー

技術の鍵は「トランスフォーマー」と「自己教師あり学習」　松尾豊氏が、第3次AIブームからひもとく“AIの歴史”

コピーリンクをコピー

ブックマーク記事をブックマーク

画像・スライド一覧

日本CTO協会が主催の「Developer eXperience Day 2023」は、“開発者体験” をテーマに、その知見・経験の共有とそれに関わる方々のコミュニケーションを目的としたカンファレンスです。ここで登壇したのは、東京大学の教授である松尾豊氏。LLMの技術的な概要について解説するとともに、今後の技術的な進展について発表しました。全3回。1回目は、AIの技術について。

松尾豊氏の自己紹介

松尾豊氏：よろしくお願いします。45分ほど、お話をします。

（スライドを示して）私の自己紹介ですが、人工知能の研究をずっとやっています。もう26年ぐらい、ずっと人工知能の研究をやっています。

2017年に日本ディープラーニング協会を作って、2021年からは、「新しい資本主義実現会議」の有識者構成員をしています。

また、2023年5月からは、政府が立ち上げたAI戦略会議の座長も務めています。

AIとは何か？

今日は生成AIの話をしていきたいと思います。

今、生成AIは非常に注目を集めていますが、人工知能の分野自体は非常に歴史が長く、1956年からスタートしています。コンピューターができてほぼすぐの時期に、分野がスタートしました。

第1次AIブーム、第2次AIブームがあって、2010年代から現在にかけてが第3次AIブームだと位置づけられています。

これの中心となっているのがディープラーニングという技術で、その背景にマシンパワーの向上、データ量の増大があります。

（スライドを示して）少し整理しますが、人工知能という分野の中に、機械学習、マシンラーニングという領域があり、その中にディープラーニング、深層学習という領域があり、その中に生成AIがあります。こういった包含関係になっています。

（スライドを示して）生成AIと言ったり、基盤モデルと言ったり、大規模言語モデル、LLMと言ったりするわけですが、多少概念が違っています。

生成AIというのは、生成という側面に注目をした言い方です。生成というのは、もともと機械学習、深層学習の分野でも生成モデルという言い方をしていて、データの生成過程に注目をしたモデルです。

画像認識とかの識別モデル、分類のモデルに比べて、画像を生成するGANやVAEという技術がもともとあったわけですが、そういったモデルを生成モデルと呼んできました。

その性能が非常に上がってきたという意味で、生成AIという言い方をしますが、専門用語的には定義がはっきり定まっているわけではなく、生成モデルというものともちょっと違いますし、若干ざっくりとした用語です。

一方で、基盤モデル、Foundation Modelという言い方もしますが、これは自然言語や画像などに共通して、事前に学習したモデルを用いて継続タスク、ダウンストリームのタスクに適用可能にしたもので、トランスフォーマーが使われる場合が多いです。そして、言語だけではなく画像に対しても共通に、同じような枠組みが使えるはずで、それを基盤モデルと呼びましょうということですね。

大規模言語モデルは言語モデルなので、言語に限った話ですが、これを大規模にすればするほどいいということがわかったので、これが大規模化していることを指した言葉ですね。

なので、それぞれ微妙に意味合いが違うのですが、みなさんだいぶそれぞれ使っておられるので、ちょっと整理しました。

鍵となる技術その1　トランスフォーマー

（スライドを示して）いずれにしても、非常に重要な技術的なポイントが2個だけあって、それはトランスフォーマーと自己教師あり学習です。私は、この2つだけを理解すれば、ほとんど大雑把には理解できると思っています。

トランスフォーマーは、ディープラーニングの技術の1つですが、従来のものとだいぶ形が違っています。

2017年に『Attention Is All You Need』という論文が出ました。アテンションという、ニューラルネットワークの中のどこに注目するかという機構があるのですが、これを大規模に使う、多層に使うということをやったものです。

右のように、セルフアテンション、マルチヘッドのアテンションという機構と、フィードフォワードの部分が折り重なっていくような構造をしています。

これでなぜうまくいくのかというのは、いろいろと説明が難しく、その挙動が十分にわかっていない部分もあるのですが、いずれにしても非常に柔軟な処理が可能です。

要するに、遠くのほうの依存関係を取り出すことができます。自然言語の文の場合における、例えば「これ」とか「それ」とか「あれ」というような指示代名詞は、非常に遠くを指すこともありますし、トピックのつながりも非常に長距離にわたることがあります。

そういった長距離の依存関係も取り出すことができますし、そういった依存関係に基づいて、また次の挙動を変えていくこともできるということで、非常に柔軟な挙動が可能です。データからデータを学習できるようになっているということで、トランスフォーマーは非常に重要です。

鍵となる技術その2　自己教師あり学習

もう1つが、自己教師あり学習です。これはNext Word PredictionやNext-Token Predictionという言われ方もしますが、自然言語処理の場合は、途中までの部分を読み込ませて次の単語を予測します。

そうすると、正解データ、正解のラベルを用意しなくていいです。文章があるだけで、途中まで（の文章）から次の単語を予測するという予測問題を作ることができ、この問題を使って学習をさせると、次の単語がうまく当てられるモデルができるわけです。

なぜそれができるといいかというと、次の単語をうまく当てられるようになるには、単語の連接の確率だけではなく、文法構造やトピックのつながりや背景知識など、いろいろなことを学習する必要があるからです。トランスフォーマーを使ってやるだけで、非常に背後にあるいろいろな構造を学習することができます。

いったんこれを学習しておくと、継続タスク、ダウンストリームのタスクに対して、サンプル数が少なくても、非常に精度が上がりやすいということが起きるので、この自己教師あり学習がトランスフォーマーと併せて使われるようになりました。

パラメーターを大きくすればするほど精度が上がるという法則「Scaling Law」

（スライドを示して）この仕組みが非常に有効だということで、いろいろな開発が進んできたのですが、2020年に「GPT-3」が出ました。基本的には、非常に大きなモデルを作るといいので、1750億パラメーターという非常に巨大なモデルになっています。

2020年の夏、当時、研究者らの間では非常にこのGPT-3は話題になっていて、かなりすごい技術だよねと言われていました。

人間の質問に対して非常に的確に答えることができるとか、パラメーター数が多いモデルなのでいろいろなことを覚えていて、例えばミシガン州の人口も取り出すことができるとか、少しキーワードを入れるだけで文章を非常にきちんと生成できるということが、すでに知られていました。

（スライドを示して）重要な法則が、Scaling Law、スケール則です。これはパラメーターを大きくすればするほど精度が上がるという法則です。

一番右の図を見てもらうと、パラメーターの数が横軸で、縦軸がTest Lossと書いてあります。トレーニングをしてテストをする時のテストの図なので、間違いの確率と読み替えてもらってもいいのですが、これが下がるということは、要するに性能が上がるということです。

なので、パラメーターの数を増やせば増やすほど性能が上がります。これは、両対数なのですが、重要なのはサチらないということで、どこかで精度が止まったりせずに、ひたすら良くなり続けるということです。

パラメーターの数、データセットの大きさ、それから計算機のパワー、いずれも大きくすればするほどTest Lossが下がります。

これは、生成AI、LLMの文脈でよく知られている図ですが、非常に不思議なことで、パラメーターの数が大きくなると性能が上がるというのは、従来の統計や機械学習のパラダイムとまったく違います。

従来は、基本的に適切なモデルサイズにすべきだということで、パラメーターの数を大きくしすぎるとオーバーフィットする、過剰適合すると。なので、トレーニングには良くても、テストの時には性能が下がるというのが一般的な話でした。

ところが、このトランスフォーマー、自己教師あり学習のパラダイムは、パラメーターの数を大きくすればするほど性能が上がって、Test Lossが実際に下がるということで、非常に不思議な現象が起きています。

この説明もできますが、まだまだどういうことが起こっているかというのがはっきりわかっているわけではありません。ただ非常に今までと違うことが起きているということですね。

こういうScaling Law（スケーリング則）、大きくすれば性能が上がるということがわかったがゆえに、「より大きなモデルを作りましょう」という競争が起こりました。

適切なサイズのモデルを使えばいいという従来どおりの話であれば、今のような大規模にするという競争は起きていなかったわけです。

ですが、パラメーターの数を大きくすればいいということがわかったわけなので、次々とより大きなモデルが提案されて、中国では1兆7,500億パラメーターという非常に巨大なものも作られています。

（次回へつづく）

続きを読むには会員登録
（無料）が必要です。

会員登録していただくと、すべての記事が制限なく閲覧でき、
スピーカーフォローや記事のブックマークなど、便利な機能がご利用いただけます。

無料会員登録

すでに会員の方はこちらからログイン

または

名刺アプリ「Eight」をご利用中の方は
こちらを読み込むだけで、すぐに記事が読めます！

スマホで読み込んで
ログインまたは登録作業をスキップ

名刺アプリ「Eight」をご利用中の方は

デジタル名刺で
ログインまたは会員登録

ボタンをタップするだけで

すぐに記事が読めます！

この記事のスピーカー

松尾豊
東京大学大学院工学系研究科人工物工学研究センター／技術経営戦略学専攻教授
プレゼンター

同じログの記事

この記事をブックマークすると、同じログの新着記事をマイページでお知らせします

コミュニティ情報

一般社団法人日本CTO協会

記事数: 70

Brand Topics

2026.02.26

メール共有しても二重対応や漏れ･･･　コールセンターの悩みを解決する「楽楽自動応対」の4つの機能

2026.02.27

「印象評価」からの脱却　経営層や現場を巻き込む“タレントマネジメント”の正しい進め方

2026.02.27

人事と現場が抱える「3つのズレ」とは　組織の成長を加速させる「タレントマネジメント」活用術

2026.01.19

業務フローを変えずに、メール1通3分を削減　自動でAIにナレッジが貯まる問い合わせシステム「楽楽自動応対」

2026.01.26

新規開拓でBtoBマーケターが直面する2つの課題　アポ獲得コストを2分の1にする、楽楽メールマーケティング活用法

2026.01.08

入社4年目の社員が“暗黒のExcel時代”を改革　売上金額2倍、年間110万円のコストカットを実現した方法

2026.01.09

上層部の無茶振りと現場の悲鳴の板ばさみ　DX推進部がkintoneで叶えた、2,546時間の残業時間削減の道のり

2026.01.14

社員の約3割が離職、売上激減の危機に…　コロナ禍の新米社長を救った、kintone活用と会社再生の軌跡

2026.01.15

良かれと思った「完全希望休」で現場は大混乱　創業65年のタクシー会社が“稼げる環境と働きやすさの両立”を実現するまで

2026.01.16

業務が非効率すぎて「ドン引きレベル」　超ネガティブな25歳事務員が挑んだ、“諦める・仕方ない”の逆説のDX成功法則

Brand Topics

2026.02.26

メール共有しても二重対応や漏れ･･･　コールセンターの悩みを解決する「楽楽自動応対」の4つの機能

2026.02.27

「印象評価」からの脱却　経営層や現場を巻き込む“タレントマネジメント”の正しい進め方

2026.02.27

人事と現場が抱える「3つのズレ」とは　組織の成長を加速させる「タレントマネジメント」活用術

2026.01.19

業務フローを変えずに、メール1通3分を削減　自動でAIにナレッジが貯まる問い合わせシステム「楽楽自動応対」

2026.01.26

新規開拓でBtoBマーケターが直面する2つの課題　アポ獲得コストを2分の1にする、楽楽メールマーケティング活用法

2026.01.08

入社4年目の社員が“暗黒のExcel時代”を改革　売上金額2倍、年間110万円のコストカットを実現した方法

2026.01.09

上層部の無茶振りと現場の悲鳴の板ばさみ　DX推進部がkintoneで叶えた、2,546時間の残業時間削減の道のり

2026.01.14

社員の約3割が離職、売上激減の危機に…　コロナ禍の新米社長を救った、kintone活用と会社再生の軌跡

2026.01.15

良かれと思った「完全希望休」で現場は大混乱　創業65年のタクシー会社が“稼げる環境と働きやすさの両立”を実現するまで

2026.01.16

業務が非効率すぎて「ドン引きレベル」　超ネガティブな25歳事務員が挑んだ、“諦める・仕方ない”の逆説のDX成功法則

ログミーBusinessに
記事掲載しませんか？

イベント・インタビュー・対談 etc.

“編集しない編集”で、
スピーカーの「意図をそのまま」お届け！

資料請求・お問い合わせ

ログミーBusinessとは

技術の鍵は「トランスフォーマー」と「自己教師あり学習」　松尾豊氏が、第3次AIブームからひもとく“AIの歴史”

松尾豊氏の自己紹介

AIとは何か？

鍵となる技術その1　トランスフォーマー

鍵となる技術その2　自己教師あり学習

パラメーターを大きくすればするほど精度が上がるという法則「Scaling Law」

この記事のスピーカー

同じログの記事

コミュニティ情報

Brand Topics

Brand Topics

人気の記事

新着イベント

ログミーBusinessに
記事掲載しませんか？

技術の鍵は「トランスフォーマー」と「自己教師あり学習」 松尾豊氏が、第3次AIブームからひもとく“AIの歴史”

松尾豊氏の自己紹介

AIとは何か？

鍵となる技術その1 トランスフォーマー

鍵となる技術その2 自己教師あり学習

パラメーターを大きくすればするほど精度が上がるという法則「Scaling Law」

この記事のスピーカー

同じログの記事

コミュニティ情報

Brand Topics

Brand Topics

人気の記事

新着イベント

ログミーBusinessに記事掲載しませんか？

技術の鍵は「トランスフォーマー」と「自己教師あり学習」　松尾豊氏が、第3次AIブームからひもとく“AIの歴史”

鍵となる技術その1　トランスフォーマー

鍵となる技術その2　自己教師あり学習

ログミーBusinessに
記事掲載しませんか？