ログイン

会員登録

ログイン

会員登録

検索

お知らせ

ログイン

メニュー

検索

お知らせ

ログイン

メニュー

W&Bカンファレンス：Fully Connected 2023 Tokyo

2023.10.11 - 2023.10.11

LLMの開発は難しい？簡単？Stability AIの現場から（全2記事）

2023.12.05

メインカテゴリテクノロジー

作るだけなら簡単なLLMを“より優れたもの”にするには　「Pretraining」「Fine-Tuning」「Evaluation & Analysis」構築のポイント

コピーリンクをコピー

ブックマーク記事をブックマーク

画像・スライド一覧

オープンLLMの開発をリードする現場の視点から、開発の実情や直面する課題について発表したのは、Stability AI Japan株式会社の秋葉拓哉氏。Weights & Biasesのユーザーカンファレンス「W＆Bカンファレンス」で、LLM開発のポイントを紹介しました。全2記事。前半は、より優れたLLMを作るために必要なこと。前回はこちら。

より優れたLLMを作るために必要なこと

秋葉拓哉氏：めでたくFine-Tuningもできた。これけっこう、びっくりするかもしれません。コードはさすがにゼロとはいかないと思いますが、ほとんど書かずに実はLLMは作れます。

「さすがにこんなんじゃゴミみたいなモデルしかできないだろう」と思われるかもしれませんが、おそらく余計なことをしなければこれだけでも、まあまあそれっぽいLLMにはなるかなと思います。

なので、ちょっと、先ほどの鈴木先生（鈴木潤氏）の話と若干矛盾してしまって恐縮なのですが、僕のスタンスは、LLMを作るだけであれば思っているよりは簡単かなと思います。ここまで前半でした。

とはいえ、じゃあ、これをやったらGPT-4になるのかっていったら当然ならないわけです。そこにやはりギャップがあるわけですよね。「それは何なのか？」を次に考えていきましょうか。ここはかなりキリがないのですが、挙げられるだけ考えていきましょう。

分析するために、まずこれを見ると、おもしろいかなと思っているものがあります。GPT-4のテクニカルレポートですね。OpenAIがアーカイブにアップロードしています。

これは実は、後ろのほうのページに、誰が何をやったかというクレジットのページが何ページもあって、そこを見ると、どのチームがどのぐらいの大きさなのかがだいたい見積もることができるんですね。

僕がちょっと適当に延べチームサイズを計算したテーブルが（スライドの）右のようになっています。これを見ながら、どこがどのぐらい大変なのかをちょっと考えましょうか。

モデルアーキテクチャは「Transformer」一択

まず、Pretrainingですが、モデルアーキテクチャですね。これ、正確に言うとPretrainingする前に決めることなんですが、Pretrainingする時に決めて、それを引き継ぐことになるので、いったんPretrainingの一部ということにしましょうか。

ディープラーニングのモデルというのはいっぱいありますが、アーキテクチャは、基本的にこの世界で「Transformer」一択です。

ほかにも新しいのがいろいろ出てきていて、そういうのが良かったらいいなとは思っているのですが、とはいえ、今やるんだったら基本的にTransformer一択かなと思います。

細かい差や言いたいことはいくつかあって、まず、細かい差は馬鹿にできないと思います。特に最近、小さなモデルでも性能がかなり上がってきていて、けっこうこのあたりの進歩も影響しているなと思います。

一方で、モデルアーキテクチャを良くしないとGPT-4にならないのか、あるいは、アーキテクチャを良くしたらGPT-4になるのかというとそういうわけではなく、たぶん、ここで得られるパフォーマンスゲインよりもモデルを大きくしたりするほうが、性能だけであればシンプルに上がるんですよね。

実際、GPT-4とかのベースモデルが学習されたのはかなり前だと思うので、たぶんアーキテクチャは古いと思います。

大規模分散学習にはData Parallelだけを活用する

次に、大規模分散学習。これはモデルが大きくなってくるほどけっこう大変です。僕のお勧めですが、もし足りるのであれば、Data Parallelだけを使ったほうがいいです。

というのも、3D parallelismというものがけっこう有名だと思うのですが、これはかなり煩雑になってきて面倒くさいんですね。

一方で、Data Parallelだけでも実はけっこうなサイズまでいけて、しかもそっちのほうがいろいろ楽、だいぶエンジニアリングコストが下がるので、Data ParallelでいけるところまではなるべくData Parallelでやったほうがいいと思います。

このあたりは、大変かもと思われるかもしれませんが、オープンソースでもけっこう有名な実装がいろいろあって、使おうと思えばすぐ使えるので、意外と大変ではないかもしれないし、でも、改善の余地はあるかもしれないという感じですね。

パラメーターを増やしても計算量を増加させない仕組み「Mixture of Experts」

それから次に、Mixture of Experts。これもアーキテクチャの一部なので、ちょっと前後してしまって恐縮ですが、おそらく、キーワードを聞いたことがある人はいるかなというぐらいですかね。あまり有名じゃないかもしれません。

これはどういう技術かというと、普通ディープラーニングのモデルというのは、全部のデータが全部のパラメーターを通って計算されるんですよね。

でも、このMixture of Expertsという技術は、各サンプル、あるいは各トークンが、「君はこのあたりを通ってください」という感じで、モデルが何個かに部分部分に分かれて、この部分だけ通るみたいな感じで計算されていくんですね。

その結果、パラメーターは大きくても、実際にアクティベートされるパラメーターの数が少ない、つまり、まるで小さなパラメーターで推論しているかのようになって速くなる、そういう技術です。これがMixture of Expertsですね。噂によると、GPT-4はMoEを利用しているらしいです。

それから、実際にはMixture of Expertsは研究の世界だと本当にGoogleが大好きな分野なので、おそらくGoogleの「Bard」か「Gemini」のどちらかは使っているんじゃないかなと、僕は思っています。

ここはやり方にもよりますが、大規模分散学習と組み合わせると、けっこうエンジニアリングコストも跳ね上がると思っていて、オープンの世界では、まだMixture of Expertsはあまり模索されていないかなと思います。

学習データは事前学習において最も重要

あとは、データですね。ここもちょっとキリがないのと、けっこう細かい話が多いのですが、やはりどういったデータを使うか、どういった割合で混ぜるか、どのように前処理するかはおそらくかなり影響します。

これはけっこう検証が難しい部分でもあって、何が良かったのかというところはわからないなというのが正直なところですが、このあたりのプラクティスもどんどん進歩しているなと感じます。

Fine-Tuningには高品質で多様なアノテーションデータが必要

次に、Fine-Tuningですね。まず、やはりここのデータは、おそらく差としてめちゃくちゃ大きな部分かなと思っていて、例えばGPT-4に追いつきたかったらかなり大変な部分なんじゃないかなと思います。

おそらくではありますが、やはりこのあたりに、非常に高品質で多様なアノテーションデータが必要になってくる上に、おそらく専門家がアノテーションする必要があるんですね。

みなさんもプログラミングされると思いますが、プログラミングをする人間がGPT-4を使って満足できるということは、やはりそういう人間がアノテーションをしていないといけないわけです。

プログラミングだけではなくおそらくいろいろな分野においてそうなので、かなり専門性のある人間を、かなり多様なところから雇ってアノテーションをさせているんじゃないかなと思います。

それが、量も質も多様性も必要ということで、おそらくここにもかなり投資をしていて、そういうデータを持っているグループは、かなりまだ少ないかなと思いますね。

最近オープンな世界でけっこうおもしろいアイデアだなと思うのは、GPT-4にアノテーションをさせる。例えばChatGPTを使ったりもするのですが、ChatGPT、GPT-4にアノテーションをさせるというアプローチですね。

残念ながら、これをやるとデータのライセンスに制限されるのですが、とはいえ、これがかなりいいなと思うのは、やはりいったん試せることです。

GPT-4にデータを生成させて、こういうデータだとこういうモデルの挙動になるんだとわかると、その次のアクションを考えられますよね。そんなこんなで、こういうことがけっこうできるようになったのは、新しい風かなと思ったりもします。

あとは、「RLHFが必要なのか？」という議論ですね。これはちょっと専門性のある話になってしまって恐縮ですが、Fine-Tuningは基本的に、SFT、Supervised Fine-Tuningと、RLHF、Reinforcement Learning from Human Feedbackというのをやります。

有名なグループ、例えばOpenAIのGPT-4や、MetaのLlama-2-Chatっは、RLHFまでやっているんですね。ただ、オープンなLLMだと、RLHFまでせずにSFTだけというモデルがけっこう多かったりします。

しかも、SFTだけでもけっこうパフォーマンスがいいモデルが出ていて、そういうのをだけ見ていると、「本当にRLHFが必要なのか？」という議論があるかなと思います。

個人的な予想としては、結局、RLHFもすることになるかなと思ってはいます。もしかしたら来月は、言っていることが変わっているかもしれません。ちょっと時間が限られるので、そのあたりの考えは、また今度のイベントで話します。

圧倒的にチームの人数が多いのは、Evaluation & Analysis

最後に、Evaluation & Analysisですね。もしかしたらびっくりされる方もいるかもしれませんが、実は、GPT-4のテクニカルレポートだと、ここが圧倒的に人数が一番多いです。

ただ、個人的には、さもありなんかなという感じです。やはりLLMはけっこうこれまでのマシンラーニングモデルと大きく違って、汎用性がむちゃくちゃ高くていろいろなことができるので、やはりその能力を測定したり、安全性を理解したりというところで、かなりいろいろなことを評価しているんですね。なので、シンプルに人手が必要です。

こういうところも、やはりこのぐらいのエフォートをかけられているグループはまだまだ少ないかなとは思いますが、ただ、オープンな世界では、評価用のデータアセットもどんどん出てきたり、リーダーボードも、いろいろ出てきたりしているので、そういうところも追いつきつつあるかもしれないとは思います。

LLMの取り組みでは「Weights & Biases」を活用

ここまで、いろいろなポイントがあるよねという話ですが、こういったことをStability AIでは実際に踏まえて、LLMの活動に取り組んでいます。

詳細は省きますが、Pretraining、Fine-Tuning、Evaluation、そういったすべての部分において、その重要な部分を見極めて、どんどん進歩を積み重ねています。

それから、日本チームでは、日本語のような、データの量が限られる言語に向けてどうすればいいのかといったことも研究してノウハウを積み重ねています。

取ってつけたようで恐縮ですが、本当にWeights & Biasesは、めちゃくちゃ活用しています。自分で見られるだけではなく、チームで共有したり、ほかの人の実験をちらっと見たり、設定も確認できたり、レポート機能で外に公開したりなど、かなりいろいろ活用しています。

まとめ

というわけでですね、まとめたいと思います。

今日は、タイトルとして「LLMを作るのは簡単なのか？　難しいのか？」ということで、とにかく作るだけであれば意外と簡単かもしれないという話と、一方で、そこからの伸びしろにどういう部分があるのかというところと、Stability AIが実際そういうところに取り組んでいるんだという話をいたしました。

以上になります。ありがとうございました。

（会場拍手）

続きを読むには会員登録
（無料）が必要です。

会員登録していただくと、すべての記事が制限なく閲覧でき、
スピーカーフォローや記事のブックマークなど、便利な機能がご利用いただけます。

無料会員登録

すでに会員の方はこちらからログイン

または

名刺アプリ「Eight」をご利用中の方は
こちらを読み込むだけで、すぐに記事が読めます！

スマホで読み込んで
ログインまたは登録作業をスキップ

名刺アプリ「Eight」をご利用中の方は

デジタル名刺で
ログインまたは会員登録

ボタンをタップするだけで

すぐに記事が読めます！

この記事のスピーカー

秋葉拓哉
Stability AI Japan株式会社
プレゼンター

同じログの記事

この記事をブックマークすると、同じログの新着記事をマイページでお知らせします

コミュニティ情報

Weights and Biases

記事数: 6

Brand Topics

2026.01.19

業務フローを変えずに、メール1通3分を削減　自動でAIにナレッジが貯まる問い合わせシステム「楽楽自動応対」

2026.01.08

入社4年目の社員が“暗黒のExcel時代”を改革　売上金額2倍、年間110万円のコストカットを実現した方法

2026.01.09

上層部の無茶振りと現場の悲鳴の板ばさみ　DX推進部がkintoneで叶えた、2,546時間の残業時間削減の道のり

2026.01.14

社員の約3割が離職、売上激減の危機に…　コロナ禍の新米社長を救った、kintone活用と会社再生の軌跡

2026.01.15

良かれと思った「完全希望休」で現場は大混乱　創業65年のタクシー会社が“稼げる環境と働きやすさの両立”を実現するまで

2026.01.16

業務が非効率すぎて「ドン引きレベル」　超ネガティブな25歳事務員が挑んだ、“諦める・仕方ない”の逆説のDX成功法則

2026.01.13

Excelへの多重入力、終わらない社内業務…　文系元営業社員が“全社員DX人材化”を実現できたワケ

2025.12.24

生成AIの進化が「数理最適化」技術の追い風に　チャットボットで解くビジネス課題の実践プロセス

2025.12.25

ペペロンチーノの材料調達と配送計画は“同じ問題”　日常とビジネスの意思決定に共通する「アクションの型」とは

2025.12.25

数理最適化で働き方を変える　日立コンサル平井氏の“意思決定デザイン”

Brand Topics

2026.01.19

業務フローを変えずに、メール1通3分を削減　自動でAIにナレッジが貯まる問い合わせシステム「楽楽自動応対」

2026.01.08

入社4年目の社員が“暗黒のExcel時代”を改革　売上金額2倍、年間110万円のコストカットを実現した方法

2026.01.09

上層部の無茶振りと現場の悲鳴の板ばさみ　DX推進部がkintoneで叶えた、2,546時間の残業時間削減の道のり

2026.01.14

社員の約3割が離職、売上激減の危機に…　コロナ禍の新米社長を救った、kintone活用と会社再生の軌跡

2026.01.15

良かれと思った「完全希望休」で現場は大混乱　創業65年のタクシー会社が“稼げる環境と働きやすさの両立”を実現するまで

2026.01.16

業務が非効率すぎて「ドン引きレベル」　超ネガティブな25歳事務員が挑んだ、“諦める・仕方ない”の逆説のDX成功法則

2026.01.13

Excelへの多重入力、終わらない社内業務…　文系元営業社員が“全社員DX人材化”を実現できたワケ

2025.12.24

生成AIの進化が「数理最適化」技術の追い風に　チャットボットで解くビジネス課題の実践プロセス

2025.12.25

ペペロンチーノの材料調達と配送計画は“同じ問題”　日常とビジネスの意思決定に共通する「アクションの型」とは

2025.12.25

数理最適化で働き方を変える　日立コンサル平井氏の“意思決定デザイン”

ログミーBusinessに
記事掲載しませんか？

イベント・インタビュー・対談 etc.

“編集しない編集”で、
スピーカーの「意図をそのまま」お届け！

資料請求・お問い合わせ

ログミーBusinessとは

作るだけなら簡単なLLMを“より優れたもの”にするには　「Pretraining」「Fine-Tuning」「Evaluation & Analysis」構築のポイント

より優れたLLMを作るために必要なこと

モデルアーキテクチャは「Transformer」一択

大規模分散学習にはData Parallelだけを活用する

パラメーターを増やしても計算量を増加させない仕組み「Mixture of Experts」

学習データは事前学習において最も重要

Fine-Tuningには高品質で多様なアノテーションデータが必要

圧倒的にチームの人数が多いのは、Evaluation & Analysis

LLMの取り組みでは「Weights & Biases」を活用

まとめ

この記事のスピーカー

同じログの記事

コミュニティ情報

Brand Topics

Brand Topics

人気の記事

新着イベント

ログミーBusinessに
記事掲載しませんか？

作るだけなら簡単なLLMを“より優れたもの”にするには 「Pretraining」「Fine-Tuning」「Evaluation & Analysis」構築のポイント

より優れたLLMを作るために必要なこと

モデルアーキテクチャは「Transformer」一択

大規模分散学習にはData Parallelだけを活用する

パラメーターを増やしても計算量を増加させない仕組み「Mixture of Experts」

学習データは事前学習において最も重要

Fine-Tuningには高品質で多様なアノテーションデータが必要

圧倒的にチームの人数が多いのは、Evaluation & Analysis

LLMの取り組みでは「Weights & Biases」を活用

まとめ

この記事のスピーカー

同じログの記事

コミュニティ情報

Brand Topics

Brand Topics

人気の記事

新着イベント

ログミーBusinessに記事掲載しませんか？

作るだけなら簡単なLLMを“より優れたもの”にするには　「Pretraining」「Fine-Tuning」「Evaluation & Analysis」構築のポイント

ログミーBusinessに
記事掲載しませんか？