実験のシミュレーションをLLMが生成する
岡野原大輔氏:(スライドを示して)ここでは、LLMの弊社の中での利用事例をいくつか紹介していきたいと思います。1つ目が材料探索のデモで、弊社は「Matlantis」と呼ばれる計算科学向けのシミュレーターを製品として出していて、これは非常に高精度に、いろいろな材料の性質、例えば電池や半導体や触媒を作る時の材料の性質を、高精度でシミュレーションできる製品ですが、これを使うためには計算科学のプログラムの知識が必要です。
なので、なかなかその実験で科学者が使うことが難しいです。そこで人間の言葉で、こういう実験のシミュレーションをしたいと指示すると、それに合わせたプログラムを、ファインチューニングされたLLMが生成するデモです。例えばここでは「鉄だとか、白金とか、バナジウム、ニッケルなどについて触媒の19番の原子を置換したあとに、触媒活性のエネルギーを計算してくれ」と。
専門の人じゃないとわからないですけど、実験学者はこれがわかります。これを書いてくれと命令すると、LLMが自然文を理解してコードを生成します。この1,000行ぐらいのPythonコードを生成したら、これはそのままうちのシミュレーターのMatlantisで動くようになっていて、コード実行を押すと、シミュレーターも非常に速いのでこのようにリアルタイムで調べられます。
昔はこういう実験科学は実際に実験でやろうと思うと、1ヶ月とかたくさん時間がかかっていて大変なわけですが、そういったものが今のような自然文で指示をして、LLMだけではできないのでLLMを使って他のツール、今回はMatlantisを叩いてこういう目的が実現できるという例になっています。
画像認識と言語モデルを組み合わせた分析
次の例がもうちょっと実用的な、いろいろな方の身近にある例で、社内にたくさん溜まっているデータから文章、ノートやできたら営業資料、マーケティング資料を作りたい場合です。そういった場合も、その社内の情報を入れなければいけません。(スライドを示して)ここでは「カチャカ」という、うちの製品についての文章を書かせています。
何を元に書いているかというと、社内の文章で、例えば過去の講演資料やブログなどを、RAGの仕組みも応用しながら社内のデータベースから引っ張ってきて、それを引っ張ってきて書かせられるようになっています。ここではもちろん権限もちゃんと見て、一部の使える情報だけを引っ張ってきて文章を書かせられるようになっています。
(スライドを示して)次の例です。『Omega Crafter』という弊社が先日リリースしたゲームですけど、『Omega Crafter』についてこれで書かせると、今「書けません」と言っているんですね。これは内部文章がまだアップロードされていないからで、それに対して内部文章をアップロードすると、このようにすぐに取り込んで、それを元に文章を書くことができます。
こうですね。入れてやると、内部文章もわかって、「『Omega Crafter』とは何ですか」というのを書くことが、今もリアルタイムでこれぐらいのスピードで文章を取り込んでできるようになっています。
また、ちょっと違う使い方としてLLMはプロンプトでいろいろなことができます。分類もできます。LLMを使えば学習データ不要で、さまざまな分類が可能です。例えば口コミデータ、商品情報、企業情報など大量のデータがあるのを分類したい場合に、プロンプトで指示を出して、それを使って分類します。
ただ、実際にLLMをそのまま使うと、非常に分類コストが大きすぎるのでここもLLMの中をちょっと改造します。改造して使うと、この分類を10倍から100倍近く高速に分類できるようなものも作っています。
(スライドを示して)画像モーダルは、もうみなさんも試していると思いますが、弊社でも画像を組み合わせた基盤モデルを作っています。例えば、ちょっと見えづらいですが、「ベジタブルをディテクト」してくださいというと画像認識もできるようになっています。
また、これはスケートボードで転んでいる様子ですが、「この転んでいる人が、なんで転んでいると思いますか?」と聞くと、「自信を持ちすぎだ」といいます。この「転んだあとにどうなるか」というのを分析すると、「自信を失って、もうできなくなる」というなど、そういう分析結果を画像認識と言語モデルを組み合わせてそういったことができるようになっています。ここまでが会社の紹介ですね。
LLM開発の今後
LLM開発の今後です。(スライドを示して)今は、どんどんAIのモデルが大きくなっています。単にモデルが大きくなるだけじゃなくて、投入計算量が増えています。例えば一番最近のLlama3は今までと比べて数倍のトークン量を投入しています。こうした中では、必要な計算量はどんどん増えていきます。このグラフは、世界のスパコンと最先端のAIモデルの学習に必要な計算量を表しています。
ちょうど2023年ぐらいに、世界のスパコンよりも最先端のAIモデルを数ヶ月で学習させるために必要な計算量が越えて、クロスしたと見られます。一方で、スパコンより高い性能は、お金があればできるのかというとそれはNoです。スパコンは一番進んだ、いろいろな技術を組み合わせて作っています。例えばデータセンターの排熱、電気供給、ネットワークなど、いろいろな制約がある中で、ここのボトルネックが決まっています。
なので、おそらく今後最先端のAIを作るための計算資源は伸び悩むと予想されています。これに対しては弊社がやっているような新しいアクセラレーターを作ったり、もしくはスパコン自体にも新しい技術が投入されることが必要になると思います。
この1年、LLMは非常にいろいろなニュースがありました。まとめると、まずこの1年でGPT-4が出た時に、これはもうすごいのが出たなというところだったのですが、1年かけて多くのLLMが、同じとは言いませんがかなり近づいて並んで、タスクによっては超えているようなものが出てきました。なので作り方はみんなわかってきていると思います。また、同じ能力。例えばGPT-4レベルの推論に必要な計算力、こちらのほうが劇的に改善が進んでいます。
例えば同じGPT-4レベルの推論があと1年ぐらいでスマホで動くというのは、かなり現実的にあり得ると思います。また、そのオープンなモデルもどんどんクローズドなモデルの性能に追いついていて、現状推移では、あと1年ぐらいでは今のままいくと追いつくか?ただクローズドもおそらくOpenAIが次のやつを出したりするとまた変わると思います。
特徴的なのが、これが全部大きな非連続の、ミラクルが起きてバーンっといくわけじゃなくて、本当に小さな改善が週単位でどんどん積み重なって複利的にどんどん賢くなっているのが急速に起きていることです。これはまだしばらく続くと思います。
一方で、最初にLLM開発で言われていたスケール則、投入計算量、データ量、あとはモデルパラメーター数を増やせばいいか、増やして賢くなるというアプローチについては、おそらくこれはかなり限界が近いと思います。
今は数十万台のNVIDA GPUをMETA社が使ったり、多くも数万台使っていますが、おそらくこれが現実的に考えて限界かなと思います。一方でチップあたりの性能改善はまだどんどん進んでいるので、枚数は同じぐらいだけれども計算量が増えるというのもあると思います。
あと実際に起きている現象としては、やはり本当にすごい投資額になっているので、コスト面でも、弊社も使っていますけれども、開発の時はみんなNVIDIA GPUを使います。一方でこれだけ大規模な学習や推論をするとなると、違うアクセラレーターも使わなければいけないので、実は水面下で他のアクセラレーター利用も急速に進んでいます。
もう1つ、このスケール則は、どれだけ計算資源、データ、パラメーターを増やしたら改善するかという部分も、これも傾きは急速に改善されています。特に高品質なデータの利用やMixture of Expertsを使うことによって性能を劇的に改善しています。
大規模モデルの現実的な課題
私たちは実際に大規模モデルで1,000億から1兆パラメーターのモデルを開発していますが、そこで見てわかった現実的な課題は、1つは大規模モデル開発は試行錯誤が本当にできない一発勝負だし、あとは1回やって結果が出るまで数ヶ月待たなければいけません。今の100Bモデルも学習を開始したのが2月ぐらいで、そこから24時間ずっとロスのカーブをチームで見て、何か問題が起きたら対応する。3ヶ月後ぐらいにようやく1つポンッと出る。
一方で小規模モデルの場合だと数日、下手したら1日でイテレーションが回せるので、そう考えるとどんどん新しい技術のイノベーションも進んでいる中では小規模モデルのほうがどんどん技術的に先行して、あとで大規模モデルに反映されるようなことは、今後も続くと思います。
一方で、実はこの小規模モデル開発にも大規模モデルが重要になってきています。これはなぜかというと、あともう伸びしろとしてあるのはデータなんですね。このデータ自体も、今はLLMでフィルタリングをしたり、生成するというアプローチが急速に広がっています。もともと、LLMだけではなく大きなモデルを小さなモデルに蒸留、ディスティレーションすることはあったのですが、LLMに限らずなんですけど、LLMは逆のことができます。
それは生成、何かを作るよりも、与えられた分が良いか・悪いかどうかは判別が簡単という原則があります。例えば私たちは、何でしょうね。アイススケートを見てどうやったら自分ができるかはわからないけど、この人は上手・下手というのは判別できます。同じようにLLMも小さなモデルで、どうやってやればもっといいものが作れるかはわからないけれども、良いか、悪いかというのは小さいモデルでも判断できます。
そういったところで、そのLLMを使ってデータの品質や、学習の仕方を工夫するのが進んでいます。これによって、人が作った数百倍規模の「教科書」、「Wikipedia」が作られていくということが起こっています。こうなると、今後は学習も計算もかかりますけれども、この学習データの生成やフィルタリングの研究や計算投入が進みます。下手したら学習よりもこちらのほうが計算資源などを使うかもしれないと思います。
知識の索引
もう1つ、最近のおもしろい研究に知識の索引という話があります。LLMはいろいろな見方があるのですが、私がおもしろい見方だと思うのは単なるインデックス、検索のインデックスだと考える方法です。これは今までの検索インデックスとは違って何がすごいかというと、あとでいろいろなタスクに使えるようにその知識を保存しておけるというものです。
例えば、知識として「弊社PFNの本社は大手町です」というのを教えると、あとでいろいろなタスクにその知識を使えるような大きいインデックス、知識の箱だと考えられます。一方で最近わかってきたのは、この記憶効率で覚えるのは人間と違ってものすごい無駄が必要です。100回以上教えないと覚えられないということがわかります。
例えば、先ほどのPFNの本社が大手町というのも、人間は2回ぐらい聞いたらわかると思います。1回か2回聞いたら「あぁ、なるほどね」とわかるのですが、今のAIは賢くないので100回ぐらい言い換えないと覚えないですけど、1回覚えたらあとは先ほどのように機械、コンピューターとしてのいいところがたくさんあって、いろいろ使えます。
あとは、プライベートデータの取り込みも本格的な応用に向けてどんどん進んでいます。
ファインチューニングも、LoRAもあるし、モデルマージもあります。また、覚えると前のを忘れちゃうというのも実際に起きるので、どうやって先祖がえりと呼ばれるような、記憶を忘れちゃうのを防ぐかという工夫や、あとは「Gemini」のような100万トークンを超えるような文章をその場で読んで、モデルをその場で合わせることができます。
例えば新しい言語の辞書を読ませて、その瞬間からその言語の翻訳ができるようになるという、これはここまでくると人間を超えていると思うのですが、そういったこともできるようになっています。
今日は駆け足でLLMの進化の紹介をしました。開発競争は最初はもう本当に単純なスケール則だと思っていたのですが、実際に今のように中身を見てみるといろいろな勝ち筋があって、日本の企業、アカデミックもいろいろなところで勝機があると思います。
一方でより重要なのはLLMがどのように使われるか、使うのかという部分です。賢いのは確かなのですが、賢くない部分もたくさんあるので、今の能力や今後の能力の進化に合わせてどういう使い方をするのか。特に人と一緒に使うのか、どうやってLLMをツールとして使いこなすのかというのが重要になると思います。
以上です、ありがとうございました。
(会場拍手)