ログイン

会員登録

検索

ログイン

メニュー

検索

ログイン

メニュー

生成AIカンファレンス2024〜徹底解剖「トップランナーから見た日本が挑む生成AIの最前線」〜

2024.05.08 - 2024.05.08

大規模言語モデルを作るその意義に迫る（全3記事）

2024.08.22

メインカテゴリテクノロジー

LLM開発は"1000万円ガチャ"？３人の専門家が語る日本語モデルの開発秘話と苦労

リンクをコピー

記事をブックマークブックマーク解除

画像・スライド一覧

LLM開発の裏側にある「ガチャ」のような不確実性と、巨額の開発コストの実態が明らかに。東京工業大学の岡崎直観氏、ELYZA社の曽根岡侑也氏、ストックマーク社の近江崇宏氏が、日本語に特化したLLMの必要性を強調しつつ、開発過程での試行錯誤と意思決定の難しさを語りました。前回の記事はこちら。

ビジネス特化型LLMの重要性

南野：けっこう出てきましたけど、近江さん、いかがでしょうか？

近江：そうですね。答えることがだんだん少なくなってきたんですけども、ちょっと弊社の観点からお話しさせていただければと思うんですが。

弊社は昔から自然言語処理のプロダクト開発をやってきて、けっこうBERTとかが出てきた時から事前学習して、それを使って、みたいなことをやっていたんですけど。

その時できたことは、例えば文章を分析するとか、情報を抽出するとかみたいなことだったんですが。昔から我々はそれを超えて、けっこう文章、レポートとかを作るみたいなことをゆくゆくはやりたいなと思って、こういうLLMが出てきて、実際そういうのができるようになって、じゃあ、いざやってみようというところになってきたんですけど。

そうなると、やはりLLM自体がただ汎用的な知識だけではなくて、よりビジネスに特化したような知識を持っていることが重要だなと感じています。

日本語のモデルもいろいろあるとは思うんですけど、その中でも特に我々は、ビジネスに特化したようなLLMを作りたいと思っています。そうするとやはり、単に汎用的ないろんな話題を含むような、コーパスから単に汎用的な日本語のLLMを作るというだけではなくて、よりビジネスのドメインの知識を入れて、ビジネスに詳しいようなLLMを作るみたいなところが必要、非常に重要なのではないかなと感じています。そういう実際のいろんな生成AIの活用シーンはあるとは思うんですけども、我々の場合は、ビジネスに特化したようなLLMを作っていきたいと思っています。

なので、今後やはり活用が進む上では、かなり特定の領域に特化させるみたいなことが重要だと思いまして、そういう意味で我々は、ちょっと日本語一般というよりは、もうちょっと特化した領域でのLLMを作る。それを実際にどういうふうにすればうまく作れるのかとか、どういうふうに活用していけばいいのかみたいなところを探るのが非常に重要なのではないかなと感じています。

南野：ありがとうございます。

パラメーター数の違いによる課題

南野：その中で、LLMを作っていくというところがあると思うんですけど、各工程ごとになにかしらの苦労であったりとか難しいことがのしかかってくる、というところに移っていきたいと思います。

LLMを作って苦労したことを、まずお話しいただければと思いますが、ここを、じゃあ、近江さんから逆にお願いします。

近江：そうですね、作って苦労したこと。弊社の場合は、事前学習をゼロからやって、作っている途中に苦労したことがあって。本当はそっちをめっちゃ話したいんですけど、ちょっと作って苦労したことを話させていただきます。

そうですね、我々は130億パラメーターのモデルと1,000億パラメーターのモデルを作っているんですけれども。あまりデータとしては、与え方を大きく変えていないつもりなんですが、出来上がった時のパフォーマンスが大きく違うみたいなところとかがあったりしていて。

例えば13Bのモデルを作った時はこうすればうまくいったみたいなところが、なぜか100Bではあまりうまくいかないみたいなところとかがあって。作ったモデルをいかにうまくコントロールしていくかが、非常に我々としてけっこう苦労しているところ、現状苦労しているところかなと思いますね。

南野：ありがとうございます。

事前学習からチューニングまで

南野：そもそも、「LLMをどうやって作るんだ？」みたいなところも、たぶん聞きたい方もいらっしゃるんじゃないかなと思っています。ちょっとここは岡崎先生にうかがいたいんですけど、LLMを作っていく時に、どういう工程でどういう作業が発生してというところとか、その中でのポイントみたいなところをぜひお話ししていただければうれしいです。

岡崎：LLMを作る工程ですが、事前学習とチューニングと、あと強化学習が大きなところかなと思うんですけれども。

事前学習というのは、大規模なデータを大規模なモデルに学習させて、その言語データからそのデータで表されている常識的な知識だったり言語的な知識を覚えてもらって、基礎的な知能を作るという、そういうところなんですけれども。

そこで必要なことは、大規模なデータをどうやって集めてくるかというところで、今だと多いのは、Webのアーカイブである「Common Crawl」からデータを取ってきて、そこから日本語のデータだけを選別して、学習に役立ちそうなデータを取ってくる。そこの部分で、苦労ということでもないんですけれども、けっこうな計算資源が必要だったりとか、大規模なデータを処理することが必要になります。

それで、大規模言語モデルの学習をするんですけれども、その時にも、データを単に与えればいいというわけではなくて、モデルのサイズとか、GPUの構成ですね。何枚あるのかとかそういうことによっていろいろ設定を変えていかないと、モデルの学習の途中で発散してしまうとか、そういうことが起こったりします。

その後、タスクの性能を高めるために機械翻訳とか質問応答とか、いろんな問題の解き方を教えるためのチューニングをやって、最後に人間の好む応答を返すように強化学習とかDPOでチューニングするみたいなことをやります。それぞれでいろんな苦労は、確かにあります。

南野：だいたい何人ぐらいで作られるものなんですか？

岡崎：それは場所によると思うんですけれども、国内みんな「人手不足、人手不足」と言っているので、少ない人数で作っているところもけっこうあるんじゃないかと思うんですが。うちでやっている例だと、だいたい10人前後で作っている感じです。

南野：ありがとうございます。

LLM事業化の意思決定

南野：じゃあ、ちょっと曽根岡さんに聞きたいんですけど、LLMを事業として作っていく中で、やはり経営者としていろんな変数を抱えながらLLMを作っていくと思うんですが。

社長である曽根岡さんの中で、LLMを作ろうとなった時に、まずどういうことを考えて、意思決定して、デリバリーしていくのかみたいなところの考え方とか、そこにおける苦労であったり、そういったお話をぜひしていただけると。

曽根岡：ありがとうございます。そういう意味ですと、我々はLLMを2019年の7月、8月ぐらいから作り始めたんですけれども。その時は、2018年ぐらいにBERTというモデルが出てきて、それが2019年の6月にGoogleが出した「XLNet」かな……が出てきて、人間超えをしたというのを見たんですね。

これは、明らかにパラダイムシフトの傾向ではあるんですけれども。ただ、これを作るのにいくらかかるのかを試算してみると、平気で数千万円かかる。数千万円で作れたらいいんですけど、LLMの作り方はソーシャルゲームのガチャみたいなものでして、課金して出てきたらコモンですごいぜんぜん使えないキャラクターのこともあれば……。

南野：（笑）。

曽根岡：なんか、SRみたいなこともある。なので、LLMを作るって、だいたい1,000万円ガチャみたいなもんなんですよ。1,000万円ガチャを回して、やったらいいモデルが出るかもしれないみたいなものに投資をしなきゃいけないのが、2019年、2020年のお話だったんですよね。

そういう状況だったので、大企業は投資できないですよね。「何回回したらいいモデルが出てくるんだろう？」と。しかもそれが事業としてどうやってリターンを作れるのかを説明できないので。

だから我々は、自分たちでがんばって汗水垂らして稼いだなけなしの2,000万円、3,000万円を投下してですね、このガチャを回すということを、2019年ぐらいにやり始めたというのが、1つ目の意思決定だったかなと思います。

ChatGPT登場後の戦略転換

曽根岡：もう1つの意思決定ポイントは、2023年の1、2月なんですけれども、ChatGPTが出てきました。ドカッと出てきました。これは勝てない。この規模のお金を僕らは持っていないし勝てないとなった時に、じゃあ、どうこの中で自分たちなりの仮説を持って対抗するのか。ここはすごく、一番考えるポイントだったりしました。

当時は、やはりフルスクラッチでLLMを作りましょう。これはいくらかかるかというと、最低5億円ガチャですね、これは5億円ガチャに変わっていて。

南野：（笑）。

曽根岡：これをOpenAIは、20回、30回回して作っているということをやっていたんですけれども、我々にはそんなお金がない。

よくよく考えると、事前学習がもうお金がかかる大半なんです。事後学習と呼ばれている部分。先ほど継続学習というものと含めて岡崎先生からお話をいろいろしてくださいましたけれども、この部分にとがると、なんと50分の1の予算でいい。あっ、1,000万円ガチャにまた戻ってきた。ということで、我々は、そこに張って事後学習のデータセットをイチから作ろう。

Metaがいいモデルを出すかわからないけれども、誰か出してくれることに懸けようというような仮説を持ってやった結果、7月に「Llama 2」が出て、よし、じゃあ、これに今まで作った事後学習のデータセットを当てはめよう。8月の末になかなかいいモデルができたぞというのが、我々がやっていた意思決定ではあったりします。

これはちょっと華々しく話しましたけど、中では、もうすごく不安で、「どうしよう、あぁ……」というのがあったことは大前提で、そんなことをしていました。

ChatGPTを契機とした挑戦

南野：近江さまは、昔からやられていたところで、ストックマークの中での、同じように意思決定であったりとか、どういうことを考えてやられていたのかも教えていただけると。

近江：そうですね。やはり弊社にとっての大きな契機は、ChatGPTが出てきたことかなと思って、それをどう使ってサービスを良くしていくのかということをやりつつ。ただやはり、けっこうChatGPTを使っているだけじゃ、なかなか自分たちが思うような性能が出ないというようなところとかあって。

それで、やはりある程度自分たちでも、自分たちの用途に対して性能が高いものを作っていかないといけないんじゃないのかという議論があって、実際にそれを自分たちで作り始めたみたいなところは、1つ大きな意思決定です。

それを意思決定して、2ヶ月後ぐらいに10億パラメーターぐらいのモデルを出して、その2ヶ月後ぐらいに130億パラメーターのモデルを出して、みたいなところです。まさか今、自分が1,000億パラメーターのモデルを作っているなんて、本当に1年前からは予測できないほど、自分たちでやろうとなってから大きく世界は変わったのかなとは思っています。

南野：ストックマーク社でも、けっこうガチャの話は出るんですか？

近江：そうですね。なんか、ガチャと言うとみんなが不安になるので言わないようには……。

（会場笑）

近江：しているんですけど、なんか、毎回震えながら学習を行っています。

南野：ありがとうございます。すさまじい苦労があるなというのは、話していてすごく感じましたけれども、ちょっと時間もあるので次の議題に移っていきたいと思います。

LLMの社会実装と活用

南野：今度は、LLMを作る時に、アプリケーションであったりとか社会実装していくみたいなところとかの部分に触れていきたいと思うんですけども、これはけっこうメインがやはりELYZAさんとかストックマークさんになるので、岡崎先生から、まずは作っているLLMをどう使ってほしいみたいな、そういった願望とか。「こういう使い方をしてほしいんだよね」みたいな、そういう話をいただけると。

岡崎：ありがとうございます。我々はなにかの応用を意識して作っているわけではないところではあるんですけれども、できるだけ味付けのないモデルを作ろうとしています。その後、ドメインに特化させたりとか、対話に特化させるようなファインチューニングができるようなモデルを作ろうというのが、まず2023年までの目標でやっています。

それは、ある程度達成できたので、今度は汎用的に、例えばマルチターンの応答ができるようなモデルを作っていきたいなと思っています。それを、やはりさまざまな応用で企業さんに使っていただいて、こういうことができたよというのを見せていただけるのが我々の楽しみかなと思っています。

南野：それは、あれですかね。プレスリリースとかを見て、「よかった」みたいな、そんな感じ……。

岡崎：そうですね。こういったかたちで使っていただけているんだというのがあったりとか、あと、「こういうこと、できない？」というご相談をいただくのもけっこう励みになっています。

南野：相談は、けっこう幅広く受け付けておられるんですか？

岡崎：そうですね、はい。

南野：みなさん、チャンスですよ。

岡崎：（笑）。自然言語処理の研究室はいっぱいありますので、相談していただければと思います。