ログイン

会員登録

検索

ログイン

メニュー

検索

ログイン

メニュー

生成AIカンファレンス2024〜徹底解剖「トップランナーから見た日本が挑む生成AIの最前線」〜

2024.05.08 - 2024.05.08

大規模言語モデルを作るその意義に迫る（全3記事）

2024.08.21

メインカテゴリテクノロジー

トークナイザーの重要性と継続事前学習の可能性　3名の専門家が語る日本語LLM開発の最前線

リンクをコピー

記事をブックマークブックマーク解除

画像・スライド一覧

大規模言語モデル(LLM)開発の第一線で活躍する3名の専門家が、LLM開発の意義と課題について語りました。東京工業大学の岡崎直観氏、ELYZA社の曽根岡侑也氏、ストックマーク社の近江崇宏氏が、日本語LLM開発の重要性と直面する技術的・経営的課題を詳しく解説。全3回。

LLM開発の意義と課題

南野充則氏（以下、南野）：では、パネルディスカッションを始めていきたいと思います。本日1発目のパネルディスカッションなので、ちょっと盛り上げていきたいなと思っています。

私は、先ほど開会の挨拶もさせていただきましたが、南野と申します。モデレーターをさせていただきます。よろしくお願いします。

このセッションでは、ここでしか聞けない話をしっかり話していただこうということで、大規模言語モデルを作っている方々にいろんな質問を問い掛けていきたいと思っています。よろしくお願いします。

まず最初に登壇者のご紹介をさせていただきまして、その後、パネルに移っていきたいと思います。では、岡崎先生、よろしくお願いします。

岡崎直観氏（以下、岡崎）：ご紹介ありがとうございます。東京工業大学の岡崎です。スライドをめくっていただいてよろしいでしょうか。

私は東工大という大学にいますので、研究と教育の両方をやっているんですけれども。専門は自然言語処理で、左上に書いてあるような『自然言語処理の基礎』という教科書を、ほかの専門家の方々と一緒に執筆しました。

この教科書ですけれども、ディープラーニングベースの自然言語処理を体系的に学べるようになっていまして、うちの研究室に配属された学生にぜひ読んでほしいという、そういう内容を盛り込んだものになっています。大規模言語モデルの開発などに携わる場合には、ぜひご活用いただければと思います。

それ以外にも、「言語処理100本ノック」とか、機械学習とかPythonに関する教材を作ったりしています。次のスライドをお願いします。

日本語に特化したLLMの開発

岡崎：大規模言語モデルの開発で何をやっているかということなんですけれども、東工大の岡崎研究室、横田研究室、あと産総研のメンバーで「Swallow」というモデルを一緒に開発しています。

このモデルなんですけれども、日本語に強い大規模言語モデルを作って、公開して、みんなで活用していこうということを考えて作ったもので、右に載っているように、会社さんとの共同研究で活用も進んでいます。次のスライドをお願いします。

大規模言語モデルのSwallowは、もともと海外製のモデルがあって、それに日本語の知識を後から注入するという、そういう継続事前学習を使って作っています。

ここにベンチマークの性能が載っているんですけれども、もともとの性能よりも日本語の性能が上がるようになっていますし、それを作るためのコストをできるだけ抑えて作れるという、そういう特徴があります。

「Hugging Face」とかで公開されていますし、オープンなモデルになっています。できるだけ高い性能のモデルを早く作って、それを活用してどんどん研究のサイクルを回しておこうという、そういうことを考えて作ったモデルとなっています。私からの自己紹介は、以上です。

南野：岡崎先生、ありがとうございます。

ELYZAの取り組み

南野：次は曽根岡さん、よろしくお願いします。

曽根岡侑也氏（以下、曽根岡）：株式会社ELYZAの代表を務めている曽根岡と申します。

私自身はですね、もともと東京大学の松尾研究室、松尾豊先生の研究室に所属をしていまして、2018年に株式会社ELYZAという会社を作ったんですけれども。その後も、実は松尾研にずっと関わり続けて、2020年からは松尾研に伴走する会社、株式会社松尾研究所という会社の取締役も兼務しているような、ELYZAと松尾研の2つの帽子を持っているようなキャラクターになっています。

我々、ELYZAがやっていることを少しご紹介できればと思います。次のスライドにいっていただきまして、東大の松尾研究室からスピンアウトしてできた会社で、この大規模言語モデルをずっと専門にやってきているんですけれども。

この大規模言語モデル、あまりにも計算基盤が必要なものになっていて、なおかつ事業としても、Microsoft、Google、AWSなどなどがいろいろと切磋琢磨しているような状況だったので、これをちゃんと日本発でLLMのプレイヤーとして育てようということで、2024年の4月からKDDIにグループ入りして、このLLMの開発と、社会実装と、この両面を加速させるようなかたちで、今事業を展開しているところになります。

ちょっと2つだけご紹介します。弊社の顔としてはですね……次のスライドにいっていただきまして、LLMの研究開発という顔と社会実装の顔があります。研究開発は2019年から開始して、2020年には80億ぐらいのパラメーターのモデルを作って、「人間を超えた」とか、そんな発表をしたりですね、要約のAIを作ったり執筆のAIを作ったり。

2023年からは、岡崎先生と同じく外部のモデルを使って汎用性の高いモデルを作るという取り組みをしています。2024年の3月には、Googleが出している「Gemini 1.0 Pro」とか、OpenAIが出している「GPT-3.5 Turbo」などと同じような水準の精度のモデルを作るということをしています。

次のスライドはちょっと飛ばしますけれども。我々は研究開発の面で、よくメディアに出ることが多いんですけれども、社会実装も多くやっています。これは2023年度の事例だけになりますが、6社の企業さんと取り組みをしまして、6社すべてででちゃんと30パーセント、50パーセントの業務効率化の成果を出しまして、導入、現場で使われるというところに進んでいたりします。

というので、本日は、研究開発の側面もそうですし、社会実装の側面でいろいろとリアルな情報をお話しできればなと思っている次第です。

南野：ありがとうございます。曽根岡さん、ありがとうございます。

ビジネス特化型LLMの開発

南野：では、近江さん、よろしくお願いします。

近江崇宏氏（以下、近江）：はい、ありがとうございます。ストックマーク株式会社の近江と申します。私自身は、もともと東京大学で研究をしていまして、その時は、時系列解析を主にやっていたんですけども。こういう時代で、社会実装のほうがおもしろいなと思うようになりまして、2020年からストックマークで自然言語処理の研究開発を行っています。

弊社についても簡単にご紹介させていただければと思います。あらためまして、弊社はストックマーク株式会社といいまして、今8期目で、従業員数は100名規模のスタートアップとなっています。すみません、次、お願いします。

事業内容といたしましては、主に企業のお客さまを対象として、業務に必要な情報がワンストップで見つかるプラットフォームということで、「Anews」「Astrategy」というサービスを運営しています。

このサービスは具体的に、業務で必要な、例えばニュースであったり、プレスリリース、特許、論文といった情報を世界中から日々収集していまして、それをお客さまに対して、興味のある情報を推薦したりとか、その分析を効率的にするためのプロダクトを提供しています。ここにAIをいろいろ使っていまして、情報の構造化とか推薦とか、最近だと生成などは、かなりAIを駆使したようなプロダクトになっています。次、お願いします。

おかげさまで、大企業のお客さまを中心に活用が進んでいるような状況になっています。すみません、次、お願いします。

もともと我々は「BERT」とかの時代から事前学習モデルを公開したりとかけっこうやっていたんですけども、特にLLMにもかなり研究開発、社会実装などに投資していました。我々は主に企業のお客さまを対象としていますので、ここ1年はビジネスに使える生成系AIを作るところを目指しています。

そのために必要なビジネス領域のデータ収集というところから自分たちでやっていますし、2023年は、130億パラメーターの、ビジネスに強いLLMの開発をして、モデルを公開するというようなことも行っていました。

直近では、政府の「GENIAC」のプロジェクトなど、採択されています。1,000億パラメーターのLLMの開発を行ったりとか、お客さまとの生成系AIを使ったPoCなどを進めています。

また、研究機関との共同研究も盛んにやっていまして、産総研とか理研とか、あと、東北大などとの共同研究なども行いつつ、この生成系AIの研究開発、活用を進めています。どうもありがとうございました。

南野：近江さん、ありがとうございます。

LLM開発の意義を探る

南野：お三方の自己紹介が終わったところでディスカッションに入っていければと思いますが、「大規模言語モデルを作るその意義に迫る」といったタイトルで深掘っていきたいと思うんですけど。

大きく3つ議題を用意していまして、1つが、そもそも大規模言語モデルを作る意義であったりとか、そこのLLMを作ってきた時にどういう苦労があったのか。

あとは、LLMを作る側としては、先ほどから社会実装であったりとかそういったようなキーワードになってきていると思うんですけども、社会実装側と大規模言語モデルを作る側でどういうやり取りやコミュニケーションが発生したのか。LLMを作る側としては、どういうことを考えないといけないのかというところを掘り下げていければと思っています。

では、まず最初にですね、1個目の議題なんですけども。大規模言語モデルを開発する意義といったところを、お三方にディスカッションしていただければと思っています。まず岡崎先生からコメントをいただきながら順番に話していければと思います。

岡崎：大規模言語モデルを開発する意義は、いっぱいあって話し尽くせないかもしれないぐらいな感じなんですけれども。私自身の最初のモチベーションは、自分の研究もしくは日本のNLPの研究コミュニティで使えるLLMを作りたい。

あと、「ChatGPT」とか「Gemini」とかが人間の知能……人間に肩を並べるような知能を実現してきていると思うんですけれども、それがどうやって実現できているのかを、自分たちでも知ってみたいというのが、まず最初に重要な意義かなと思っています。大規模言語モデルを開発するレシピをちゃんと自分たちでも把握したいし、それでどうやってできているのかを理解したいというのがあります。

研究と理解の深化

岡崎：そうやって開発していく時にやはり必要になってくるものが、データと、あと大規模な計算機をどうやって回していくのか、そういう技術力だったりするんですけれども。

それを身につけていくことによって、大規模言語モデルを開発したり運用していく時に、それのお守りができる。もしくは、ちょっとこの性能が足りないなと思った時に何をすればいいのかが感覚的にわかるようになってくることもすごく重要なことなんじゃないかなと思っています。

今、Swallowのモデルとかは継続事前学習といって、もともと別のモデルがあって、そこに後から日本語の知識を注入するようなかたちで開発をしているんですけれども、今後、オープンなモデルで日本語にも強いモデルがどんどん出てきます。

そうなった先というのは、やはり特定のアプリケーションやドメインに少し詳しくなったような、そこにちょっと専門性を特化したようなモデルを作っていくことをみんなができるようになっていくことが大事で、そういった時に、継続事前学習でいろんな知見を溜めておくことは大事かなと思っています。

あと、大規模言語モデルをやっていると、やはり楽しくてですね。「なんでこのデータからこんな知能が実現するんだ？」というところで、やはりやっているとおもしろさをすごく感じます。

そういうおもしろさを感じてハマってもらえる人をどんどん増やしていったりとか、そういう人たちを支援していくことも大学の役割として大事かなと思っています。以上です。

南野：ありがとうございます。

トークナイザーと特化型モデルの必要性

南野：では、曽根岡さん、いかがでしょうか？

曽根岡：もう、岡崎先生が話してくださったことで大半な気がするんですけれども、あえて我々視点でお話をしますと、「結局は、OpenAI、Anthropic、あとGoogleが作るモデルでいいんじゃないか？」という話がよくされる中で、「わざわざ日本にいる我々のような企業が作る意味は何なのか？」というところを少し考えてみると、大きく2点あるかなと思っています。

1点目が、すごくマニアックな話をしますけど、トークナイザーと呼ばれるところの工夫です。グローバルのモデルにですね……OpenAIのサイトの中に「Tokenizer」というページがあるので行っていただくとですね、テキストを入れると、どういうふうに文を区切っているのかが見られるページがあります。

そこでいっぱい試していただくと、「あっ、これ、トークナイザー、大事だな」と感じていただけるんですが。どういうものかといいますと、例えば「こんにちは」という単語をLLMに出力をさせる時に、普通だったら1回、1,750億パラメーターのトークンの掛け算をして、演算をして、1回処理して、「こんにちは」と出たらうれしいんですけれども。

グローバルモデルは今どうなっているかというと、「こ」「ん」「に」……「ち」は2回処理して、「ち」「は」と、6回処理しないと「こんにちは」が出ない、みたいなことがあったりします。

ここらへんは、少しずつ良くなってきてはいるんですけれども、例えば「大規模言語モデル」は全部で8文字ありますけど、入れると、これは11回ぐらい処理しないと出ない。一方で、「Large Language Model」と英語でやると3回で処理する。

これは、3回で同じ出力ができるのと、11回しないといけないのだと、要は計算資源が3倍から4倍必要であって、時間もかかるということがある。このLLMの処理を効率化してスピードアップして、なおかつ多額のお金がかかるGPU資源を抑えるという意味では、このトークナイザーをすごく工夫していくというのは、1つ、日本のプレイヤーとしては重要だと考えているところです。

もう1つが、先ほどトピックでありましたけれども、やはりなにかに特化させる。知識を深く習得させるというのは重要です。今、海外だと弁護士の先生が「GPT-4」に普通に法律の質問とかして使っているらしいんですけれども、日本の弁護士が今のGPT-4に法律の質問をしても、日本の法律をまったく知らない状況なので使えないということが起きていたりします。

そういう意味では、我々日本人が使うために、本当は知っていてほしい知識というのは、やはりグローバル差分があるところではあるので、そこの穴埋めをちゃんとしていくのが我々日本人としてLLMを作る意義なんじゃないかなと思っています。以上です。

南野：ありがとうございます。

（次回へつづく）

続きを読むには会員登録
（無料）が必要です。

会員登録していただくと、すべての記事が制限なく閲覧でき、
著者フォローや記事の保存機能など、便利な機能がご利用いただけます。

無料会員登録

会員の方はこちら