ログイン

会員登録

ログイン

会員登録

検索

ログイン

メニュー

検索

ログイン

メニュー

日本語LLMの要諦

2024.02.08 - 2024.02.08

垣内弘太氏の登壇セッション（全1記事）

1記事目

2024.03.11

メインカテゴリテクノロジー

英語圏の高性能LLMを活用して、日本語LLM開発を加速　LLMのリーディングカンパニー・ELYZAの挑戦

リンクをコピー

記事をブックマークブックマーク解除

画像・スライド一覧

国内LLMのリーディングカンパニーであるELYZAのCTO・垣内弘太氏が、日本語化モデルの開発について発表しました。

LLMのリーディングカンパニー、ELYZAの取り組み

垣内弘太氏：ELYZAの垣内と申します。ELYZAは、2018年に東大の松尾研からスピンアウトしたLLMカンパニーです。

私はELYZAのCTOの垣内といいまして、共同創業者でもあります。社内では、独自LLMの研究開発だったりLLMを活用したDX事業をリードしています。

ELYZAの活動ですが、いわゆるLLM、大規模言語モデルとホワイトカラー業務でのDXというところで掛け合わせて事業を推進しています。

僭越ながらELYZAのポジションとして、そもそもの創業の経緯は、「NLP（自然言語処理）×ディープラーニングは、画像とかに比べたらまだちょっとアレだけど、今後絶対すごいこと起こるよね」というところで、社長の曽根岡（曽根岡侑也氏）と私が一緒に話している中で創業した会社なので、2019年からLLMに対する投資をしてきています。

その結果、日経新聞新聞さんに、代表する企業として取り上げられたり産総研の生成AI開発支援プログラムに企業として採択されたりと、国内におけるNLP、自然言語処理のリーディングカンパニーとして認知していただいているのかなと思っています。

それこそR&Dなど、今はLLMを開発をする企業もどんどん増えてきていると思います。ELYZAの強みですが、特徴は、R&Dとそれをどう社会で価値に変えるかという社会実装、両方においてトップランナーであること。自分で言っていいのかはわかりませんが、日本におけるLLMのリーディングカンパニーと言えるんじゃないかなと思っています。

ELYZAにおけるR&D

まずはR&Dについてちょっと紹介をさせていただければと思います。

先ほど申し上げたとおり、創業当時からLLMをやっています。2020年には、「BERT」というモデルに近いアーキテクチャのLLMみたいなものをゼロから作ってリリースしました。

2021年には、要約に特化したLLMを開発して、デモとして公開したり、2022年には、ニュース、メール、職務経歴書などを執筆するAIを開発して、それをデモとして公開しました。

（スライドを示して）こちらは主に2023年の活動なのですが、Meta社の「Llama 2」というモデルがあって、それをベースに日本語化するという取り組みをして、日本語のLLMを開発して公開をしました。

ELYZAの取り組みを受けて、MetaのLlama 2を中心に海外モデルを日本語化するという取り組みがけっこう出てきているとは思いますが、日本で最初にこういうふうにきちんとリリースしたのは、うちの会社なんじゃないかなと思っています。

今は、70億パラメーターと130億パラメーターの2つのモデルを公開していて、現在、700億パラメーターのモデルを開発している状態（※）です。

※2024年3月12日に公開済。詳細はこちら。

高性能な日本語化モデルを開発中

Llama 2の日本語化というところを、まずご説明できればと思います。Meta社のLlama 2をベースに、日本語をすごく学習をさせて、その後、「Post-training」と書いてありますが、LLMに指示に従わせるELYZA独自のデータセットを学習することで高性能な日本語化モデルを作っています。

これの取り組みの背景ですが、もともとMetaが公開したモデルは、タスクによっては、「ChatGPT」に匹敵するようなけっこういいモデルなんですよね。

一方、日本語には対応していません。これは、「仕事の熱意を取り戻すためのアイデアを3つ挙げてください。」というものですが、日本語の入力を受け付けて英語で返しているんです。この英語の内容は、至極真っ当なんですよね。だから精度はすごく高いのですが、日本語での出力に対応していないというところがありました。

（スライドを示して）この、取り組みへの思いというところですが、やはり日本は、LLMにおいて、当たり前っちゃ当たり前ですが、アメリカなどに比べたら後れている状況です。

ELYZA単体というよりかは、日本としてLLMを使ってどんどんできるようにしていかないと、どんどん（世界に）後れていくよねというところで、「英語圏の高性能のLLMを活用して日本語LLMの研究開発を加速できないだろうか？」と考えました。

やはり、Llama 2などの英語圏のLLMに比べると、日本語LLMはまだまだ規模が小さい。計算リソースが足りなかったり、日本語のテキスト自体もそもそも少ない。あとやはり、開発のためにお金がすごくかかるというのもあります。

ほかにも、公開されている英語圏のLLMの現状として、日本語に対して性能が低いものが多かったり、後で時間があったら説明できればと思いますが、推論効率がちょっと悪い、みたいな話もあります。なので、他言語で学習されたLLMの能力を引き継いで、少量のリソースで高性能のLLMを作れればというところを目指していました。

結果、こういうふうに、もともとは質問に対して英語でバーっと出力していたものを、きちんと日本語で出力できるようになりました。これは、リリース当時のスコアの話なので、今現在のいろいろなモデルが出ている中での話とはちょっと違ってくる部分はありますが、当時公開されているLLM、日本語のモデルと比較して最も高いスコアを獲得しています。

あとは、2023年末に出した13B、130億パラメーターのモデルは、「text-davinci-003」、GPTの初期のバージョンのLLM、ELYZAの13Bモデルの10倍以上のサイズがあるモデルに対して、性能面で上回ることを達成しました。

fastバージョンでは日本語の推論効率が飛躍的に上がっている

どういう出力をしているのかというところですが、例えばわかりやすい例で言うと、「『彼は比類のない陸上選手だ。』と『彼は比較的に良い陸上選手だ。』、1の文を2に直したいんですけど、合っていますか？」と言われた時に、「1の文は、圧倒的に優位であることを言っていて、2の文は、そこそこいいことを言っていますから、これって違いますよ」みたいな、けっこう日本語として難しいことを処理できていたり。

あとは、自律神経や副交感神経みたいな科学的な話もきちんと回答できていたりというところで、けっこう性能のいいモデルになっているんじゃないかなと思っています。

あとは、公開しているモデルとして、13B、7B、それぞれラインナップを4つ揃えているのですが、特に注目すべきなのは、日本語化したモデルのfastバージョンでは、普通のLlama 2などに比べて日本語を処理する能力が、7Bだと1.8倍、13Bだと2.27倍になっています。

この背景をこの時間で説明しきるのは難しいのですが、簡単に説明すると、例えば英語でなにか文章を表現しようとすると、最悪アルファベット27文字あれば表現できるわけです。

一方、1文字1文字出すのはすごく効率が悪いので、「Hello」とか、文字が集まった単位で文章を扱うことが多いのですが、扱える語彙には限りがあるので、一定の範囲内でやる必要がある時に、どうしても海外のモデルだと、日本語の優先度が低いため、日本語は全部細かい単位での登録になっていることが多いんですよね。

でも、東京都は「東京都」という1つのトークンとしてきちんと扱うことで、文字ごとに出力するよりも3倍効率がいいみたいなことをfastモデルではやっていて、結果、約2倍の効率化を達成しています。

それこそChatGPTなどを使う中で、1トークンあたりいくらとか、そういう話もあると思いますが、コスト的な面でも2倍効率がいいというところがあるかなと思います。

社会実装の成功事例を紹介

次が社会実装の話ですが、ELYZAではどんどん成功事例を量産しています。LLMが現場導入されることで3、40パーセントの効率化を達成するということが起こっています。

今、いろいろな企業さんと導入の作業や実証実験を行っていて、いくつか事例を紹介できればと思います。

（スライドを示して）これはマイナビ社さまとの事例ですが、求人原稿を書くという、作業が大量にあり、それに対して執筆AIを当てることで、いわゆる求人原稿Copilotみたいなものを作ろうという取り組みです。

（スライドを示して）実際これが、もう現場で使われているUIですが、左のほうに給与とか、「シフト柔軟」とかと入れていくと、右のほうで文章が生成されて、人がちょっと直したらもう文章完成するみたいなところで、すでに30パーセントの効率化が実証できています。

（スライドを示して）あとは、これはJR西日本グループさまでの事例ですが、コールセンターで電話した後に応対記録を全部記録しないといけないという作業があって、これを要約AIで効率化することで、カテゴリーによって違いがありますが、18パーセントから54パーセント。平均3、40パーセント効率化を実証できているという話があります。