LLMアプリケーション開発の課題

南野:じゃあ、本題に移っていきたいと思いますけれども、現場とアプリケーションとLLMというところで、まずちょっとストックマークさんからお話しいただければと思います。

現場の要望であったりとか、アプリケーションをこう作っていこうという中で、「LLMを、じゃあ、こうする」で作っていけばいいんじゃないかとか。そういった部分の、LLMの作り方の要件であったりとか思考回路であったりとか、そういうところをぜひ教えていただければと思います。

近江:そうですね。やはりLLMでアプリケーションを作るのはけっこう難しいと思っています。例えば、ちょっとChatGPTとかを使った例で、我々のサービスの中でLLMを使ってRAGをやっているようなシステムがあるんですけども。

だいたい最初にチューニングして、プロダクト側とどういう出力をしたらいいかみたいなところで話し合って、「じゃあ、そこに向けてチューニングしましょう」というところで、リサーチ側でチューニングして出すんですけども。

けっこういくつかのバージョンを出して、プロダクト側の人に評価してもらったり自分たちで評価してもらったりするんですが。人によってどのモデルがいいのか意見が異なるみたいなところがあって、やはり出力として言葉が出てくるので、それに対する捉え方みたいなのがあって、人によってけっこう違うみたいなところがあって。

最終的に、なんとなくこうしたいというのはあるんですけど、「本当にどこらへんを目掛けていけばいいのかな?」みたいなところの意思統一を図るのは、けっこう難しい。そこは一番苦労するところかなと思います。

それで、お互い話し合っていきながら最終的なゴールを目指すわけですけど、今まではけっこう明確に、「このワードを抽出できればOK」みたいな要件とかがあったりしたんですが、最近はもう、出力が言葉になってきているので、そこらへんの要件をどう絞っていくかみたいなところの難しさは感じますね。

LLM導入による開発プロセスの変化

近江:あと、ちょっとLLMを使い出してから開発の仕方とかがけっこう変わっていったなと思っています。今までNLPのアプリ機能を作ろうとすると、やはりリサーチャーなりエンジニアなり、けっこう関わらなきゃいけなかったんですけども。

もうプロンプトをいじればけっこう調整できてしまうみたいな側面もあるので。プロダクト側のPdMがいろいろ調整しているだけでもけっこう簡単なアプリケーションができたりみたいなことも起こり始めてきたので、本当にアプリケーションを作るみたいな現場も、今までとはやり方がかなり変わってきているなとは感じますね。

南野:アプリケーションがうまく動かない時に、「LLMをちょっと変えて」みたいな、そんなようなやり取りはあったりするんですか?

近江:ですね。どちらかというと、「この出力いいですね」というより、「こういう出力をなくしてほしい」みたいな要件とかがあって、そういうものに対応するみたいなことは、けっこうありますね。

南野:その部分は、あんまりガチャは関係ないんですか?

近江:事前学習よりは少ないですけど、チューニングも多少ガチャな部分があるので。例えば、同じデータでも、ちょっと最初の初期値が変わるだけで出力が微妙に変わったりみたいなところもあるので、そこらへんも一定、ガチャの要素はあるかなとは思います。ただ、事前学習に比べるとだいぶ不確定性は低いかなと思います。

南野:ありがとうございます。

ELYZAのLLM実装戦略

南野:じゃあ、ぜひ、ELYZAでどんなことをやられているかも、曽根岡さん、お願いします。

曽根岡:ありがとうございます。我々はですね、いろいろな大企業の方々からご相談を受けて、どういうふうに……LLM自体もそうですし、その周辺のシステムとして作るべきかみたいなところをご一緒することがあったりします。やっていく中で得られた知見は、ほとんど近江さんがおっしゃってくださったことに近いんですけれども。

やはり評価。評価が大事なんですね。みなさん、今日このままいくとガチャが頭に残るかもしれないんですけど……。

南野:(笑)。

曽根岡:ぜひとも、「評価が大事」と、これを覚えて帰っていただきたいなと思っています。

近江さんがおっしゃっていたとおり、今までのAIは、顔写真を入れて、男性か女性かを当てる。これはテストデータを100枚用意しておけば、AIを作った瞬間、「このAIは、98パーセントの精度です」とか出せたんですけれども。

生成AIは、生成するんですよね。じゃあ、生成されたテキストがいいか悪いかなんて、どうやって評価するのか。これは非常に難しくてですね。結果、結論だけ言いますと、最終的に使うエンドユーザーにちゃんと評価をさせる。これが本当に重要なことになっています。

LLMの活用でよく失敗しているなと思うのは、「コンタクトセンターのオペレーターさんが使うLLMの処理を作ろう」と。「がんばって、プロンプトエンジニアリングをAIエンジニアがやりました」とやっても、やはりオペレーターさんからすると、最後に出てきた処理はフィット感がない。

なので、我々が一番お勧めしているのは、どんなものもエンドユーザーにすぐ当てて、使ってみてもらって、駄目なところを指摘してもらう。こういうフィードバックループを速く回すような活用が非常に重要なんじゃないかなと思っています。

南野:ありがとうございます。

LLM開発企業の今後の展望

南野:ちょうど時間になってきたので、最後にみなさん一言ずつ、今後半年、1年でどんなことをやっていこうかであったりとか、そういった意気込み、大規模言語モデルに懸ける意気込みみたいなものを一言ずついただいて、終わっていきたいと思います。

では、近江さんからお願いします。

近江:そうですね。我々はけっこうこの半年ぐらい、LLMを作るということをメインでやってきたんですけど、今後は、しっかりそれを使ってお客さまの価値を出すみたいなところをやっていきたいなと思います。と言いつつ、たぶん新しいLLMをまた作っていくんだろうなと思いますので、また、なんらかの機会でお話しできたらいいのかなと思います。ありがとうございます。

南野:ありがとうございます。じゃあ、曽根岡さん、お願いします。

曽根岡:我々はですね、3月に本当にChatGPT、GPT-3.5 Turboぐらいの性能のモデルを作ることができた状態ではあるんですけれども。我々の認識としては、使う時に選ぶことができる、選ぶ選択肢に入れることができるLLMを今作れたなとは思っているんですが。このあたりはやはり選ばれるLLM、そして選ばれるLLMの先に、事業としての継続性がある事業を作っていかなければいけないということを常々社内で話しています。

なので、我々は、この後の1年間、半年間やっていくことはですね。まず、「今のLLMはOpenAIと遜色ないけれど、それだったらOpenAIを使うよね」という状況だとは思いますので、なにか、ちゃんとユニークネスがあって選ばれるLLMを作っていくということをします。

あと、この作ったLLMをですね、ただ持っているだけじゃなにも社会は変わらないというところで、APIサービスだったりとか、先ほどお伝えしたような大企業さんとのコラボレーションの中でしっかり使っていくことを徹底してやっていこうと考えています。

以上です。ありがとうございました。

南野:ありがとうございます。

日本のLLM開発の未来

南野:じゃあ、岡崎先生、お願いします。

岡崎:2024年の1年は、おそらくOpenAIのモデルとか大企業のモデルと肩を並べる性能の日本語の言語モデルが出てくる年なんじゃないかと思っています。

GENIACの支援で作っているものとか、大規模なモデルで性能のいいものが出てくるかもしれませんし、継続事前学習で作っているモデルですごく高い性能が出てくるかもしれなくて、それをまず、しっかり開発することが大事かなと。2024年はけっこう勝負の1年かなと思っています。

あと、研究者として何ができるかというと、やはりいろんな苦労はあるんですけれども、それを苦労と感じないような人たちなので、「こういうモデルを作るためには、こういうことに気をつけなきゃいけないから」という知見をしっかり溜めていって、どんどんそれを広く共有していくようなかたちで、みんなで盛り上げていければなと思っています。

南野:ありがとうございます。以上でこのセッションを終了していきたいと思いますけども。大規模言語モデルをそもそも作っている方々は日本でもかなり少なく、その中で、この産業としてすごく必要だなといったところで、全員で支えながらみなさんの進捗を見守っていきたいと思うので、みなさん、ご協力をお願いします。すごく知見のある話、ありがとうございました。

岡崎:ありがとうございました。

(会場拍手)