LLMを使う時に気をつけるべきこと

Ken Wakamatsu氏(以下、Wakamatsu):LLMについて、データのプライバシーと所有権もよく話題になりますが、LLMを使う際に気をつけなければいけないことはありますか?

Glenn Ko氏(以下、Ko):はい。汎用LLMごとにデータポリシーが異なり、過去1年ほどこれらのモデルは批判を受けたため、潜在的顧客に対してモデルをプライベートクラウド内にホストするか、あるいはトレーニング目的のデータ収集からオプトアウトするという選択肢を提供しています。

しかし、データプライバシー、安全面に関して2つの大きな問題があります。1つは、企業が従業員をコントロールできず、従業員がChatGPTを使用し、自社のコードとデータをChatGPTに入れてしまい、世界中の誰もが使えるモデルの訓練に使われてしまうかもしれないということです。

1ヶ月前くらいにBlackBerryが行った調査によると、組織の75パーセントは、従業員がChatGPTを使用することに反対しているそうです。その理由は、プライバシー面とセキュリティ面でモデルのコントロールができないからです。

自社でホストしたとしても、訓練プロセスに関わっていないので、何が入れられたかがわからないのです。ブラックボックスのようなもので、何が入るか、何が一般に公開されるかをコントロールできないというリスクが常にあります。

最も有名なのは、サムスンの従業員が自社のコードを漏洩してしまった事件です。ChatGPTが2023年3月に起こしたもう1つの事件は、支払い情報の漏洩など、顧客のデータ侵害です。他人の支払い情報が見られるようになってしまったのです。

したがって、中核技術を自社クラウド内に持たない、またはそれを完全にコントロールできないと、すべての人がデータのプライバシーとセキュリティの問題にさらされると思います。

ちなみにLlama 2は、130億パラメーターの小規模モデルですが、GPT-3.5およびほとんどの自然言語処理ベンチマークと同等の水準となっています。これは、多くの企業に「汎用LLMのAPIに頼らなくてもいい」と確信させました。

このオープンソースモデルを使い各社のクラウドに取り入れ、手を加えれば、すべてを制御できるので、データプライバシーやセキュリティ問題を気にしなくてよくなります。

そのため、「独自のモデルを構築することを考えるべきだ。短期的では難しくても、これらのモデルを最終的に内部化して、私たちの競争優位に使えるはずだ」という動きが見られるようになってきました。

つまり、ソニー版LLMや三菱版LLMを作成することができ、これらのモデルは、内部の独自データを使用して訓練されるため、その会社特有のものになります。これらのモデルは、どの外部のLLMよりも、会社やそのデータについて多くの情報を得ることになります。データプライバシーやセキュリティ面での心配がなくなるだけでなく、組織のために最善のモデルを持つことができるのです。だからこそ、多くの企業が独自LLMの構築に目を向け始めているのだと思います。

「ある意味で人間も確率的なのだ」を受容するのであればLLMも同様である

Wakamatsu:例えば、著作権により制約されているコンテンツを使わずにイチから訓練されたLLMはありますか? 「Adobe Firefly」がその1つだったと思いますが、他にもありますか?

Ko:個人意見ですが、LLMの中で著作権の問題がないものは現時点では1つもないと思います。またLlama 2の話になりますが、Llama 2は、使ったデータセットをすべて公開しています。モデルを訓練するためのソースコードも公開されています。

もちろん、なにかしら問題となるものは含まれていると思います。さまざまな訓練のプロセス、調整済みのパラメーターを確認するのは容易ではありません。しかし、少なくともモデルに何が組み込まれているかがある程度明確になっているので、こうした問題に懸念を持っている企業にとっては役に立ちます。

多くの企業が「このモデルに使用されたデータソースが何かを完全に把握するにはどうすればよいのか」ということを考え始めています。独自のモデルを作れば、もっとコントロールできますよね。

ほとんどの企業がイチからは作らないと思います。イチからの訓練に何百万ドルも費やさなくていいように、オープンソースモデルを採用し、次にそれに独自のデータを追加する方法を探るでしょう。

LLMを構築するための無数のコード、LLMの中に取り込まれたものの追跡、用いられたデータの追跡、モデルを訓練するのに使われたデータのリスト、モデルのインプットに対するアウトプットをこれから目にすることになるでしょう。

日本は、AIモデルに関する著作権ポリシーが最も先進的であるという点が、非常に興味深いと思います。特に当初の発表は、画像に関連するものでしたよね?

これらのモデルを訓練するために使われている素材、そして、これらのモデルによって生成されたコンテンツの著作権の問題に他の国々がどのように対応するのかも興味深いところです。

人々は、時間とともに確率モデルという概念に慣れていくと思います。そして、LLMによって生成された答えのすべてを信用しなくなるようになると思います。

例えば、授業のために使っている若い世代の高校生や大学生は、生成された応答をしっかり見直す必要があることをよく知っています。これらのモデルには、本質的に人間が関与する必要があるのです。コンテンツを生成しても、最後の段階で人間がそれをレビューし、使おうとしているアプリケーションに適用しなければいけません。

もう1つの問題は、先ほど触れた著作権の問題です。これは、どちらかというと企業向けですね。訴訟につながるコンテンツを使用しないようにするにはどうすればよいか、ということです。これらの点を除けば、この技術はとても楽しみです。

人々は、この技術をAGI(汎用人工知能)に近いものとして考えていましたが、LLMが確率的であるということを理解し、ツールとして使えば、既存のアプリケーションに便利な機能を付け加えることができます。ただ、これらのモデルは、すべてを知っている最強AIのようなものではありません。

人間と働く場合でも、例えばエンジニアに「Aをやって」と言った時に、エンジニアが誤解してBをやったり、AをやろうとしてもAではないものになったりすることもあります。

人間も完璧ではない。ある意味で、人間も確率的なのだということを受容するのであればLLMも同様です。膨大な量のデータをもとに訓練され、必要な知識がデータベースにない場合、もしくは不正確な情報が混じっていた場合、人間が間違えるのと同じようにLLMは間違ったことを言ってしまいます。政治のような繊細な話題だとみんな意見が違うように、絶対的な真実はないのです。

したがって、多くのユースケースが構築されるにつれて、これらのモデルを私たちがどのように使うようになるのかは興味深いです。私たちがこれらのモデルを使うことに慣れていき、すべてを決定論的に考える習慣から脱却すれば、人間かAIかという区別は必要なくなると思います。

LLM導入にあたり必要になる2つのチーム

Wakamatsu:日本に限らず、LLMなどのサービスを使いたいと思っている企業にStochasticは円滑にこのようなサービスを提供していますが、LLMの導入、または学習にあたり、企業が他にするべきことはありますか? また、どのような人やチームが必要ですか。

Ko:2つのチームが必要です。最初に構築したいチームは、データサイエンス、または深層学習の経歴を持つ人々で構成されるAIチームです。2つ目のチームは、AIインフラストラクチャのチームです。

AIの作業はコンピューターリソースを使うため、費用が非常に高くつきます。大手のIT企業であるGoogle、Meta、OpenAI、Microsoftなどを見ると、こうした仕事をしている人たちは、博士号を持っていたり、長い期間その訓練を受けてきたりした人などばかりです。

他方で、先ほど述べたように、オープンソース、ブログ、YouTube、大学が提供する無料授業などのコンテンツがますます増えてきています。こうしたコンテンツが出てくるほど、このような仕事ができる人が増えるでしょう。

しかし最初は、まず実現可能なものを構築することが必要なので、ほとんどの企業にとっては、インフラを作ることはそれほど緊急ではありません。こうしたモデルを使うことで実際に構築できるユースケースは何かのほうが大事です。

まずAIチームを構築し、次に、AIインフラストラクチャチームについて考えることもできますが、後者を見つけるのはより困難です。プロンプトエンジニアリングができ、汎用LLMを使うことができる人はたくさんいるでしょう。それによって、計算、合法なコンテンツ生成など、クールなアプリケーションを作れます。

一方、インフラストラクチャのほうは、まだ不足していると思います。なぜなら、大手のIT企業を除けば、まだそのレベルに到達している人や企業は少ないからです。大手のIT企業は、もう10年くらい経験があります。彼らは、長い間AIと関わってきました。

システムの知識を持った人材も不足していると思います。GPU上で分散コンピューティングを実行でき、さらにAIの知識も結び付けられる人材は少ないです。

しかし、スタンフォード、ハーバード、MITなどでは、AIシステムに焦点を当てた新しい授業ができてきました。これらの授業は、できてからまだ2~3年目くらいですが、これからそのような経歴を持つ卒業生が増えてきます。

AIがこれから企業の中核になると考えると、今すぐにでもそのような人材の雇用を始めるべきだと思います。なぜなら、雇用プロセス自体はとても遅く、同じことを考えて雇用し始める他の企業たちと競争になってしまうからです。

したがって、AIプロンプトエンジニアリングなどの経験がある人を雇うなど、とりあえずどこかから始めることをお勧めします。徐々に進めていき、最終的にはAIインフラストラクチャチームを採用しましょう。

先ほど、AIインフラを独自に構築する優先度は低いと言ったのは私たちのプロダクトである「Stochastic xCloud」などを代用することもできるからです。このように他の選択肢もあります。

しかし、LLMの技術自体は非常に重要であるため、独自のデータに基づいて訓練されたモデルを持たない外部ソフトウェアに依存するのではなく、内部でなにかしら行う必要があると思います。

PdMやプロダクトリーダーは自分たちにできる小さなことから考えるべき

Wakamatsu:日本のPdMやプロダクトリーダーにメッセージをお願いします。

Ko:この業界は急速に変化しています。その中でも、PdMやプロダクトリーダーは、AIに圧倒されず、自分たちにできる小さなことから考えるべきだと思います。

非常に簡単に始められるのは、要約です。例えばテキストを扱うアプリケーションに要約を加えるのはLLMで対応できます。ユースケースとしては、とても小さいですが効果的です。小さなことから始めれば、その経験から知識が得られ、より複雑なユースケースにも自信を持って取り組むことができます。

多くの人が、初めに手を付けるのはChatGPTですが、1日目からChatGPTのようなものが出来上がると思わないでください。既存のプロダクトに付け足せるシンプルなことを考えてください。

その経験を通じて、これから構築するクレイジーでワクワクするようなとびきりすばらしい機能や新しいアプリケーションを想像してください。

Wakamatsu:本日は、お時間ありがとうございました。Product Leadersでお話ができてよかったです。いつかお会いできるのを楽しみにしています。

Ko:こちらこそありがとうございました。LLMのお話をするのはとても楽しかったです。