Glenn Ko氏の自己紹介

Ken Wakamatsu氏(以下、Wakamatsu):「Product Leaders 2023」へようこそ。本日は、Stochasticのグレンさんをお招きしています。グレンさん、自己紹介をお願いします。

Glenn Ko氏(以下、Ko):お会いできてうれしいです。グレンです。企業向けにパーソナライズAIを作っているStochasticの共同創業者兼CEOです。

企業が大規模言語モデル(LLM)など、独自の生成AIモデルを構築し、実際に導入できるようにすることで、企業のIT活動を支える基盤を提供しています。

私たちは、ハイパーパーソナライゼーションに重点を置いています。ユーザーごとにパーソナライズされたモデルを活用した生産性の最大化を目指します。

Wakamatsu:経歴を簡単にお聞かせください。もちろんAIがご専門であることは存じています。

Ko:私は、ハーバード大学の研究室でかつてリサーチャーとして働いていた同僚たち数名と一緒に起業しました。その前はポスドク(博士研究員)としてコンピューターサイエンスを勉強する中で、どのようにするとLLMを効率的に訓練し実際に導入できるかを主に研究しており、AIシステムという類似する分野で博士号を取得しました。

アルゴリズムから始めて、並列計算などの技術を用いたソフトウェアの最適化、モデルの実行基盤となるハードウェア材料の考慮など、ソフトウェアレイヤーのモデルを最適化するさまざまな方法を研究していました。

アルゴリズムに加え、コードの処理速度向上を目的とした独自のチップとコンパイラを含むハードウェア設計というフルスタックアプローチを取りました。

LLMが革命的な理由とは?

Wakamatsu:LLMはよく耳にしますが、LLMとは厳密には何なのか、なぜそれほど重要で革命的なのかを平易な言葉で説明していただけますか?

Ko:LLMについて最もおもしろいのは、非常に大量の非構造化データでモデルを訓練できる点だと思います。この1つのモデルをさまざまなタスクに合わせて調整できるんです。例えば分類、テキストの生成、文書処理などに使用できます。今の現実世界で使える最も効率的なモデルは、あらゆる種類のタスクを1つで処理できるモデルだと思います。

なぜなら、あらゆるアプリケーション用にモデルを個別に構築する必要がなく、このモデルをそのまま使用できるからです。実際に、人間同様に読み書きできる点で、多くの人々を感心させました。以上がLLMが騒がれている理由だと思います。

先ほど、大量の非構造化データを取得してこれらのモデルを訓練できるとお話ししましたが、LLMが登場する前は、通常「教師あり学習」と呼ばれるものを行っていました。ここでは、たくさんのラベル付きデータが必要です。

例えば文章の分類であれば、「Twitter(「X」)」のツイートが肯定的か否定的か中立かなどです。ラベルを備えた大規模なデータセットが必要で、モデルに「このインプットは肯定的なコメント、この場合は否定的なコメントだ」と教えなければいけませんでした。

Wakamatsu:教師なし学習の場合、正しいかどうかはどのようにわかるのですか?

Ko:これらのモデルは確率論に基づくものです。例えば「コンピューターはどのように動作するか」という質問をした場合、基本的にAIのモデルは単語ごとに生成し、最初の単語、2番目の単語というように、次に来る可能性が最も高い単語を推論します。

つまり膨大な量のデータで訓練されると、生成された文章は非常に正確になります。コンピューターがどのように動作するかに関するインターネット上での情報や記事に基づいて訓練されているからです。

これらのモデルを訓練するためのデータセットの大部分は、「ウィキペディア」やブログ記事などを含む、インターネット上にある公開データです。

これらのモデルは、確率論が本質です。そのため、極めて正しいように見えるけれど、事実に照らすと間違った情報が生成されることもあります。文法的にも内容的にも正しい答えのように聞こえるけれど完全に間違っていることがあり、私たちはこれを「幻覚」と呼んでいます。

企業がLLMを活用するための2つの方法

Wakamatsu:これらのLLMの作成には多大な費用がかかり、維持も困難ですよね。企業はどのようにLLMを活用できるのでしょうか?

Ko:2つの方法が考えられます。1つ目は、汎用LLMを使うことです。私たちは、OpenAIのGPT、AnthropicのClaudeなどのLLMや、同様の種類のAPIサービスを汎用LLMと分類しています。これらは基本的にトークン量で価格設定されるため、APIを使用して生成した単語の量に応じて料金が変わります。生成した単語の量に基づいて料金を支払う必要があります。

他方で、オープンソースの選択肢もたくさんあります。例えば、Meta(元Facebook)の最新かつ高性能のオープンソースモデルのLLaMAの現在のバージョンは、LLaMAのVer2です。これは商用利用可能です。ダウンロードするだけで使い始められ、各自のプライベートクラウドでホストすることもできます。

Stochasticが提供するサービスを含め、APIとしてこれらのモデルにアクセスできるサービスが多数あります。LLMにアクセスする主な方法は、オープンソースと汎用LLMのAPIの2つだと思います。

Wakamatsu:自分の会社の顧客やビジネスプロセスに関するデータが大量にあり、LLMをカスタマイズしたい場合、これを実現するにはどのような方法がありますか?

Ko:この点は、先ほど私が言及した「幻覚」と関連しています。これらのモデル、特にChat GPTのような汎用モデルに関しては、ある種の凍結モデルと考えることができます。つまり、モデル自体を実際に変更することは難しいですが、入力として独自のデータの一部をコピー&ペーストして、そのデータを要約したり質問したりすることが可能です。初めてChat GPTが登場した時、人々はこれに興奮しました。

ただし、制約もあります。まず、入力サイズが制限されています。また、ギガバイトやテラバイトなど膨大なデータでこれらの大規模言語モデルを効果的に使用する方法に関して直面する課題があります。人々はこれらの大規模言語モデルを中心にシステムを構築する方向に進みました。

私たちが「検索拡張生成システム」と呼んでいるものの本質はデータベースであり、入力からデータベース内で最も関連性のあるコンテンツを見つけ、それをもとに大規模言語モデルを使用して応答を生成します。これが1つの方法です。

これにより、応答を事実に基づかせることができます。なぜなら、既存のデータをもとにして、質問に対する応答を実質的に書き直しているからです。

もう1つの使い方は、Fine Tuningと呼ばれるプロセスを通じて、LLaMAのようなオープンソースモデルに知識を組み込むことです。モデルをFine Tuningするのにはさまざまな方法がありますが、これは凍結したモデルではなく、実際にモデルに触れるプロセスであると考えるとわかりやすいです。すなわち、モデルを所与にするのではなく、モデル自体に手を加えるのです。

最適なソリューションを構築したい場合、最高のパフォーマンスを得るために上記の両方を実行したくなりますよね。しかし後者は、深層学習の仕組みやこれらのモデルがどのように機能するかなどの専門知識が必要なので、前者よりも難しいです。これらのモデルを訓練したある程度の経験も必要ですが、作業自体はだんだん簡単になってきていると思います。

私たちが「GitHub」に公開したオープンソースモデルを含め、モデルのFine Tuningに焦点を当てたオープンソースプロジェクトが数多くあります。そして、ブログやYouTubeチャンネルなどを通じて、多くの学習コンテンツが制作されています。

以上が、企業がLLMを活用し、独自データを使って、なにかクールで役立つことをできる方法だと思います。

入れるデータがすべて とにかくきれいなデータを入れる必要がある

Wakamatsu:仮に私が大量のデータを収集し、それをモデルのカスタマイズに使用したいとします。データの構造やデータの収集方法など、データのあり方で留意すべき点はありますか?

Ko:私が顧客に伝える最も大切なことは、「入れるデータがすべてだ」ということです。モデルに入れるものが何であっても、もしくはモデルに学んでほしい知識が何であっても、とにかくきれいなデータを入れる必要があります。

多くの企業で、同じ資料においてさまざまなバージョンがありますよね。誰かが資料を作って、他の人が編集をすることで、Ver1、Ver2、Ver3ができてしまいます。古いバージョンには、不正確な情報が含まれているかもしれません。これらの資料をすべてモデルに投げ入れるのではなく、古いバージョンは除去し、新しいほうだけを入れること。これが重要なことの1つです。

フォーマットの面ですが、これらのモデルはテキストを取り込むので、PDFでもWordファイルでも、テキストフォーマットであれば問題ありません。

これらのモデルが苦手にするのが、表形式です。これは多くの企業にとって問題になります。毎日の知識労働では、「Word」「Excel」「PowerPoint」のデータを使うため、画像や表形式が含まれます。より技術的な資料には、さらに多くの表形式が含まれるかもしれません。

そのようなデータを扱う方法については大きく進歩をしてきましたが、それが完璧であるとは言えません。これらのモデルは、テキストのフォーマットが一番適していると言えます。

(次回へつづく)