生成AIの6つの本質的価値

梶谷健人氏:生成AIならではの価値の作り方が「意味」のところですね。

まずは生成AIが本質的にはどういう価値を持っているのかを作り手がきちんと理解した上で、あぶり出して検証した顧客の課題と組み合わせて、サービスを作るという考え方が重要です。

生成AIの本質的な価値は何なのか。個人的には(スライドの)この6つに整理できると思います。

最初の1から3がコアな価値で、そこの派生として4から6の価値が生まれるという構造です。

それぞれの価値を解説させていただきます。まず最初が「コンテンツの創造コストが限りなくゼロになる」。

生成AIの第一の本質的価値は、その名のとおり創造の限界費用が限りなくゼロに近づくことだと思います。

それによってコンテンツの制作コストを大幅に下げられる。例えばJasperとかWriterのようなサービスや、商品画像を1点撮れば無数のバリエーションの画像を生成できる「PhotoRoom」。

あとは、顧客ごとに動画のコンテンツを動的にパーソナライズする「Tavus」といった具体領域が伸びているのが、この「コンテンツの創造コストを限りなくゼロにする」という本質的な価値になります。

限りなく自然な対話の実現

2つ目が「システムによる限りなく自然な対話の実現」ですね。

これはみなさんChatGPTでもう実感されている価値だと思います。大規模言語モデルが精度を向上されたことで、システム・マシンが限りなく自然な対話をユーザーと行うことが可能になりました。

その中でいくつか具体の価値とサービスが出ています。例えば顧客企業のドキュメントを学習し、カスタマーサポートのチャットを自動化することで、対人対応のコストを大幅に削減する「Ada」というサービスがものすごく伸びています。

あとはインターフェースの自然言語化ですね。例えば「Adept」なんかはSalesforceとか、不動産の契約サイトなどの操作が複雑なサイトをユーザーが操作する際に、自然言語で「〇〇をこうしてほしい」といったテキストを打つだけで、システム側が操作を代替してタスクをクリアするというサービスです。

あとは、体験内コンテンツのインタラクティブ化もしくは半自律化といった領域で、この「Inworld」というサービスがすごく伸びています。

コンピューターキャラクターは、これまではずっと同じ返答をする村人などでしたが、生成AIで性格やキャラクターの背景ストーリーを設定しておくと、プレイヤーと自然かつ無限通りの対話が可能になるゲーム内AI NPC(Non Player Character=プレイヤーが操作しないキャラクター)を作成できる。そういった領域が成長しているのが、2つ目の本質価値だと思っています。

コアだけど、意外と見落とされている価値

そして、コアな価値の1つでありつつ意外と見落とされているのが、3つ目の「非構造化データのベクトル化」です。

例えば社内の文書やフォーマットが揃えられていないテキストデータ。そういった今まで利活用が難しかった非構造化データも、大規模言語モデルの仕組み上、ベクトルに変換できるので、非常に取り扱いがしやすくなったことは大きな変化だと思います。

それによって非構造化データを、文脈を加味した検索が可能なサービスとして、例えば「Glean」は、社内のコンフル(Confluence)とかGoogleドライブ、Dropboxなどのドキュメントとつなぐと、社内のナレッジ情報を対話型インターフェースで検索したり、社内の深い情報を教えてもらえたりする。

あとは非構造化データからインサイト抽出もできるという領域で、「AlphaSense」というサービスが非常に伸びています。これは、オンライン上のビジネス系・経済系のメディアを定期的にクロールして情報を取得し、記事のテキストデータ、非構造化データから、AIがインサイトを各企業ごとに抽出・作成し、コンサルティング企業や投資会社向けに提供するサービスです。

あとはエンジニアの方がよく利用されているGitHub Copilot。コードやコメントの集合も非構造化データといえば非構造化データですが、それをきちんと理解した上で即時的なレコメンドをしてくれる。

コードを書いていると、その行動の先をリアルタイムにレコメンドで埋めてくれたりするんですね。そういったコパイロット系のサービスも、この3つ目の本質価値の領域で非常に成長しています。

コアから派生した3つの価値

この1から3までが、コア中のコアの価値です。それを背景に4から6の、派生ではあるけれどもかなり重要な価値が生まれています。その1つが「単一モーダルのインプットから、別orマルチモーダルのよりリッチなアウトプットを自動作成する」という価値です。

AIの領域だと、この「モーダル」というカタカナ語がよく出てきます。ざっくりいうと、テキストや音声、動画や画像などは、コンテンツのフォーマットであったり人間の知覚の種類が異なると思うんですが、それぞれをモーダルという単位で区分けするという考え方です。

生成AI技術を使うとテキストなど単一のモーダルのインプットからマルチモーダル、もしくはモーダルのすり替えをしたアウトプットの生成が可能になっています。

左側の動画はAI生成の動画です。これはテキストという単一のモーダルをインプットすることで、例えば社内研修やマーケティング素材など用途で、リアルな見た目のAIアバターがテキストの原稿をもとにリアルな話し言葉で、かつ見た目としてもリアルな動画コンテンツを生成できる「Synthesia」というサービスで、ものすごく伸びています。

あとはテキストのデータインプットからスライド資料を作る、「Tome」というサービスが伸びていたり。こういった単一もしくは少ないモーダルから、別のよりリッチなモーダルに変換して、コンテンツの使用価値を上げるサービスも今、非常に伸びています。

5つ目が「高単価専門知識の民主化」です。

これは2つ目の「自然な対話を可能にする」と(3つ目の)「非構造化データのベクトル化」の組み合わせで生まれた価値ですが、本来は高度な専門知識が必要な、例えば法律とか会計とか、医療。そういった領域において、契約書のレビュー作成を代わりにAIが行ってくれる「Ironclad」といったサービスが非常に伸びています。

あとはまだサービス化はされていませんが、Googleが今作っている「Med-PaLM 2」という医療特化の大規模言語モデルが実際に病院でテスト運用されていたりと、かなりこの領域も伸びています。これが5つ目の本質価値ですね。

生成AI領域で成功する事業・プロダクトづくりのポイント

6つ目が、これも派生ではありつつ、かなり大きな価値の1つで「言語障壁の軽減」です。

左側はざっくりとした大規模言語モデルの、超抽象化した仕組みです。

GPTや大規模言語モデルが、学習したデータをどのようにストックしているかというと、言ってしまえば彼らAIにしかわからない「AI語」に変換・翻訳して、言語の差異がなくなった状態でストックして、そこから生成するというのをやっています。つまりベクトル化をしているということです。

それによって、若干の差はありますが、GPTでいきなり日本語での精度が高かったように、今までよりも言語障壁がかなり下がっているというのが生成AI領域で起きている変化です。

実際に、先ほどご紹介したテキストから動画を作る「Synthesia」は、いったん単一の原稿から英語版の動画を作ったあと、同時にスペイン語、フランス語、ドイツ語などの多言語バージョンを一括して生成することが可能になっています。

こういった6つの本質的価値がコアのコアで、生成AIの価値だと思っています。日々Twitter(現X)などでいろんな生成系のおもしろすごいツールが出ていて、けっこう頭がとっちらかりやすい領域ではありますが、きちんと整理するとこの6つに収れんされると思います。

逆に自分たちがサービスを作る際には、この6つのどれに重きを置いて価値を作るか、それを顧客の今見えている課題とどのように掛け合わせるかという、掛け算をしっかりと考え抜くのが、生成AI領域で成功する事業・プロダクトづくりのポイントだと思います。

きちんとこの掛け算をやってあげれば、自然と「意義」と「意味」を兼ね備えたプロダクト、つまりこの右上の象限のサービスを考えることになります。

生成AIがトレンドなので、それを目的にしたり、それ自体を価値にしたくなりがちですが、きちんと意義と意味のあるプロダクトを、今日ご紹介したような考え方をもとに作っていっていただければと思います。自分からのレクチャーは以上とさせていただきます。ありがとうございました。