次は2時間の映画を自動生成するAIが生まれる?

池田朋弘氏(以下、池田):2023年にどんなことが起こったのか、これからどういうトレンドがあるのかをお話しさせていただきました。続いて高桑さんからも、同じテーマでいくつか論点を挙げていただけると思います。続けてお願いしてもよろしいでしょうか?

高桑宗一郎氏(以下、高桑):はい。先ほどご紹介にあずかりました、プロンプトエンジニアとUI/UX設計をしている高桑と申します。今日、僕は専門職としてプロンプトエンジニアを務める立場から3点お話しします。

まず「次に出てくるAIサービスは何か」と「AIに仕事は奪われるのか」。賛否両論ありますが、立場上いろいろとわかっているところがありますのでお話ししたいなと思います。

それからプロンプトに興味がある方もいらっしゃると思うのですが、これも「将来自動化されるんじゃないか」と言われています。僕が一番仕事を奪われないように必死ですから、わりと解像度を高くお話しできたらいいかなと思っています。

では1つ目の「次出てくるAIサービスは何か」です。これは完全に僕の予想ですが、大まかな方向性は2つかと思います。

1つはAIの生成に付加価値をつけるサービス。例えば生成した画像をめちゃくちゃ人間らしくしてくれるアプリです。ライブ配信や動画プラットフォームでこれを自動化していく方向もあるのではないかと思っています。

もう1つは、まだ生成できていない対象を生成するサービスです。例えば長編映画やアニメーションつきの3Dなどですね。先ほどご紹介があった「HeyGen」では、ある程度尺が短いものしか作れないので「2時間の映画を完全自動生成する」ものとかが出てくるのではないかと思います。

スライド右側は、完全に僕がSF的な感覚でイメージしているものです。まず①の始点をプロンプトで画像生成して、②で終点を画像生成する。③がイノベーションなのですが、起承転結なのか、バッドエンドなのかを指定したら、①と②をつなぐ途中の長編動画を2時間で全部作ってくれるものが、そのうち出てくると思っています。

先ほど話していたように、人間が感動するように文脈的に点と点をつなぐのは生成AIは得意なので、この③の部分をしっかり作り込んでくれるものが、そのうち世界のどこかで生まれるだろうと思います。

仕事が自動化する未来で、食いっぱぐれないためには

高桑:(次に)「AIに仕事は奪われるのか」。未来の仕事は基本的に自動化します。自動化の対象は無限にあるので、AIを使って何かを効率化や価値創造していくスタンスを取る限りは、生きているうちには食いっぱぐれないだろうなと思っています。

音声や画像、テキスト生成などいろいろありますが、UIも自動化されていくと思うので、自動化の対象になるのは、デジタル上のすべてのものです。奪うのはAIではなく人ですので、自動化する側の立場に立ってしまえば、豊かなビジネスライフを送れるんじゃないかと思っています。

例えばプロンプトエンジニアや生成AIプロダクトの開発者ですね。先ほどFunction calling(ファンクションコーリング:プロンプトに応じた関数を簡単に呼び出せるようになる機能)でプロンプト以外の要素もコーディングする話がありました。それをパッケージしたものが生成AIのプロダクトなので、こういった界隈の人たちが自動化の主体になると思います。

この赤字の部分は完全にSFですが、人類の最後の仕事は、人間の仕事を自動化すること。これが終わったら「遊びが仕事」というユートピアが、全世界共通で起きるのかなと。AIで自動化するのは人間の仕事であって、その仕事は目の前に無限にあります。なのでAIを使って自動化していく主体者である以上は、無限に仕事はあると思っています。

プロンプトは将来自動化されるのか?

高桑:AI時代にいろいろなスキルや考え方がある中で、一番安定するのは「相対的な未来」を勝ち取り続けることです。スライド一番上の「現在」で、世の中的に「ChatGPTがすごいらしい」「プロンプトという言葉は聞いたことあるけど、実際にどうなの?」と言われている中で、相対的な未来は右側です。

赤字のところは、まだ一般的に知られていないであろう僕の気づきです。モデルとモデルのパラメータ、プロンプトの3変数で、ユースケースごとのベストプラクティスを開発することは、世界でもわりと最先端寄りのポジションかと思います。

具体的には、ChatGPTのGPT-4 Turboが一番万能で優秀だと言われていますが、実は文書を読み取るキャパであるコンテキストウィンドウ(入力欄)は、Claude 2.1だとその1.5倍以上あります。Claude 2.1はトークンの費用が1,000トークン入力あたり0.008ドルなので、GPT-4 Turboより安いです。

安くてよりリターンが高いモデルの選定も問われているので、これは相対的な未来かなと思います。これからいろいろ変わっていくと思うので、5年後にはプロンプトエンジニアのさらに次のAIディレクションの技術が、生まれているんじゃないかなと思います。

3つ目に「プロンプトは将来自動化されるか」。結論はけっこう難しいと思っています。ただし特定のパターンのプロンプトの半自動化は、すでにできています。

例えば「こういうのはプロンプトとしていいよね」と言われるのは、マークダウン形式やChain of Thought(問題を解くまでの一連の手順をプロンプトに含めるテクニック)です。「step by step」という言葉を聞いたことがある方もいると思うのですが、特定の文構造への置換や文脈的な補正は、プロンプトを作るためのプロンプトでハンドリングが可能です。

AIが進化するたびにプロンプトも変わる「いたちごっこ」が起きる

高桑:ただプロンプトの最適解を誰もわかっていないので、AIが進化するたびにプロンプトも進化します。ここは「作り切ったら時代に置いていかれる」という、いたちごっこも想定されるので、プロンプトの自動化は難しいかなと思います。

(スライド)画面の右側に載せているのは、先ほど話したClaude 2.1のAPI(ソフトウェアやプログラム、Webサービスの間をつなぐインターフェースのこと)の公式ガイドのページです。上がBad Promptで、下がGood Promptです。

何が違うかと言うと、Bad Promptの1行目に、AIに対して「こうしてほしい」と書いているのですが、Good Promptとしては「AIへの直接の指示は一番下に書け」という内容なんですね。

Good Promptの1行目に追加されているのは前提条件です。アカデミックな論文を下に書くので、それに関することを聞かれた場合は「注意して読みなさい」という前提の姿勢を指定しています。

前提の部分は一番上に書き、参照先は中央に書き、AIにやってほしいことは一番下に書くという、プロンプトの最適解を出しています。そうすると「どういうプロンプトの構造がいいのか」というモデルごとのフォーマットも、全部変わってくる展開が想定されます。これは「何を学習しているか」に依存するためです。

つまりAIが進化するたびにプロンプトも変わる。これを作るための特定のプロンプトの置換はできるけれども、「置いていかれるかもね」という見方です。プロンプトの自動化よりも、プロンプトの不要化はどんどん進むと思います。

(スライドの図の)下から上に行くにつれて、自動化が難しいタスクになっていくと考えています。自動化が一番進むところだと、一番下の具体的なタスク、かつ要件が画一的なものですね。

例えば英語から日本語に翻訳する時に「Appleという英単語を日本語に翻訳してください」といった場合は、どの人も「りんご」という答えを期待すると思います。これは要件が画一的なんですよね。人によって「りんごのところをカタカナにしてほしい」とかはないので、こういったものはしっかり自動化されていくと思います。

プロンプトが自動化されにくいタスクの特徴

高桑:一方で自動化されにくいのは、抽象的なところや、具体的だけど要件が多様なところです。例えば多様な要件だと、企画を考える時に「ちょっとここはトレンドに乗っかってほしい」とか、企画者の意思などの要件定義は人に依存するところがあります。

やりたいロジックとしては「理想と現状はこうなので、その差分を課題として考える」というもの。論理的な構造は共通していても、最後の要件定義は人によって変わるので、こういったところは半分プロンプトが重要だと思っています。

一番上の抽象的なところはめちゃくちゃ難しいので、こここそプロンプトエンジニアリングの腕の見せどころかと。世の中のLLM(大規模言語モデル)を選ぶところから、しっかりやっていく必要があると思っています。

つまり高度なプロンプトが必要なのは、開発者だけになっていく。一般的なユーザーの方やお客さまが触る際には、「〇〇について教えて」と1行だけの自然な会話文を入力していただく。それでも高精度な生成が出てくる場合は、裏側の開発者がバックエンド側のプロンプトを仕込んでいます。

「この入力の場合は、このLLMを使って、その時のパラメータはこうして」という3変数の調整までやっていくことになると思います。そうなると、いよいよいろいろなものがみなさんにとって当たり前になっていく。どんなケースでも「とりあえずLLM」という時代になっていくと思います。

音声で適当にしゃべっただけでいいものが出てきてほしいけど、音声で語りかける時に高度なプロンプトを作ることはけっこう難しい。だから高度なプロンプトを書く必要がないくらい一般の人に行き届くために、その裏側でしっかり専門家がプロンプトを開発している。そういう構造になっていくのかなと思います。

LLMが進化しても、高度なプロンプトが必要な3つのケース

高桑:LLMが進化していっても、高度なプロンプトはずっと必要だと思っています。そのケースとして、ここに3つ書いています。

まず、先ほどの抽象的なところのような複雑なタスクを実行したい場合です。また出力の安定性を極めたい(場合です)。原理上、確率的推論なので100パーセントは難しいですが、その中でも現場の許容範囲内で、点ではなく線で品質管理する。そこの要件定義をディレクションします。

最後は定性的なところで、先ほどの「トレンドに乗せたい」という企画の要件とかですね。それからプロダクトに応用するにはUXが必要なので、そこは人間がずっとやる必要があるのかなと思います。

池田:非常におもしろいですね。ありがとうございました。