今後は「音声」の領域でイノベーションが起こる
池田朋弘氏(以下、池田):いろいろな方がトレンドとしてマルチモーダル(異なる種類の情報をまとめて扱うAI)と言っていますし、今年はもっともっと来るのかなと。文章主体から、入力も音声や画像、映像まで入る。もちろんアウトプットも文章だけでなく音声でも出てくるし、画像・映像を組み合わせて最適な感じになってくると(思います)。
今は文章が主体の印象がある生成AIですが、どんどん組み合わさっています。ChatGPTでも普通に画像が作れちゃいますし、映像を作ることもできると思うので、これも楽しみです。 ちなみにこのへんはFIXER的にはどうですか?
高桑宗一郎氏(以下、高桑):特にAGIと言われている汎用人工知能のインターフェースとしては、音声はたぶん第一候補かなと勝手に思っています。
ちょっとしたITの歴史としては、前面を取り続ける戦いがずっと起きています。昔はPCのハードから始まり、そのあとOSの取り合いになり、Webブラウザの取り合いになり、今はアプリの取り合いですよね。
これだけ柔軟な応答ができると、検索の1個手前の「手前取りの戦い」になる。もはや画面の奥ではなく、AirPodsを耳につけていたらそこで起動できるという、たぶん音声が1個のイノベーションかなと思っています。
池田:ハードウェアのレベルで、誰がAIとインターフェースのデファクトスタンダード(事実上の標準)をとるかといったことですかね?
高桑:おっしゃるとおりですね。
池田:確かに。最近「AI Pin」というピンタイプのデバイスがけっこう話題になりましたね。
高桑:僕も見かけました。
池田:「AI Pin」はおもしろくて、ここ(胸元)にピンをつけるんですよ。これをどうやって操作するかと言うと、まずピンは音声で話すんですけど、アウトプットはプロジェクターみたいに映像が照射されて、手のひらにこうやって映すんですよ。
高桑:そういうことだったのですね。
池田:正直、最初は使い方がわからなくて「ピンはどうやって操作するのかな?」と思っていたんですけど、こうやって(手のひらを)見ながら使うんです。照射型ですごくかっこいいなと思いました。もちろん「買おう」と思って申し込んだんですけど、残念ながら日本は「対象外です」と言われました。
高桑:今みたいに画面がなくなるとか、今まで当たり前だったものがなくなる時は、一瞬不安ですよね。
ワイヤレスイヤホンも「ケーブルがないとなくしちゃいそう」と思ったんですけど、1回勇気を振り絞ってなくすと「あまりいらなかったな」と。有名なプロダクトはデザインとしての断捨離がうまいので、たぶん画面もいらない世界になっていくと思います。
コミュニケーションもAIに代替される世界に
池田:確かに。先々週「CES」というラスベガスのイベントがありまして、そこにホンダや世界の車メーカーが出ていたんですが、車内の操作は音声を通じて(行っていました)。音声の裏側にはChatGPTのテクノロジーがあります。かなりリアルな会話でエアコンのセットやマップを探すこともできますし、それ以上のエンタメもできる。けっこう話題になっていました。
こうやってさまざまなところに広がっていくと、マルチモーダルを感じられて(これからもっと)対応していきそうですよね。
高桑:そうですね。またコメントをいただきました。「音声はリアルタイムなボイスチェンジャーとして、メタバース空間でも使われそうだと思いました」ということです。
メタバースとの関連性は、このあとの僕の登壇でもお話ししたいと思うのですが、メタバースやライブ配信、AIの境界線がなくなっています。広義の意味で「ゲーム」という1つの世界ができていくと思っています。
そういう意味でも音声の重要性を感じていて。コミュニケーションをするのは人じゃなくてもいいという、その違和感がなくなっていく世界が、5年、10年以内に来ると思いますね。
池田:来るかもしれないですね。実は僕はメタバースのアプリをUnity(ゲームエンジン)で作っていて、中に入ってやっていたんですよ。その時は「Oculus Quest2(現Meta Quest2)」で、まだそこまでリアルじゃなかったんです。でも発展していくと、本当にリアルと見紛う世界に入っていく没入感が得られる。
AIのさまざまなキャラクターも、場合によっては自分好みの男女のキャラクターがいて、会話はほぼ自動で無限にできるわけじゃないですか。帰ってこられない人がすごく増えるんじゃないかなと、不安に思っているんですけどね(笑)。
高桑:(笑)。まだ自動化が難しいので、お風呂とトイレ以外はね。
池田:確かに。マトリックス的な世界ですね。
高桑:本当にそうです。AppleのARも新しいものが出てきています。僕も「PSVR(PlayStation VR)」を持っているんですけど、やっぱりVR空間は酔うので、長時間は難しいところがあります。
池田:そうですね。今は難しいですね。
高桑:ARになってくると視覚で酔うことがほとんどなので、そこも緩和されていくのかなと思っていますね。
池田:楽しみですね。すばらしい。
ビジネスプラットフォームは、ユーザーの労力を最小限にする方向へ
池田:さて続いて2023年を振り返ると、ビジネスプラットフォームと生成AIのコラボのような「どんどんビジネスプラットフォーマーを取り入れていこう」という動きもかなりあったと思います。
みなさんご存じのMicrosoftは実質上OpenAIという会社を傘下に置き、半分くらいのシェアを持って連携しています。法人向けにはMicrosoft Azureというクラウドの中で使えるプラットフォームを開拓していますし、自分たちもCopilotブランドで展開しています。
一方その競合としてGoogleは非常事態宣言を発令して、新しいAIのGeminiを発表したり、Google Workspaceの中にもどんどん展開しています。
レイヤーは違いますが、Salesforceも「いかに生成AIを使うか」となってきています。まずはデータベースなどちょっとしたアシスト機能から入り、どんどんできることを増やしていくことが、生成AIの1つの展開の方向かなと思います。
この前Salesforce(の人)と話したのですが、Salesforceとしては「いちいちプロンプトを入れることなく、ワンクリックで何も考えずにできるサポート機能が増える」といった発想でした。そういうものは(これから)すごく増えていくのかなと感じますが、このへんはどうでしょう?
高桑:僕もそう思います。たぶんお客さんやユーザーさんが費やす労力を、できるだけ最小限にする方向に向かっていきます。Salesforceさんの裏側には、プロンプトエンジニアリングが開発の一要素として入っているはずですし、アーキテクチャとしては「そこに対してどういうモデルを実装するか」となっていくはずです。
ほとんどの場合は生成AIドリブンで、今後はプロダクトがどんどん進化していくイメージですね。
池田:完全にそうですよね。簡単ですぐに利用用途があるシーンがたくさんあると思うので、個人的にはすごく楽しみです。
企業は生成AIの導入で、どこに投資すべきか
池田:次に今後の流れはどうなるかという話です。ビジネスプラットフォームや導入においては、2つあると思っています。1つは、今年は自社のデータや独自データから探したり回答するトライが、けっこう流行ると思っています。
(スライドの)右側は大和総研さんが出されている「今、生成AIを導入する際に、企業がどこに投資するか」です。例えばWebからデータを持ってくるというあまりに大きすぎる課題はOpenAIがやってしまうので、すぐに陳腐化してしまい、投資価値がないと。
個別すぎる小さいタスクは、投資しても費用対効果が見られない。真ん中くらいはニーズもあるしメジャーすぎず、自分たちで作らなくちゃいけない部分もある。そこに投資すべきだよねと。
RAG(Retrieval-Augmented Generation:外部ソースから取得した情報を用いて、生成 AI モデルの精度と信頼性を向上させるテクノロジー)とは、自社データを作っていく中でよく言われている仕組みです。
自分たちのデータを整理して、検索した結果で生成AIの文章を作る。そのデータを整理する部分は、仕組みがあったとしても絶対にやらなくちゃいけないので、早めにやったほうがいいよねと。
先ほどハルシネーション(AIが事実にもとづかない情報や実際には存在しない情報を生成する現象)という言葉がありましたが、参照元が明確になっていれば、多少間違っていてもチェックできるし非常に信頼できるので、この取り組みはすごく増えてくると思っています。
私も相談を受けてエンジニアと一緒に開発したりしています。たぶんFIXERの「GaiXer (ガイザー)」はデータを取り込むこともできるので、こういうニーズにはすでに応えていっているのかなと思うのですが、どうですか? 2023年、もしくは2024年1月の所感としてニーズが増えていたり、取り組んだりされていますか?
高桑:そうですね。RAGという情報検索は、特にtoBの方だと会社の中での極秘情報になってきます。そこを参照する前提でのユースケースが多いです。そうなると真ん中の部分の「RAGをどういうロジックで設計するか」だけでプロダクトの価値になる。ほかとの違いになるくらいマーケットが大きくなっていくと思います。
メジャーとニッチがどんどん入れ替わる、マーケットの変化
高桑:メジャーとニッチもどんどん逆になるような、毎日定義がひっくり返るリスクすら感じています。とにかく相対的な未来を勝ち取り続けるアンテナを張るところが、裏側にも求められているのかなと思いますね。
池田:確かに。何が起こるかわからない、どこまでプレイヤーが出してくるかが見えないので、取り組んだものが無駄になってしまうリスクもあります。
高桑:(笑)。
池田:でもやらないと遅れるだけですし、そこのバランス感覚が難しいところですよね。
高桑:難しいです。でも好きなので、それしかないかなと僕は(思いますね)。
池田:そうですね。楽しくやっていくのがいいのかなと。
高桑:楽しい荒波です。
池田:ありがとうございます。あともう1つは、既存のサービスの中で当たり前のようにどんどん生成AIが導入されていくのもあるかなと(思います)。2023年を見渡しても、本当にいろいろなサービスで使われるようになりました。簡単なところだとブログのタイトルを作ったり、「骨子を作りますよ」というのもあったり、サイトにチャットが導入されたり。
「一部の分析だけは生成AIができますよ」という感じで、生成AIと言っていないんですけど、普通に使っているさまざまなサービスの中に、当たり前に1個のサポートとして導入されてくるかなと(思います)。そして、これがどんどん増えてくると思います。
もっともメジャーなのはMicrosoftのCopilotで、PowerPointやExcelに入ってくるものです。今も入ってきていて、現時点で実用できるかというと「ちょっとクエスチョンかな」と個人的には思っていますが、どんどん精度は上がると思います。このへんは、2024年も動きがあるのかなと思っていますね。高桑さんのご見解としてはどうでしょうか?
高桑:無限に増えていくと思いますね(笑)。
池田:確かに、そこは無限ですよね。
高桑:どれも同じように見える商品に囲まれてしまった場合に、使う側はどういった軸で選ぶのか。単純なコストの側面だけでなく、ご自身が「こんなことをしたい」という、やりたいことの言語化も必要です。そういうのがリテラシーとして全国的に求められていくのも、1つの大きな動きとしてあると思いますね。
ChatGPTで「あまり使えない議事録」が生まれてしまうわけ
池田:確かに。あと「こうなってほしくないな」というのがあって。例えば生成AIが入っているある製品を使った場合、結果はあくまでもその製品のプロンプトや仕組みによるところです。そのクオリティがあまり高くなかったとしても、もっとうまくいく可能性もあります。
最近よくあるのは、生成AIを使って音声を自動的に文字起こしして、文字起こしから議事録にするといったもの。いろいろな文字起こしサービスで導入されているんですよ。ただ多くの場合、文字起こしから議事録にしていく過程はけっこうダウトで、ざっくりした整理になっています。その結果あまり使えない議事録になり「やっぱり無理」というケースが多い。
これはプロンプト次第で、自社に合わせた抽出の仕組みや、セットの仕方によっては使えるのかなと思います。薄く使って意味のない議事録になっているのは、もったいないなと思います。
作り方次第では可能性があると思うので、あきらめずにある程度裏側を想像しながら、できる余地を考えるといいと思いますね。
高桑:本当にそうですね。「All you need is prompt(あなたに必要なのはプロンプトだけ)」だと思います。
池田:(笑)。さすがプロンプトエンジニアですね。
高桑:ポジショントークですけれども(笑)。
池田:すばらしい。ありがとうございます。
プロンプトエンジニアの必須スキルは「倫理的思想」
池田:私からのトピックは最後になりますが、(2023年は)生成AIへのさまざまな不安も出てきた1年だったんじゃないかと思います。
世論調査をしている団体が2023年12月に調査した話(スライド)です。不安や規制のニーズですが、青色は「不安があり規制したほうがいい」という方向性です。普通の方に聞いているわけですが、やっぱり不安も大きいし、法規制も必要ということ。
先ほどフェイクニュースの話もありましたが、「むやみやたらに使われると、すごく怖いよね」と。世界レベルでも日本の国レベルでもいろいろな規制やガバナンスがありますので、ガイドラインや規制案に合意した上で、さまざまなプレイヤーに対して規制がかかってきます。
もうちょっと明確なガイドラインや事例が出てくると、特に企業で使う際にはやっちゃいけないこと、「これは避けるべきだよね」という方向性が見えてくるのかなと思います。守備サイドになりますが、どうですか?
高桑:僕は重要だと思っています。プロンプトエンジニアという職種は、世界同時進行で爆発的に求人が増えているんですね。アメリカのイメージがあるのですが、ブラジルでも(求人が)けっこうあります。僕は(その求人を)よく見ているんですが、ほとんどのプロンプトエンジニアの求人の中に必須スキルとして「倫理的思想」があります。
池田:へえ~。
高桑:そこは規制というルールのみならず、UXも含めて人々を傷つけない感覚や「差別しないように」というのは、最後は引き出す側に委ねられてしまう。やっちゃいけないことでも、高度なプロンプトだとできてしまう現状があるので。ルールと使う側の感性や良識を、雇う側がしっかり明文化する動きがすでに出てきています。これは両方の側面でどんどん進むと思いますし、そうあるべきかなとも思いますね。
池田:ありがとうございます。非常に重要な考え方です。利用者側にはそういったことが求められますよね。
高桑:僕もがんばらなきゃなと思います(笑)。
池田:最後は人間性というか、意識を持ちながらやらなくちゃいけないということですね。ありがとうございます。