会話できるバーチャルヒューマン、一番こだわったのは「返答のスピード」
小澤:ありがとうございます。これは先ほどのMi-Moとかだとすごくかわいらしくて、あれは声も出すんですよね。
石川:しゃべります。
小澤:immaちゃんの裏の設定は、何か工夫した点というか……。例えば普通の「ChatGPT」とかだと論理的なアウトプットでそれっぽいことを話してきますけど、immaちゃんはどちらかというと会話じゃないですか。そのへんで何か工夫している点はありますか。
守屋:そうですね。キャラクターのLLM部分に関してはかなり自社で研究はしていました。論文もいくつか出しながら、いわゆるキャラクターとしての性格設定と、話し方とかは自社で開発していたんですけど。
これを全部やり続けるとけっこう大変なので、わりとベクトルみたいなものを貼り付けていく技術の研究開発はしていました。でもGPTがどんどん変わっていくので、それに合わせてこちらも変えていかなきゃいけないから、まずそこに関しては、会話としてコミュニケーションが気持ち悪くないスピードなのかとか。特に一番最初にこだわったのはスピードで、もう0.05秒で返答できるぐらいまで開発を(しました)。
小澤:それはスピードの速さにこだわって?
守屋:返答の早さですね。最初に開発した時は返答が早過ぎて、もう食い気味で返答しているぐらいになっちゃって。
小澤:(笑)、なるほど。
守屋:さすがにちょっとそれは気持ち悪いから、フィラーとかを使って。
小澤:対面でしゃべっている時、人間同士が0.0何秒とかで返答しているので、それぐらいの自然さを出したかったということなんですね?
守屋:そうですね。ただそれもさっきのKotoba(Technologies Japan)さんじゃないですけど、予測とかしないと、たぶん本当に精度が高い会話はできないと思うので。そこのコミュニケーションがちゃんと円滑にできるようにフィラーを設定したり……フィラーというか、「うんうん」とか返答のやり方ですね。
小澤:確かに、それはありますよね。
守屋:その流れをパターン化して会話を成立させていくことをやっている。
小澤:ChatGPTとか「Claude」とか「Gemini」だったら、「うんうん」とかもあるわけもないし。ChatGPTのアドバンスドボイスモードみたいなものを使ったとしても、すぐにそれっぽいのは返してくれるんですけど、フィラーみたいなものもあるわけじゃなかったりする。
守屋:そうですね。
3DCGにこだわる理由
小澤:でも、ちゃんと顔も作りながらキャラクターを設計していくという重要性は、本当に高まっている気がしますよね?
守屋:そうですね。生成AIでこういったビジュアルを作るのはけっこう簡単になったというか、もう本当に誰でもできるようになってきたので。ただ、3DCGにこだわっているのが、わりとその先の汎用性……「このキャラクターをゲームに転用しよう」だとか、それこそ「VRになったら転用しよう」だとか。
あとはこのキャラクター自体の著作権も重視して、3DCGにはけっこうこだわっています。プレビジュアルとかの時も、やはりそこの重要性を注視してもらって、このキャラクターを運用していたりします。
ちょっと脱線しちゃいますが、僕らはわりとIPを作りたいんですよね。IPの考え方は日本独特なんですけど、世界でも一般的なキャラクターと世界観とストーリーテリング。で、このストーリーテリングがどんどん変わってきたかなと思います。
昔は脚本を作って、IPを作って、このストーリーが、例えばVTuberで言ったら箱推しのライブ中継でのストーリーに変わっていった。
その次に来るのが、要は対話エージェントみたいに対話をすることで、ストーリーテリングをつむいでいくみたいな時代に入ってくるんじゃないかなと思っています。キャラクターと対話をしながら、このキャラクターを好いていくということをIPの中心にしていきたいと考えています。
小澤:そうすると新しいIPのかたちですよね。今までは1to1なIPタイトルみたいなのがなかったわけじゃないですか。
守屋:ないですね。
シチュエーションによって声色を使い分け
小澤:ちなみに石川さんは、本当に形が違うだけで、すごく似ている、共通した考え方もあったんじゃないかなと思いますけど、今のを聞いていてどうでした(笑)?
石川:そうですね。僕らは、ある種ロボットなので、ロボットの特性を活かすみたいなことは考えています。例えば今の声の話だと、シチュエーションとかしゃべる相手によって……今は生成AIで生成できるわけですよね。
だから、男の声とか女の声を使い分ける。しかも理想的にはシチュエーションによって……まだできていないんですけど、毎回生成をして出すんですよ。だからオーディオモデル、ボイスのモデルがあるので、そのシチュエーションにおいて適切な声色とか声を出す。機械声とか動物みたいな声とか、男女の声とか、そういったところを生成することを1つ考えています。
あともう1つは、今回のMi-Moは、目、耳、口、脚が、このロボットそのものに付いているんですけど。ロボットの特性を活かすことを考えると、これは家庭内とかだと、目がこのロボットにしかないといけないわけではないんですよね。天井にあってもいい。
小澤:おぉ、なるほど。
石川:別の部屋にあってもいいので、なんかそういった……もちろん人間ができることをインプリ(インプリメント)していくとか。
小澤:ミスター・ポテトヘッドみたいな感じですね(笑)。
石川:そうですね。だから、ロボットだからこそできるみたいな。
小澤:確かに、それで言うとポテトヘッドはめちゃくちゃ先進的なIoTロボットですね。
石川:なるほど。そうですね、すばらしいですね。
小澤:耳がトラックの中にあったら、「ロックが聴こえるよ」と出てきたりするわけですよね。
石川:そうですね、確かに。
ルンバと会話できるようになる可能性も
小澤:それで言ったら、あえてLINEできるとかでもいいと思うんですよ。外に出ている時はMi-MoとLINEができて、「1時間後に帰るから待っていてね」と言ったら玄関前で本当に待っていて、ドアが開いた瞬間にワーッてうれしくなるみたいな。そういう体験設計とかもできそうだなと思ったんですけど。
石川:おっしゃるとおりで、僕らが今回作ろうとしているものは……やはりAIロボットを製品として市場に提供するのはまだめちゃ早いんですよ。なので、ちょっとどこまで言うかというのはあるんですけど(笑)。
今、どちらかというと僕らは開発者向け、要するにデベロッパーキットから始めようとしているんですよね。今言われた、LINEで連携してできるといいよねというものを開発できるようにしようとしているんですよ。
小澤:なるほど。
石川:だから、このロボットを基盤として連携したいアプリを上のレイヤーで開発してもらっているんですね。
小澤:えっ? じゃあ、例えばルンバだとしたら、ルンバと連携して、ルンバとお友だちになれたら最高に楽しい世界観ですよね。僕、それだったら本当にすぐ買いますね(笑)。だってルンバと一緒に、しゃべりながら家の中を歩いているみたいな体験ってめっちゃ最高じゃないですか(笑)。
石川:Mi-Moさんは掃除はできないので、掃除はルンバにやってもらって。
小澤:そう、やってもらって。でも、話し相手はしてあげるからみたいな。
石川:そうですね。そこで大事なのは、さっきの「歩ける」とかも脚のポジションを計算して、ロボットはけっこう面倒くさいことをやらないといけない。そういうLINEのアプリを作る方は、ぶっちゃけそこをやりたくないんですよ。なので、我々がなるべくそこをラップしてあげているんです。
小澤:なるほど。
石川:本当に、Golang(Go言語)とかPythonとか、アプリケーションを書いたらロボットが動くということを実現する。
ロボットと仲良くなれる世界へ
小澤:なるほど。家の環境はそれぞれですし、この物理モデルは、言うてまだ世界的に研究が進みきっているわけでもなかったりするから。そこをやってあげながらも、ソフトウェア連携、しかもMCP(Model Context Protocol)という概念が出てきた中で勝機があると思っていらっしゃるということなんですね。
いや、そう考えるとめっちゃおもしろいですね。でも、ある意味、スマートスピーカーと仲良くなって会話している人は、いないじゃないですか。うちの母親は(Alexaのことを)「アレちゃん」とか言っているんですけど、「今日も疲れた」とか「(Amazon) Alexa」に言う人はなかなかいないじゃないですか。でも、そうなれるというのは、一人ひとりの人間のユーザー体験設計的にはすごくいいですよね。
石川:非常に可能性があると思っています。
小澤:ただ、このロボットの領域、それこそ「aibo」や「LOVOT」等々、またここ数年でも……しかもLOVOTのユーザーは日本でも今めちゃくちゃ増えていますから。
石川:めっちゃ増えていますね。
小澤:あれ、すごい……LOVOTとも仲良くなれたら最高じゃないですか?
石川:そうですね。本当に(LOVOTの開発者の)林(要)さんとは仲良くさせてもらっているので、ロボットも仲良しになってもらって(笑)。
小澤:えっ、それ、最高です。で、ルンバもいて、またなんかいろんなロボットがいて、みたいな世界。immaちゃんは、テレビ画面から見ているみたいな感じの世界観とかあってもおもしろいのかなと思ったりします。ありがとうございます。