ルンバと会話して友だちになれる時代がやってくる？　生成AI×ロボティクスの現在地 [1/2]

コピーリンクをコピー

ブックマーク記事をブックマーク

【3行要約】
・石川佑樹氏が開発するロボットは、機能優先の従来の人型ロボットとは一線を画す、親しみやすいデザインが特徴です。
・バーチャルヒューマン「imma」生みの親の守屋貴行氏は、対話機能や自然な反応速度に重点を置いています。
・今後は家庭内で人間と自然に共存するAIロボットの普及が期待されています。

前回の記事はこちら

日本人の感覚では不気味な「人型ロボット」

小澤健祐氏（以下、小澤）：石川さん。まさに（ロボットは）脱人型じゃないですか。そこもやはり人型はこうだなとか、何か考えていることはありますか？

石川佑樹氏（以下、石川）：今回僕らはいわゆるNVIDIAの「GTC」とかで、ジェンスンが真ん中に立ってヒューマノイドがいっぱい並んでいるみたいなところに「こいつを入れたらめちゃくちゃ目立つな」というのが……。

小澤：ちょっと戦略の部分ね（笑）。

石川：あるんですけど。逆に今回の実験としては、デザインとかUXみたいなのが海外でどれぐらい伝わるのか。もしかしたら「Too much Japanese」で、僕らの感覚で作ったのが伝わらない可能性もやはりあったのかなと思うんですけど。

小澤：ガラパゴス的なやつですね。

石川：そうです。今回それでけっこう伝わるんだなというのがわかったのは、すごくいいグッドテイクで、逆に言うと、人型も「なし」ではないんですよ。別に技術的に作れるならば……よくヒューマノイドを作っている人が言いますけど、この世界は人向けに作られていますよねと。人型を作る可能性もたぶんあると思っていて。

逆に、僕らが人型ロボットをデザインするとどうなるか。僕らはたぶんなるべく怖い形にしないんですよ。だからその観点で言うと、やはりデザインとか感覚ですよね。この6足のやつも普通に作るとたぶんめちゃくちゃ怖いし気持ち悪いものになりがちなんですよ。6足なので、虫とか。だからこの絶妙な感覚が、ちゃんと伝わるのか。

生成AI×ロボティクスの現在地

小澤：なるほど。ちなみに、確かに海外のAIロボットを見てみると、やはりごつくて、『トランスフォーマー』とか『ターミネーター』風なものはやはり多いんですか？

石川：多いですし、そこがたぶんこのテーマにちょっと近い話で、なんでそうなっているかというと、いわゆる機能性全ツッパですよね。だからUXがどう感じるかとか、そういうのが基本的にあんまり考えずに作られている。

今フェーズとしては、やはり技術革新のタイミングなので、それを真っ先に考えるのは、別にリーズナブルなんですけど。僕らはあえて今の技術でこねて、今の技術でも価値になるように作って出すことを考えているので、そこのUX理論はけっこう大事です。

小澤：ちなみにもう1個だけ石川さんにお尋ねしたいです。今日参加の方は、ふだんからAI領域じゃない方もいらっしゃると思うので、「今の技術をこねた」と言っていたじゃないですか。この基盤モデル、「Transformer」の技術とロボットの融合が今どこまでできるのかをおうかがいできますか。

特に今、日本は尾形（哲也）先生筆頭のAIロボット協会も関わられていたりして、まさにこれから盛り上がっていく領域だと思うんですけど。生成AI×ロボティクスの現在地、みたいなところもみなさんに簡単にシェアしていただいてもいいですか？

石川：そうですね。ロボットの大本命で言うと、いわゆるロボット向けの基盤モデル、ロボット向けのVLA……。

小澤：Transformerですね？

石川：そうですね。というところがド本命です。なんですけど、やはりそこは今GPT-1とか2とか、たぶんそれぐらいのフェーズでやっているので、まだもうちょっと時間がかかるのかなと思っています。今回僕らが使った技術で言うと、すでにもう出ているLLMの技術をめちゃくちゃ組み合わせて作ったんですよ。

小澤：もうすでに出ているTransformerの技術を組み合わせながら、ややファインチューニングというか、強化学習的なアプローチで？

石川：そうです。ベースにファウンデーションモデル（基盤モデル）があって、目とか耳とか口が付いているんですよ。目向けにビジョンモデル。耳向けにオーディオのモデル。口向けにジェネレート……要するに音声をジェネレートするモデルを……。

小澤：「Text to Speech」ですね。

石川：はい。組み合わせて、脳みそがファウンデーションモデルになっていて、こいつは考えられるというものを組み合わせると、けっこうできちゃう。

小澤：なるほど。今、どれぐらいの思考力が？

石川：例えばOpenAIのハイエンドモデルで言うと、「o3」が今ハイエンドだと思うんですけど、そこの思考レベルは持っていて。

小澤：じゃあ、「あっちに行って」と言ったら、本当にあっちに行ってくれるみたいな？

石川：行きます、行きます。あと、「こっちを向いてくれ」とか。

小澤：欲しい、欲しい。

石川：（笑）、ぜひ。今回は目立たせるために、けっこう大きなものを作っちゃって、比較的（価格が）高いんですよ。なのでどちらかというと価格的に企業さま向け的な感じになっているんですけど、実は次のものも少し……。

小澤：一番最初に買います（笑）。

石川：ありがとうございます。じゃあ、お送りしますので。

バーチャルヒューマンが「ショップスタイリスト」として接客も

小澤：（笑）。さて、みなさん、今までAIエージェントで、インターネット上でブラウザの操作をしてくれる、営業メールを自動で送ってくれる、人事のスカウトを自動で送ってくれるみたいなものは、けっこう定番化してきました。

これが今度はフィジカルな空間に出てくる際に、いわゆるロボットの動く物理モデルですね。これをいかに基盤モデルとして搭載しながらロボットの制御信号を生成AIで出力していくのか。これによって、これからロボットが人間のように柔軟に、さまざまなことに対処できるようになってくるというのが、これからの日本の可能性。それはちょっと後で触れていきたいなと思います。

守屋さん、お待たせしてしまってごめんなさい。今はロボットの話でしたが、守屋さんもバーチャルヒューマンをやられているということで、これも動画がありますので、それを見ながら、immaちゃん愛をもうちょっと詳しく語っていただけたらと思います。じゃあ、動画をお願いします。

（動画再生）

守屋貴行氏（以下、守屋）：このへんの動画は、いわゆる対話できるバーチャルヒューマンがどういうものかをランダムにまとめた内容です。なので、実は仕組みとしては基本的には一緒です。それが物理なのかバーチャルなのかというぐらいですね。話しかけると対話できる仕組みを作ったりしています。

先月ぐらいに新しく出したMIRAIに関しては、Web3を掛け合わせてトークンの発行もしているんですけども。これ自体はトークンホルダーにあえてバーチャルヒューマンのエージェント機能を使っていただくみたいなことをテストしている……。

今配信を、もう始めたのかな？　これはテストで配信をどんどんしているんですけども、YouTubeをベースにコメントすると返答してくれる。

もう1個が、さっきちょっと紹介してくれたCOACHみたいなところと契約して、物理的に店頭で話しかけると、RAGの設定でショップスタイリストとしている彼女自身が、ショップスタイリストみたいなことを返答してくれるという。

小澤：これも日本じゃなくて海外の店舗なんですよね？

守屋：これは日本なんです。

小澤：なるほどね。お客さまが外国の方というだけで。

守屋：そう。というのと、ゴールデンウィークの時にやったんですが、海外の方があまりにも多かったけど、わりと英語のほうがコミュニケーションが取れちゃったという。

続きを読むには会員登録
（無料）が必要です。

会員登録していただくと、すべての記事が制限なく閲覧でき、
スピーカーフォローや記事のブックマークなど、便利な機能がご利用いただけます。

無料会員登録

すでに会員の方はこちらからログイン

または

名刺アプリ「Eight」をご利用中の方は
こちらを読み込むだけで、すぐに記事が読めます！

スマホで読み込んで
ログインまたは登録作業をスキップ

名刺アプリ「Eight」をご利用中の方は

デジタル名刺で
ログインまたは会員登録

ボタンをタップするだけで

すぐに記事が読めます！

次ページ：会話できるバーチャルヒューマン、一番こだわったのは「返答のスピード」

この記事のスピーカー

同じログの記事

この記事をブックマークすると、同じログの新着記事をマイページでお知らせします

コミュニティ情報

IVS

記事数: 937

IT業界の一流企業の経営者や経営幹部が一同に会し、ディスカッションやスピーチが行なわれる豪華イベント。普段は見ることのできないクローズドな経営者同士の会話や経営裏話など、日本のIT業界の最先端情報がここに集まっています。 IVSは、主に経営者向けに行なわれる通常のイベントのほか、学生向けに行なわれるワークショップも年に数回開催されています。ログミーでは、公式メディアパートナーとしてその中の人気セッションを全文書き起こし、全部で800記事以上のコンテンツをご覧いただけます。