【3行要約】・AIが音声と視覚を組み合わせた「マルチモーダル体験」へと進化し、より人間らしいコミュニケーションが可能になっています。
・Omakase AIを展開する清水正大氏は「優秀な人材とお金が集まる2026年はフィジカルAI元年になる」と予測。
・音声とビジョンを組み合わせた自然なコミュニケーション体験が、チャットだけでは拾えないユーザーニーズに応え、新たな価値を創出していくと期待されています。
前回の記事はこちら 優秀な人とお金が集まる時に、イノベーションは起きる
稲荷田和也氏(以下、稲荷田):2025年にOmakase AIをリリースし始めた時も一定ロボットの進化があったと思うんですけど、「今だ!」というのは、ここ1年だけでもハードのロボットが急速に進化しているということですか?
清水正大氏(以下、清水):例えばBoosterのK1だって、本格的にみなさんが買えるかたちになったのは、ちょうど(2025年の)年末ぐらいからなわけで。
稲荷田:あぁ、そうなんですか。
清水:もちろんUnitreeや各メーカーは、もっと何年も前から仕込んできていますが、2025年後半ぐらいから本格的にみなさん買い始められています。
清水:僕はイノベーションの本質として、とてつもなく優秀な人とお金が、普通の流れじゃないレベルで集まる時に、何かすごいことが起こると思っていて。今、優秀なエンジニアであればあるほど、フィジカルAIに流れてきていると、アメリカで肌で感じているんですよ。
研究者にしても、エンジニアにしても、ちょっと前までAIの開発をしていたような方が、フィジカルAIの領域にベットして、ワクワクしながら目をキラキラさせながら開発している。優秀な人であればあるほど今、ロボットの開発に夢中になっている。フィジカルAIのソフトかハードかは置いておいて、夢中になっているんですよね。能力の高い人たちが集まってきていて、そこにお金が集まり始めている。
Humanoids Summitで「Omakase OS」をローンチした意味
清水:フィジカルAIに投資していく、というところについては、ビッグテックはもちろんですけど、シリコンバレーで開催された「Humanoids Summit」に、日本のスタートアップとして唯一出展して、「Omakase OS」を世界初の接客OSをベータ版としてローンチしたんですよ。
そこには本当にたくさんのVCの方々がいらっしゃっていました。僕らを、というよりはもちろんHumanoids Summitを見に来てくれたんですけど、この領域に張っていきたいと、可能性を感じている投資家もたくさんいるんだなと(思いました)。
優秀な人とお金がグワーッと集まるのが、この2026年になるんだろうなと思っているので、そういう意味ではフィジカルAI元年と言われるような年になるかもしれない、と感じますよね。
稲荷田:Omakase AIの初期および今のメインでいくと、eコマース上で搭載してコミュニケーションを、ということだと思うんですけれども。やはりそれ単体でやっているよりも、ロボットも付けてリアルも含めてやっていくぞ、というほうが、周りからのウケも含めて、感じている可能性はぜんぜん違うものなんですか?
清水:僕はそもそもロボットを作っていきたいと思っていて、10年前にもやっています。自分たちの中では「こっちのほうがウケそうだからやる」ではなくて、そこまで実現していきたい、という信念がまずあります。実現したいビジョンがあります。
ただ、自分たちがやりたいタイミングでマーケットが付いてくるかというと、それは違うじゃないですか。世の中のタイミング、波は自分で起こせるわけじゃないから、その波が来るタイミングに、自分たちがミートしていかないといけない。
稲荷田:はい。
2025年はAIエージェント、2026年はフィジカルAIの波が来る
清水:そう思った時に、2025年はAIエージェント元年だったわけですよね。アメリカでは、もう「The Agent Era」というブログが、もっと前から生まれてはいたので、2024年よりも気持ち前から、という感じはするんですけど。
稲荷田:へぇ、もっと前なんですね。
清水:AIエージェントにモメンタムが生まれていて、世の中に波が生まれていて、いろんなお客さまやユーザーに使ってみたいというモチベーションがある状態のところに、どこよりも早く、どこよりも全力のクオリティでプロダクトを出していけたら、タイミングがつかめる、という感じだった。
そして、2026年、今度はフィジカルAIでそれが起こる可能性がある。自分たちとしてはそもそもやっていきたいことだし、タイミングがそこで来る可能性があるなら、本当に食らいついていかないといけない。そんな感覚ですね。
稲荷田:Omakase AIをサイト上で搭載するのと、ロボットに搭載させるのは、次元も違うんですか? どれぐらい難しいんですか?
清水:次元が違う、というのは本当にそのとおりです。Omakase AIをサイトに搭載させていただく上では、ウィジェットを使うんですよね。ロボットになると、規格がぜんぜん違う。UnitreeのG1ならこう、Booster K1ならこう。AgiBotなら、DEEP RoboticsのLite 3ならこう、みたいに規格が異なる。
当たり前に音声で会話させたい、もっと言うと制御したいと思う時に、その規格がまず統一されていない。1個1個に最適化させていきながら、Omakase OSさえ組み込めたら、どんなロボットでも接客できるようになりますよ、という汎用性を作るために、めちゃくちゃ最適化しないといけない。そこだけでも大変だな、というところです。
VUIにはビジュアルがない、だから“目”が必要になる
清水:それに、Omakase AIって、サイトで、あなたがどのページにいるかを認識して接客しているので、そもそもビジュアルがある前提じゃないですか。どこを見ているからどう、とか、「この商品どう?」と提案する時も商品の画像を見せながら話せる。でもロボットで、VUI、Voice User Interfaceだった時は、ビジュアルがないですよね。
稲荷田:確かに。
清水:その中で「この商品どうですか?」という時に、この商品のことをどう表現するんだっけ、というのもある。
あと、ビジョン……目が必要になるんですよね。目の前でしゃべっている人を認識しながら、その人の表情や、何を着ているかに合わせて接客する。だからビジョンがめちゃくちゃ大事なんです。
目をもって会話しながら接客する。これって、マルチモーダルがマストなんですよね。このマルチモーダル体験は、Omakase OSで作ったんですよ。今のOmakase OSは、ロボットに組み込まれた時にマルチモーダル体験を提供できる。これを今度は逆に、Omakase側にも搭載しようとしているんですよ。
稲荷田:へぇ。
清水:今月ローンチするんです。Omakase AIはWebサイト上で動いているんですが、そこにカメラボタンがあるんです。例えばこのスタジオにソファーを置こうとしている時に、そのカメラボタンを押すと「このスタジオに合うソファーって、どんな色がいいと思う?」みたいに聞ける。
そうしたら、「この部屋、けっこう明るめの家具が多いので、その色に合わせてもいいし、逆にちょっとシックなのもいいかもね」みたいに案内してくれたり。
あと、「僕、こういう色のこういう感じの服を着がちなんだけど、これに合うジャケットって何がいいかな?」みたいに、音声で会話しながら、同時に“目”を持っている体験が提供できる。スマホの上でもね。
そういう体験の進化を作れるのも楽しみです。近いけど遠いから、こっちでがんばっているものがこっちにも活きるし、こっちでがんばっているものも活かせる。そういう感じですね。
「より人っぽい」コミュニケーションが、ユースケースを押し広げる
稲荷田:本当に、より人っぽいコミュニケーションになっていく、ということなんですね?
清水:そうそうそう。
稲荷田:うわぁ、めっちゃ楽しみですね。
清水:めちゃくちゃ楽しみ。マルチモーダルをローンチするの、めっちゃ楽しみですよ。
稲荷田:(笑)。それがあると、お客さんとの付き合いも変わりそうですね。
清水:家具選びとか、ファッションもスタイリストみたいなことができるようになってくるので、ユースケースが広がりますよね。
会話でも伝えられますよ。「私って黒とか紺とかの服が多いんだけど、雰囲気を変えたい。でも飛び過ぎない感じで、どういう色がいいかな?」とか。口で伝えられるんですけど、そこに見えている景色があって、その見えているものから取れる情報から提案できるようになったら、もっといい体験になるじゃないですか。
稲荷田:はい。
清水:ファッションスタイリストみたいな世界もあるし、見える、という意味で言うと、肌や髪のスタイリングやパーソナライズもできていくと思います。
究極言うと、これ(マイクなど)とかのセッティング。僕、ぜんぜんわからないので、「これってここでコードをつなぐの? 合っているんだっけ?」みたいなことも、カメラで見せながらできるようになるわけですよ。めっちゃ便利じゃないですか?
稲荷田:やばいです(笑)。
清水:言葉で説明する難易度って高いじゃないですか?
稲荷田:はい。
清水:「えっ、このジャックに突っ込めばいいの?」みたいな(笑)。
「チャット+画像」の手間を、体験として超えていく
稲荷田:僕もこのスタジオを用意する時に、何回もGPTに壁打ちしてもらっています。
清水:ですよね。
稲荷田:がんばって言語化して、がんばって何枚も写真を撮って読み込ませました。
清水:チャットと画像でやる難易度って高いですよね。めっちゃ大変じゃないですか。
稲荷田:めっちゃめんどうくさいです。商品名もちゃんと打って、写真もいろんなところを撮りまくって。
清水:そうそう。その経験があるなら、めちゃくちゃわかっていただけると思います。スマホで映しながら「これ、ここにつなぐので合っている?」と聞いたら、「それ、間違えているよ。こっちにつながないといけないよ」と教えてくれる。最高の体験じゃないですか。それをチャットでやるのって、ちょっと面倒じゃないですか?
稲荷田:そうですね。実際このスタジオも、僕は照明もぜんぜんわからないから、詳しい人に来てもらったんですよ。来て見てもらって、「だったらこういうライトがいいかな」とアドバイスをもらいました。
清水:ですよね。要はチャットで言語化もできるし、写真を撮って送ることもできるんだけど、「それがいい体験ですっけ?」というと、もっといい体験があるはず、となるじゃないですか。
稲荷田:なります。「この会話、どこまで信頼していいんだっけ?」みたいな。