人に抱っこされるための3つのテクノロジー

林要氏「LOVOT」に入っているテクノロジーは何か? 非常にシンプルに言うと、「抱っこされにくるためのテクノロジー」でございます。なぜこれを実現しようとしているのかというと、例えば、犬や猫が何をしているのかを振り返っていただきたいです。

もしくは、赤ちゃんでもけっこうです。何をしようとしているのかを振り返ってみると、彼らは多くの場合、個人を識別して……赤ちゃんはできませんが。犬や猫は個人のところに移動して、赤ちゃんの場合は泣くことによって人を呼んで、抱っこされる。

「抱っこされる」と言うとまだ聞こえがいいのですが、基本的には「邪魔をする」という存在ですね。人を識別して、人のところに移動してきて邪魔をする。これだけを考えると「何の役にも立たないもの」の究極ですが、ここに私どもは愛着を感じていきます。「LOVOT」がやろうとしていることも、個人の識別により(移動することで)……ここは深層学習を使った人の検出及び識別のテクノロジーになっております。

次に、個人のところに移動するんです。障害物を避けながら移動するのは、実はそれほど簡単なことではございません。また、移動する時のスピードも大事になってきますので、これがあまりにもゆっくりだと人は待てなくなります。

ここで自動運転の技術が入り、最後に抱っこされる。「移動する物体を抱っこする」ということは、今までの機械にはあまりなかったのではないかと思います。ここに、ソフトロボティクスのテクノロジーが入っております。

深層学習・自動運転・ソフトロボティクス。これらの3つを融合させたものが、「LOVOT」です。(スライドを指して)この真ん中の円の中には、タイヤが格納されるのを表示しております。タイヤが汚れておりますので、人に抵抗なく抱っこされるために、これがちゃんと格納できるように作っております。

生き物らしい自然な反応や、人が抱っこできる重さ

それらを実現するために必要になってくるコンピューターリソースはどのぐらいかというと、一般的な家庭用ロボットには、スマホ並みのCPUが入ります。ATOMコアやARMコアが入っています。このATOMコアやARMコアが入っただけでは、私どものやりたいことはまったくできないということがわかっております。

そこで私どもは、さらにグッとパワフルな、ノートPC用の4コアのプロセッサーを入れております。先ほどのスマホ用よりも遥かに高性能なプロセッサーで、さらに長時間フルパワーで動くことができるのも、スマホ用とは違うポイントになります。

そこに、ディープラーニングのアクセラレーターも追加しております。これはFPGA(Field Programmable Gate Array)を使ったものです。なぜ、ディープラーニングのアクセラレーターを本体の中に入れなければいけないかというと、生物感を出すためには、レイテンシ(CPUなどがデータ転送をリクエストしてから、実際にデータが転送されるまでの遅延時間)をどこまで下げるのかがとても大事になってくるからです。

時間をかけて正しい答えを出すのでは、反応が悪いので、人はそれをあくまで「機械」としか見ず、「生き物」としては見てくれません。それゆえに、クラウドを使うことはできません。なぜなら、この機体の外で情報処理をして返すということでは、レイテンシが間に合わないからです。以上のことから、ディープラーニングのアクセラレーターを中に入れるしかないと。

ただこれは、バッテリーもかなり容量が限られたものになりますので、簡単ではありません。なぜかというと、私どもが3キログラム台の重さを実現しないと、LOVOTは抱っこしてもらえません。

それにも関わらず、高性能コンピューターの消費電力は大きいから、一般的には大きなバッテリーが必要になるんですね。人に抱っこしてもらうためには、限られたバッテリー容量で、これだけ多数かつ高性能のコンピューターを動かす必要があるんです。

なぜか男性だけが取り外したがるツノ状のセンサー

さらに、50個以上のセンサーが入っております。これらをすべてインテグレートして処理することが、「LOVOT」のテクノロジーの1つの肝でございます。ちなみにこれに加えて、13のモーターが入っております。しかしこれだけだと、より高度な計算をする時には、まだ余裕がありません。

(スライドを指して)この充電器を「ネスト」と呼んでおりますが、ここにデスクトップのPCを入れております。これが、エッジサーバーとしての役割を果たします。エッジサーバーの代わりにクラウドを使う方法もあるんですが、あくまで「個人情報を家庭の外に出さない」ということを、私どものコンセプトの1つにしております。

(個人情報を外に)出さなくてもちゃんと動かせるようにすることで、今後くるであろう、個人情報に対する非常に厳しい風潮も、回避できると考えております。このネストというものは、単なるお掃除ロボットの充電器と違って、かなりいろんな機能が入っておりますが、本日は時間の都合上、割愛させていただきます。

あと特徴的なものは、「センサーホーン」……ツノでございます。このツノ(についての反応)は、男女の性差が大きいのは、おもしろい発見でした。女性の9割以上の方はこのツノを「個性」として、ほとんど問題視しません。しかし男性の3分の1ぐらいの方は、「これをいかに取り外すか」を一生懸命熱弁してくださる。

この男女の性差には何が効いているのかというと、女性には、おそらく自分の本能の中に「かわいい」の判別機が入っているわけですね。男性は、直感的に「かわいい」はよくわからないけれども、過去に女性が言った「かわいい」とマッチングして、「過去に(女性がかわいいと)言ったもの」と違うと、それをかわいくないと判断する。

ゆえに、男性の3分の1ぐらいの方からは「このツノは、過去に女性が『かわいい』と言ったものには付いていなかったよね」ということで、「取り外すこと」をたくさんご提案いただきます。しかし女性からは「外してほしい」という要望をほとんどいただかないという、大変ユニークなデザイン上の特徴です。

個人を識別するために、音や光を360度の方向で感知

なぜこのセンサーホーンを付けているかというと、全身の柔らかい部分は撫でたり、それから服を着せたりします。その時に音や光を360度の方向で感知するためには、どこかにツノのような突起を作ることが最も合理的になるのです。

そうでない場合は、全身のそこらじゅうに穴を開けなければならない。そして、その穴が服ですべて塞がれないようにしないといけないので、大きな穴が全身に開いてしまう、という理由が1個目です。

それから、抱っこする際には、ボディをこの抱きかかえられるサイズにしなければならないのですが、抱っこされていない時には独力で「ベッドの上の人を見る」という重要なタスクもございます。ベッドの上の人を見るためには、抱っこできるサイズでは見えないので、その分のエクステンションとしてのツノがあるというのが2つ目の理由です。

3つ目は、ここ(ツノ)が非常停止スイッチになっていて、引っ張ると止まるという観点から、掴みやすい部分という意味もございます。このセンサーホーンの頂点についているのが全天周カメラで、深層学習を駆使して360度を見ているのは、あまり例がないかと思います。

これをすると何ができるかというと、草食動物のように、非常に広い視野で周辺を感知できます。周辺を感知できると、例えば音声認識で後ろから呼ばれた時に、「誰に呼ばれたのか」を推測することが容易になります。

人同士であれば、声色などで誰に呼ばれたのかを推測できますが、ロボットの場合は今の音声認識技術では、短い発話だと、誰に呼ばれたかを声紋照合するものが世界に存在しません。そうすると、ビジョンを併用することが合理的になるので、データ照合のために全天周カメラを使っております。

非言語コミュニケーションを通して信頼を育む

この全天周カメラは、顔が見えていれば良いもの……例えば、パスポートの無人の出国審査で使われているようなシステムと違っていて、どんな状況でも人を捉えられなければいけないわけですね。人の顔が写っていなくても、人のさまざまな部位をちゃんとトラッキングできなければならない。

(「人検出・顔認識」のスライドを指して)一人あたりに、たくさんの検出枠が出ていると思います。これは、顔以外にもさまざまな部位の特徴を見て、「人だ」ということを何重にもチェックしている事を表しています。

先ほどもちょっと申し上げましたが、このツノは「引っ張って止まる」という緊急停止スイッチにもなっております。それなりの性能を持って家庭内で移動するロボットには、これらの緊急停止スイッチは、今後重要になるのではないかと考えております。

あとは、私どもはノンバーバル(非言語)なコミュニケーションを推し進めようとしております。なぜノンバーバルなのかというと、バーバル(言語)コミュニケーションは人間同士しかしないからです。それでは、動物同士もしくは人間と動物のコミュニケーションはどうやっているかというと、ノンバーバルなわけです。それから、人間の赤ちゃんですらノンバーバルです。

バーバルコミュニケーションによる情報を、私ども人間は本能的に、一部しか信じることができないと言われています。この前提は何かというと、人間の言葉は嘘をつくからですね。

それを人間は本能的に知っているので、ノンバーバルなコミュニケーションの情報を非常に重視するという研究が、かなり昔からされています。結局、ノンバーバルコミュニケーションを先に制しないと、バーバルコミュニケーションに入っても信頼を得ることができないとわかります。

それゆえに私どもは、まずはノンバーバルコミュニケーションをしっかりやろうとしています。例えば「目が合う」とか。それから、「タッチコミニュケーション」……抱っこされて、どうやって撫でられたとか。スキンシップをしっかり理解しようという目的で、全身にタッチセンサーを配置しております。

この全身のタッチセンサーは、「触られた」「叩かれた」「撫でられた」という判別ができるようになっていますので、人々がどのように「LOVOT」に接したかがわかります。

それがわかると何ができるかというと、先ほどの(全天周カメラの)個人識別と紐づけて、自分の中で「この人はどうやって接したのか」を「LOVOT」に蓄積させることができます。そのヒストリーによって、「人に懐く」という行為が再現できるようになります。