日本のハードウェア業界は盛り上がっている?

落合陽一(以下、落合):改めまして、落合陽一と言います。一応、スタートアップをやっていまして、ほかにも筑波大の教員なんかもしています。

小柴満信(以下、小柴):なにを作っているんですか?

落合:今は超指向性スピーカーを作っています。

現在、音声インタラクションにはすごく可能性があると言われています。これまではタッチパネルといった、手を使って操作するものが主流でした。

でも、最近ではAmazon Alexaなど、音声を発するだけで、手を使わずに操作する方法も登場しています。

僕がやっているハードウェアスタートアップでは、一様に聞こえてしまう声を「◯◯さんにしか聞こえない音」「◯◯さんの音だけをとりたい」とするための、1点だけが聞こえるスピーカーを作っているんです。

小柴:おもしろいですね。すごく興味があります。あとでもう少しくわしく聞かせてください(笑)。

(一同笑)

落合:僕自身、ハードウェアを作っていて感じることですが、今、中国・深センなどで、基板発注コストや設計コスト、部品実装コストなどがすごく安くなっています。僕らがCADデータを投げれば、社内で一切手を動かすことなく完成品が出来上がるようなインフラが整ったと思っているんです。スマホくらいの電化製品を作る速度も格段に上がりました。僕らは、その恩恵を受けている印象があります。

とはいえ、簡単に作れるようになったからといって、すぐに成功へつながるわけじゃない。音楽業界で例えると、CDをたくさん出したからといって必ず売れるとは限らないわけです。

また、深センの工場などは現場の工員さんにこちらの企業秘密が丸見え……という意味では、情報がダダ漏れ状態です。日本のハードウェアの流れを加速させることを踏まえると、そのあたりの秘密をどう保持しながら作るかが、けっこう難しいですね。

小柴:それはありますね。

スタートアップと大企業には温度差がある

大企業に関してはいわゆる「ものづくり」から脱していない状態です。プロダクトを作る過程もそうですが、最近でいうと「IoTとは?」と言われても、そのイメージをなかなかつかめていなかったりします。

どういうことかというと、本来IoTとは、膨大なデータを使って新たな価値を生み出すための手段、データ駆動社会における1つの手段です。

しかし、大企業は「IoT向けに、どういった製品を出すか」ばかり考えてしまう。だから、ハードウェアスタートアップとも、まだ温度差があるように感じています。

落合:思いますね。あれは、なぜなのでしょうか? 今だと、自社で作らずとも、元気のいい会社と提携したり買収したりすることも可能です。

そもそもIoT自体、事業領域を自社内で立ち上げるほど大きなビジネスになるかというと、意外にそうでないものも多かったりします。「IoTの時代だから、便利な椅子を作りましょう!」という議論になるのは、ちょっと違いますよね。

小柴:IoTやビッグデータといったバズワードがいろいろありますが、それを世のなかで見たとき「どういう位置づけにあるか」をわかっていない人が多いのだと思います。まだ、コンピュータは電線につながっていて、それがインターネットで……というイメージが強いのかもしれません。

さまざまなエッジデバイスの1つがスマホですが、そこからあがってきた膨大なデータからどういった価値を生み出すのか。データを使って、今の世のなかにどうやって新しい価値を作り出すのかを考えないといけません。末端である「ハードウェアをどう作るか」だけだと、重要なところをプラットフォーマーと呼ばれる人たちに持っていかれてしまいます。

落合:僕、「一太郎」というワープロソフトが好きだったんです。日本のIoTの考え方は、この「一太郎」に近い気がしています。つまり、すごく便利で、手の届くところをおさえてしまえば、主要プレイヤーになれると、今でも思っているように感じるんです。

IoTの場合は、作り込みより「すべてつながっている」が重要です。ネットワークの親和性をどこで担保するかなんですよね。

でも大企業からすると、そこの上澄みをどうとっていくかのほうが大事みたいなので……小柴さんのおっしゃられた話、本当にそのとおりだと思いますね。「そこは、“IoTを使った便利な椅子や机を作りましょう”じゃないだろう!」って(笑)。

小柴:そうですね。「違うだろ!」と思います(笑)。

「音声でダイレクトに動かせたほうがいい」と思い始めている

いつも世のなかは、ハードウェアとソフトウェアが追いかけっこをしながら進んでいくような感じがします。今はどちらかというと、ソフトウェアが先行しているかと思います。

今、自然言語処理について色々なところで学んでおり、NTTなどでも話を聞かせてもらっていますが、素晴らしい技術だと思います。

落合:すごくいいです。

小柴:Siriについてはあまりよくわからないですが、これを実現するためには機械学習やDeep Learningなどルールベースの機能を組み合わせています。そのため、膨大な計算機コストがかかっているんですよね?

落合:そうですね。先日、Google翻訳がDeep Learningベースに新しくなりました。この精度が、すごくいい。最近、うちの学生に「日本語で書いてからGoogle翻訳してもらったほうが、英語論文が通るよ!」と言っていて。

小柴:(笑)。

落合:本当に、完璧に英訳してくれるんですよ。とくに日本語がきっちりしている論文文章は、極めて英訳しやすい。もうちょっと砕けた言葉も英訳できるようになったら、多言語も翻訳されるようになると思います。10年前までは言語の認識能力も低かったのですが、そのあたりを機械学習が回収するようになってきた感覚がありますね。

小柴:私は、これからの人間とのインターフェースとして絶対に音声やオーディオがくると思っています。この技術が進めば、世のなかが大きく変わるでしょう。

落合:僕もそう考えています。

みんな、「わざわざGoogleマップを開いて指でピンチアウトして、ダブルタップして目的地設定はしないだろう」と、気づき始めているんだと思うんです。その動作を音声でダイレクトにできるようになれば、ハードウェアはほとんどいらなくなります。マイクとスピーカー、あとは無線通信してクラウドで処理するほうが重要になります。でも、このあたりは本当に低コストでできるところです。

予想では、次のスマホくらいで音声認識がさらに発達していると思うのですが……意外と日本ではまだ着目されていないところですよね。ソフトウェアに関しては、NTTさんがやっていたりするんですけど。

小柴:日本語の世界に入ってきますからね。

落合:ああ、それもありますよね。

ハードがソフトに追いつけば、コストは下がる

小柴:1つ質問があるのですが、自動音声認識を開発している会社の話を聞くと、アメリカ英語とイギリス英語では、音声を認識するソフトウェアを変えているということらしいです。

落合:自動認識するとソフトウェアを変えている。それぞれで使い分けているということですか?

小柴:そうです。これはなぜかというと、アメリカ英語とイギリス英語ではそれぞれ音程が違うからということです。イギリス人は、男性でも声が高めですよね。あの、有名なサッカー選手の……。

落合:(デビット)ベッカム?

小柴:そうです。ベッカムも高い声ではないですか。イギリス英語は、音程が高いんです。

落合:たしかに、音程は高いですよね。スラスラスラ〜と。

小柴:一方、アメリカ英語は、日本語の音程に近いので、日本人は聞き取りやすいと言われています。先ほど、落合さんが話していたスピーカーもそうですが、そのあたりの音程の変化や国別のアクセントをデジタルカメラのオートフォーカスのようにハードウェアでできないかなと思っていますが、やってくれないかな(笑)。

落合:(笑)。僕のところで作っているスピーカーは、ハードウェアフォーカスができるスピーカーなんですよ。

小柴:あ、やはりそうなんですね。

落合:位相差をつけて、絞りを変えるスピーカーなんです。

ただ、先ほどおっしゃっていた言語間で音程が変わるのはまさしくそのとおりで。ディープラーニングで認識するときも、同じ英語でもアメリカ、オーストラリア、イギリス、インドと、ぜんぜん違うフレームワークで認識しています。混ぜてしまうと、精度がガタ落ちになるんですよね。

実際のところ、複数言語の翻訳を同時にかけてみて、一番文脈が通じたものに言語自動設定をする研究が比較的されるようになってきています。そのため、最初の2〜3語話せば、自動でチューニングされるようにはなると思います。

小柴:今はまだソフトウェアに頼っているから、コストもかかっている。けれど、この分野に関してはハードウェアが追いついてきて、コストも下がっていくと思っているんです。今まではソフトウェアでした。でも、次はハードウェアがくる。

落合:音と光に関する技術は、アップデートされると思っています。これまでの「音」は一様に分布するという、エジソンの蓄音機をベースに作られていました。今は、どうやって空間にフォーカシングできるかが重要なファクターになっています。だから、位相差をつければいいとは、みんなわかってきているんです。僕の場合、博士論文のときから位相差の研究をずっとやっているんですけれど。

光については、液晶ディスプレイから一様な光分布が出ています。これをどうやって空間の光分布をとるかが次のファクターになるんだと思います。これが実現できれば3次元映像や、なにもないところに映像が見えるなどができるようになる。そういう意味だと、網膜投射型ヘッドマウントディスプレイが、次の鍵になるんじゃないかと思うんですよね。

そのあたりをたぶんMagic Leapや、今話題のMR系の企業は研究しています。

小柴:人間の五感に置き換わるようなCMOSイメージセンサーが出来れば、次はどう考えても音のセンサーです。そこが発達すれば、世のなかのインターフェイスが本当に変わってきます。実際に、Siriが出たことで、従来の手入力によるウェブサーチはしなくなりました。

落合:あと5年は、絶対に音声ですよね。

研究業界が目指す「デバイスありきの世界」

ただ、うちの研究業界は、ヒューマンインタフェースとしてのダイレクトマニピュレーションが好きな人の集まりなんです。つまり手や体を使ってなにかをいじることをコンピュータでサポートしたい。ピンチアウト、スワイプ、ジェスチャーをしたい人が多い。そういった感じで研究業界的にはダイレクトマニピュレーションを愛しちゃうんです。おそらく、自然には人はそんなことをしたくないんだと思うんです。もっとものぐさにやりたいんですよね、

このIoT時代。例えば、執事を呼ぶように「電話かけといて」と雑な使い方をしたい。IoTは、今みんなが思っているデバイスありきの世界じゃないんですよね。

小柴:どういう世界だと思いますか?

落合:あらゆるところにAmazon Alexaがあるようなイメージですね。例えば今、「Hey, Siri」というと、iPhoneなどのデバイスが反応します。声で反応しているけれど、その後はデバイスで操作することを前提としています。

僕らは、ただ音声だけで環境、もしくは体につけたものから認識されていく社会があると思っているんです。今、AmazonのIoTボタンが話題になっていますが、究極は、人間にIoT経由の通信機能を持たせる、あとは身体を用いて選んでいく。「あ、洗剤が切れた」となったら、その時点で商品が届くような社会です。ボタンを押す必要すらなくなる、そういった社会にするにはどうするかが、すごく重要な課題だと思っています。

いわゆる「ものを通じてなにかする必要がないもの」を日本で作られているのかというと、あまり作っていないんですよね。ここがポイントです。

自転車に乗るとき「では、サイクリングメーターを作りましょう」は、IoTではないんです。半導体の集積技術ベースで、どうやってマイクロフォンを作るのか。スピーカーアレイを作るのか。もしくは電波通信系を作るのか。これが、次のインフラベースのキーワードだと思っています。

IoTの会社を作るとき、そのレイヤーをわかっていない人がすごく多いです。電波や難しいハードウェアの基板実装の話は、そのスタートアップの人達がやるべき仕事じゃない。それこそ大企業が引き取って、大きな事業領域にしていくほうが重要なんですよ。

小柴:ソニーがイメージセンサーやカメラモジュールを出しているのと同じような感じですね。

落合:そのとおりです。