CLOSE

VUIの未来(全1記事)

GUI→マルチタッチ→? これからのインターフェースのあり方と“VUI”がもたらす影響力

2018年4月20日、Deep Learning Labが主催するイベント「音声・言語ナイト」が開催されました。Chainerを提供するPreferred Networksと、Azureクラウドを提供するMicrosoftによる、エンジニアコミュニティDeep Learning Lab。今回は、自然言語処理や合成音声など、音声・言語×深層学習の最新事例や知見を発表しました。プレゼンテーション「VUIの未来」に登場したのは、Yoshua Kishi氏。インターフェースの歴史から、次に来る“VUI”の可能性を語ります。

ホログラムのバーチャルアシスタントを作る

Yoshua Kishi氏:お願いします。ちょっと紹介いただいたところと、微妙に違いまして。技術的な話というより、ビジュアルユーザーインターフェースの未来がどうなっていくだろうかってところから、今日は話させていただきたいと思っています。

「意思決定にもたらす影響力」というところをお話しするんですが、まずは自己紹介をさせていただきます。僕はYoshua Kishiといいまして、ADHDという発達障害を持っている起業家です。自然言語処理のエンジニアでもあります。

本当は課題として持っていたのが、いわゆる「単語からの感情分析」をやろうとしていたんですけど、それがうまくいかないっていうのを発表しようとしてたんですが、こっち(意思決定にもたらす影響力)のほうが話しやすいということで、こっちを話しているという状況です。

専門としているのは、脳科学的であるとか、認知心理学というところを専門にやっています。今年のSXSWに出展させていただいていて、そこでホログラムの展示をさせていただいています。

会社はデラウェアという、アメリカ・ニューヨークのちょっと下にあるようなところで、会社を登記しているというところです。

やっている内容は、ホログラムのバーチャルアシスタントをADHDという発達障害に向けて提供している、というものをやっています。

iPhoneが起こした革命

ビジュアルユーザーインターフェースの話をする前に、いわゆるインターフェースの歴史みたいなところをちょっとお話できればなと思っています。僕ら人間がこれまでどうやって生きてきたか、みたいなところで話をさせていただくんですけど。

道具とか言語を発明して、絵を描いたり数字を発明したりして、コミュニケーションをどんどん進化させていったと。一番大きな変化としては、印刷の技術があるかなと思っていて。これは、いわゆる情報を拡散させることに大きな影響をもたらしていると。

いわゆる音声インターフェースも、人間はずっと音声でコミュニケーションをしていたんですけど、そこからテキストに変わっていったというところが大きな変化です。ここから思考が変化していって、物事の考え方が非常に大きく変わったタイミングだと思っています。

最近になって、1946年にENIACというコンピュータが初めて生まれてるんですけど、コンピュータの発明によって、より人間の考えるっていうところが拡大していったと思っています。

1984年の……ちょっとMicrosoftさんのところでこれを話すのはアレなんですけど(笑)。MacintoshがGUIのパソコンを出して。1984年に出したのは(メモリが)128Kくらいしかなくてちょっと微妙だったんですけど、いわゆる実用できるグラフィカルなユーザーインターフェースを普及させたというところで、人間の脳がどんどん拡大していったと。そういうタイミングだと思っています。

このあとにさらに、もっと革命的なことが起きていて。これがいわゆるマルチタッチのインターフェースを採用した、iPhoneというものになります。これまでのスマートフォンとは明らかに違うもので、これはなにかというと、人間が情報を処理する上でボタンというところはすごく意識を使うんですけど、こっちのマルチタッチのインターフェースは、ジェスチャーでできる。このジェスチャーユーザーインターフェースが、すごく革命的だったと。

そのほかにもFacebookであるとか、GoogleとかAmazonとか。いわゆるAFGA(注:Apple, Facebook, Google, Amazon)みたいなところが、どんどん人間の脳を拡大させている、というところです。

先人たちは「情報処理の再定義」をずっと行ってきた

ただこれには僕は、すごく問題があると思っていて。この中で「ワーキングメモリー」というものがわかる人っていますか? 脳の前頭前野の機能の1つで、ワーキングメモリーというものがあります。日本語でいうと簡単に、ちょっと正確ではないんですけど、「短期の作業記憶」と呼ばれるもので。30秒くらい記憶されるものだと思ってください。

こいつがどんな処理をしているかというと……刺激がきます。まぁなにかしら、スマホで見ますと。その情報を取捨選択して、制御して思考して検索して、意思決定を行うと。必要があるものについては保存をする、という処理を行っているというものになっています。

ここに対して今でいくと、大量のプッシュ通知がくる。LINE、Facebook、Instagram、LinkedIn、Slackから、大量のメッセージがくると。スマホを開いたら、もうなんかすごくアプリがあって。

アプリのベンダーさんって、ものすごく人間を「そこに粘着させる」ことを考えているので。いわゆる非注意性盲目が効くんですね。非注意性盲目っていうのは、そこに集中してしまっていて……例えば僕、ADHDってスケジュールをよく忘れるんですけど、すごく集中しちゃってるんで、ここの周辺視野のところに意識がいかないんですね。そうすると、スケジュールがきて、「何時だから予定だよ」っていうのがSlackからくるんですけど、それをよく見落とすと。そういうことが起きてしまったりしている。

それで、アプリとかWebを開くと、大量の広告があると。つまりは、ワーキングメモリーの上限を明らかに超えてきている。情報がありすぎる、ということが起きている中だと思っています。

とにかくこれまで先人たちが行ってきたことっていうのは、「情報処理の再定義」を行うことっていうのをずっとやってきています。iPhoneがインターフェースを発明したように、人間の脳はどんどん拡大していったと。ただ、そこには問題があるので、僕らも再定義を行わなきゃいけないと考えています。

そこで登場してきたのが、僕はInternet of Voiceだと思っています。いわゆるボイスのユーザーインターフェースが、これを変えてくれるんじゃないかなと思っています。

意思決定が自動化する未来がくるかもしれない

1つは、情報のインプットの形態の問題で。例えばAlexaとかに話しかけると、そこに「話しかける」っていう、いわゆるウェイクアップワードが発生するんですけど。このウェイクアップワードっていうのがすごく良くて、1つの機能に集中する状態で話しかけると。なので、こっちもすごく情報を欲しい状態で聞いてるから、そこに意識がちゃんと向いているところがあるので、この情報意識が大きく変わってくるところの、まず1つですと。

2つ目が、これはちょっとおもしろいかなと思ってるんですけど。これは僕の、あくまでも妄想なので。実際に、これがどのタイミングで実現するかっていうところはあるんですが。

意思決定が自動化していくんじゃないかな、と僕は考えています。これはなにかというと、例えばUberとLyft。「タクシーを呼びたい」となったと。これはべつに、どっちでもいいじゃないですか。早く行きたいのか安く行きたいのか、いいサービスを受けたいのかみたいなところは音声で入力するとして、例えば「六本木まで早く行きたい」。それで、早く来るのはUberなのLyftなの、っていうのはAlexaが勝手に判定してくれればいい。

みたいなことが起きて、べつにUberで頼んでもLyftで頼んでもいいから、勝手に頼んでくれ、という意思決定の自動化が起きると僕は思っていて。このインパクトが、Amazonがちょっと起こしてきそうだなっていう怖さがあるなと。いわゆるECとの連携で、どの業者で買ってもいいから、ある特定のパラメータを入れるとそのパラメータどおりの商品を届けてくれる、ということが起きるんじゃないかなと思っています。

ということで、とにかくボイスのユーザーインターフェースで、僕らは情報処理をまた再定義すべきときなんじゃないかな、と思っているということです。これをやるには、歴史もそうですしテクノロジーもそうですし、アートだったり認知心理学、脳科学っていうのを学ばなきゃいけないなと思っています。このボイスのところをやっていく方々もいらっしゃると思うので、その辺一緒に学んでいきましょう、ということでございます。ありがとうございました。

(会場拍手)

続きを読むには会員登録
(無料)が必要です。

会員登録していただくと、すべての記事が制限なく閲覧でき、
著者フォローや記事の保存機能など、便利な機能がご利用いただけます。

無料会員登録

会員の方はこちら

関連タグ:

この記事のスピーカー

同じログの記事

コミュニティ情報

Brand Topics

Brand Topics

  • 今までとこれからで、エンジニアに求められる「スキル」の違い AI時代のエンジニアの未来と生存戦略のカギとは

人気の記事

新着イベント

ログミーBusinessに
記事掲載しませんか?

イベント・インタビュー・対談 etc.

“編集しない編集”で、
スピーカーの「意図をそのまま」お届け!