会話音声をリアルタイムで感情解析する中で見えてきたこと

河上純二氏(以下、河上):下地さんってこんな感じだから、最初に会った時に真面目な方だなと思ったわけさ。

磯村尚美氏(以下、磯村):思っていないでしょう......(感情分析グラフ画面を見ながら)赤になってる。

(一同笑)

河上:なんでだよ。思ってるよ! 思ってるんだよ、バカヤロー(笑)。すごく今日やりにくいわ、やりにくいな。思ってるんだよ。

でも今日いろいろ話ししてさ、夜中まで飲むってことは相当お酒強いんですか? 

下地貴明氏(以下、下地):強いというか好きなんでしょうね。

河上:飲んで今日! ぐいぐいいって! 

下地:ありがとうございます。これ空くと思います。

河上:この人(及川氏)もこれ1本飲むね。

磯村:仲間ですね。

下地:なんかおっかないなと思って。いきなり.....あ、ありがとうございます、すいません。

河上:下條さんが(番組へのコメントで)「シモジ仲間です」と。シモジまでは一緒。

下地:この間Plug and Playでトークセッションを一緒にやらせてもらった時に、「シモジ仲間です」と。

河上:いいよね。俺もいろんなアクセラレータだったりとかビジネスイベントに参加させてもらうけど、やっぱりPlug and Playのラインナップ、最後のピッチはクオリティーが高くて、さすがだなという印象を久しぶりに......。

(感情分析グラフ画面を見ながら)なんでだよ、バカヤロー。感情の起伏が……。

及川真一朗氏(以下、及川):すごい! ものすごい(赤いグラフが高くなって)いく! 

河上:すごい、難しくなっちゃった。鼓動も上がっちゃって、鼓動が上がっちゃってるよ。

(一同笑)

下地:これ今新しいですね。

及川:いいデータ取れてますよ。

河上:実は二重人格的な。すごく起伏が激しい、みたいな。

及川:サイエンティストの方はいろいろ......。

河上:これ、アクセラレータのミートアップイベントでもちょっとやれば?

及川:ミートアップね、確かにね。横に出しても、おもしろいかも。

河上:そう、これ出してやったらおもしろいと思うよ。

磯村:誰を見るんですか? 

河上:誰を見ようか。

及川:俺を見てもしょうがないですよ。俺は横で(キーボードを叩く仕草をしながら)こうやっているだけだから。

下地:けっこうピッチとかをこれで取るとおもしろい。だいたい自信ないと悲しみがかなり占めちゃうんですね。

及川:悲しみは青ですか?

下地:青ですね。

河上:俺悲しんでるの? 行動が今難しいんだよ。非常に難しいんだよ。表現がね。

磯村:表現してもここで(本当の感情が)見られちゃう。

河上:そうなんだよね。……って、あなたが言うから話戻っちゃうんだよ。あなた今日チェッカーなの。

磯村:横からちゃちゃ入れるのが大好きで、本当おもしろいものです。あ、赤になった、赤になった。

河上:いや、怒ってないから。

対話がうまく成り立つ法則は「三者関係」

河上:そんな下地さんだけど、夢とかあるの? 

下地:夢ですか? 

(一同笑)

及川:すごい唐突。

下地:すごいハイボール投げてきたなと思って。夢ですか......。

河上:事業サイドもあるし、事業じゃないところもあるかもしれないけど。

下地:先ほども言った「共感」というキーワードがすごく重要だと思っていて。今やっていますが、メンタルヘルスのことをずっと考えていて、これ(Empath)ができあがっているので。

だいたい些細なことじゃないですか、人と人のごちゃっとする瞬間って。それの手前でサポートしてくれる第三者がいた時に、だいたいうまく対話が成り立つじゃないですか。

昔は仲人がいて新郎がいて新婦がいたという話も、三者の関係って、共同体の最少形じゃないですか。(これが)重要で。1対1だと利益が圧倒的に対立する瞬間が生まれるんですけど、ここに第三者が入った瞬間にお互いをコントロールし始めるので、安定し始めるんですね。

夢というと大それた話になるんですけど、そういった形でコミュニケーションのコストをできるだけゼロにしていくと、組織ってすごい成長するなと(思っている)。今僕らがやっている「Empath」って、そこを目指していて。

コミュニケーションコストを下げるためにいろんな努力をしながらやっているんですけど、その形で「おもしろおかしく働いたら儲かっていました」だったら最高じゃないですか。そしてしかも、それが人の役に立つところまでいくというのが、僕の中で夢ですかね。すいません、具体的な方法じゃなくて申し訳ないんですけど。

河上:いいよ。会社のPRに繋がる夢だったね。「南の島でヒッピーになりたい」とかでなくて残念だった。

(一同笑)

下地:ヒッピーで......。

磯村:青になった。

河上:悲壮感。

下地:過去になにかあったんじゃないか、ぐらい(笑)。

及川:その後に赤いやつが......。

河上:怒りが。

磯村:でも黄色になった。

河上:喜怒哀楽激しいね、これ。

及川:使いこなしているんじゃないですか?

河上:けっこう激しいんだよね、内面的にはね。表向きはテディベアだけどさ。

競合は国内外で数えても数社しかいない

河上:このジャンルって今、世界中見渡して、競合って言ってもいいのかもしれないけど、ライバルはいるの?

下地:いますいます。いるんですけど少ないんですよ。そもそも音声技術を扱おうという人たちは意外と少ない。なかなか工学的にコントロールしづらくて。特にインプットのほうを扱うとなるとなかなか大変なので、そういった意味では競合はかなり少ないです。正直なところ国内だと数社しかないですし、海外を見ても10は超えないです。

河上:そんな数なんだ? 変なカオスマップ、見えないカオスマップにはなっていないのね? いっぱい過ぎて、みたいな……。

下地:「音声感情解析」って言った瞬間に、3,2,1,4しか出ないみたいな。たぶん分けられないみたいな感じですよね。

及川:日本語と他の言葉って違うじゃないですか? 国が違うと。どういうふうにしているんです? 

下地:すごくいい質問なんですけど、よくある……。

磯村:感情グラフが……悔しがって赤になるかもしれない。

(一同笑)

言語差・文化差が圧倒的に少ないのは、目よりも“耳”で感情を認識すること

下地:感情解析っていつも2つの方向でお話ししていて。

1つは、2年前に出た国際心理学会の学会論文で、目で評価する、つまり「表情で評価する感情の認識」よりも、「耳で評価する感情の認識」のほうが、言語差・文化差が圧倒的に少ないという論文が出てるんです。

それがあるので、ある程度は、言語の意味内容を取らずとも怒っているとか喜んでいるとかはわかりやすいとお話ししています。

ただ、100パーセントではないので、それに対してどうやっていくかと言うと、先ほどAPIを公開しているとお話ししたと思うんですが、50ヶ国にまたがって今データとなっているんですね。

汎用的な学習データを溜めていまして、それを使って無理矢理に外国語に対しても汎用的に解答できるものを作ってます。ただやっぱり日本語よりは多少精度は落ちる。

及川:その国の言語での感情起伏みたいなのが、データで溜まっているいるということですね。

下地:そうですね。そこまで細分化して僕らが作っているわけではないです。

河上:ビックデータの集まり方として相当おもしろいですね。いろんな人との会話は基本的には集まっているわけでしょ?

下地:そうですね。

河上:世界中の会話は。あるシチュエーションだけでも。

下地:なかなかどう使っているかはここではできないのですが、集まってきています。

河上:もちろん守秘義務の話はわかるよ。n(サンプル数)の話としてね。

下地:自動的に集められているというところは我々の強いところです。

やはりセンサーデータを扱っている企業は、結局nが増えない限り正答率が上がっていきませんので、そこは我々ががんばってやってきた甲斐があったなという感じで集まってきていますね。

及川:確かに言葉はわからないけど、怒ってるか怒ってないかはなんかわかるよね。

河上:なんとなくわかるよね。

及川:英語の、外国の映画を観てたりしててもわかりますもんね。

河上:そうね。画しか観てないんだけどね。

「目か口か?」欧米人・東洋人の感情理解の違い

下地:あとは、表情の方が実は研究がかなり進んでいて。だいたい99パーセントぐらいは当たるというところまでやっているんですよ。

及川:表情?

下地:表情です。なぜそれが言えるかというと、ファクスと呼ばれる顔のコード、筋肉がどう動いているかによって、感情が出力されるんですというコードが体系化されているんです。それに対して広角的に当てているので、正答率がそれぐらいあります、というのはあるんですが。

実はそこは2つ落とし穴があって。1つは、2019年1月ですか、京都大学で「ファクス自体が欧米人は当てはまるんだけどアジア人はそうではない」という論文が出たんですね。

というのも、コミュニケーションをするうえで、日本人ってけっこう(目を手で囲って)この辺見てるじゃないですか? 絵文字とかも目の表情で、アンダーバー(口の形は同じ)なんだけど目で怒りを表示したり、困っているって表示している。

外国へ行くと、絵文字(の表情が変わるの)は実は口側なんですよ。

及川:確かに! 歯が見えてたりとかね。

下地:むしろ目じゃないやつもけっこうあるんですけど。

河上:なるほどね!

下地:そうみた時に、コミュニケーションとして感情をアウトプットして相手方に伝える時、どっちかというとこっち(口)を使っている欧米人と、こっち(目)を使っている東洋人では、感情の理解の仕方が違うというのが出てしまっているんですよね。

河上:おもしろいね。

下地:はい。それが1つの落とし穴。もう1つの落とし穴が、これを言うと表情解析の人に怒られちゃうんですが、かなり偽造をしやすいんですよ。にこにこするのってけっこう......。

河上:俺も今、偽装みたいなもんだからね。

下地:にこにこしてる。

(一同笑)

磯村:(感情分析グラフ画面を見ながら)今ずっと快適に、ちょっと喜びながら。

及川:確かに、表情ってコントロールできちゃいますからね。

プロでもない限り“声”をコントロールするのは難しい

下地:音声はトレーニングするといっても、役者とか声楽やっている人とか、それを生業にしてる人しか実際やってないというのがありまして。一方で詐欺師みたいな人たちっていうと、言葉は乱暴なんですけど、そういった方々ってその辺もお上手にやられますので、なかなか見分けるの難しかったりするんですけど。

なかなかトレーニングを積んでいないと、コントロールしづらい。

及川:確かに通常の喋り方とか声のトーンだってコントロールしないですからね。みんな自分の意識のままに、無意識でやっちゃってるわけですからね。

下地:表情筋はけっこう高まっていてもそんなに声は喜んでいません、みたいなことはままあるという。

河上:俺もいろんなジャンルに携わらしてもっているとさ、どの解析を使うの? という会話がけっこうあるのよ。最初の頃というかずっと昔は、表層解析的な、今の怒っているの笑っているの話だったんだけど、だんだんだんだん奥行きがもともとある本質的なところに近づこうとしている傾向があるなと思っていて。それはいろんな切り口でいろんな人がやっているんだけどね。

声のトーンどんなに高ぶって喋っても、裏側にある本質はそこにないよねという話に持ってくる......(感情分析グラフ画面を見ながら)うるさいな、もう。

(一同笑)

河上:熱くなる!

下地:熱くなると赤くなる。

河上:今いいところで喋ってる。ほら起伏がまた多重人格......ビリー・ミリガンになっちゃってる。分割しちゃったよ、人格が。何が言いたかったか忘れちゃったよ。解析っていろいろ......やかましいよ! 冬のエベレストみたいに形が複雑になっちゃってるよ。氷山がばらばらになってるよ。

磯村:いいこと言ってるのに横からちゃちゃ入れて。

河上:いいこと言おうとしてたのに。

表層的なものではなく、いかに不変的なデータを引き出せるかがカギ

及川:なんのデータを取るかですよね? 

河上:そう、どの解析方法を選ぶかという話と、表層的なものより変えることができない部分のものをどう引き出すか、みたいな話に触れることが最近多いんですよ。

下地:最近はあれですね、ブレインコンピューティングというか脳のところが、がんばり始めてるなと思いますね。

河上:ここを解析するということ?

下地:そうですね。脳波は(研究するところが)増えてきていますね。ちょっと脳波だと大雑把な理解しかできないので、これからだと思うんですけど。今河上さんがおっしゃったところってまさにそこだと思うので、そこが出始めると、「すいませんでした、音声とか言っててすいません」みたいな話になるかもしれない。

河上:どこまで確証性を持って寄ってくるかわからないじゃない?

この人けっこう飲むでしょ? がんがんいってよ。今ボトル持ってくるから。もう鍋焼きうどんでも頼む?

磯村:なんで鍋焼きうどんなんですか? 

河上:鍋焼きうどんとボトルが合うのよ。最近デリバリー領域がんばってるじゃない? この時間でも諦めていることが簡単に実現できるじゃない。今ここで叙々苑の焼肉弁当4つ持ってきてくれと言ったら、届く可能性あると思う。

磯村:ごちそうさまです。

下地:ありがとうございます。

河上:なんで俺なの? 頼まないけどね。

(一同笑)

河上:また氷山......。氷山。阿蘇山脈みたいになってる。感情がばらばらになっちゃった。

磯村:気持ちがよくわかる。