音声合成と音声認識は関連が非常にある

戸上真人氏(以下、戸上):では、ちょっと引き続き次のトピックにいきたいなと思いますが、そういう観点で、やっぱり音声特有の技術課題や要素がいろいろありそうだということが見えてきますが、今、音声認識と合成と環境音識別と、その3つの分野の専門家が集まっているので、ちょっと私からも聞きたいなと思っているのですが、それぞれの分野の関連性というか、共通点がどういうところにあって、でも一方で、ほかの技術を、例えば音声認識の技術を環境音識別にもってくることも考えられるとは思うんですが、一筋縄ではいかないとか、そういった観点であるんじゃないのかなと思います。

ということで、各分野の共通点や違い、あとその分野で考えていかなければいけない要素って、それぞれの分野間でどう違うのかを掘り下げて聞いてみたいなと思っています。ということで、音声合成という立場で、山本さん、そういった観点いかがでしょうか?

山本龍一氏(以下、山本):個人的にですが、音声合成と音声認識は非常に関連があると思っています。音声認識で成功したモデルが、音声合成に使われることもよくあります。

1つ大きな違いとしては、音声認識では、近年だと、数百時間、数千時間といった学習データを使って、ものすごく大きなモデルを学習することがあると思いますが、音声合成は認識に比べると少しスモールデータで、例えば最近のEnd-to-Endの音声合成でも10時間や20時間とか、数十時間程度のデータを使ったりするんですね。そういう違いがあるので別々で考えないといけないと思っています。

例えば音声認識でTransformerがすごく成功していますが、それを単純に合成へもってくるだけでは動かなくて、少ないデータでどのように学習するかという工夫が重要になってきたりしています。

戸上:そういう意味では、音声認識はやっぱり大規模なデータを使っていかにいろいろな発話スタイルに対応するかなど、そういったところが課題になるのに対して、どちらかというと音声合成はもう本当にスモールなデータで、ある特定の話者のスモールなデータをいかにいい音質で出すかという、そこに勝負を賭けるところが違うというイメージですかね。

山本:そうですね。それが多いですね。

戸上:ありがとうございます。

音声合成で使うデータはきれいなデータじゃないといけない

戸上:木田さん、音声認識の立場からどうでしょうか?

木田祐介氏(以下、木田):音声認識も音声合成と今すごく関わりが深くなってきていると感じていまして。例えば今、End-to-Endの音声認識のモデルを学習するときに、音声合成を使ってデータを生成して、音声を生成して、それを学習に使うといったことがよくやられています。それは専門用語などを学習させようとするときに、毎回人にしゃべってもらうのは大変なので、そのコストを軽減するために、音声合成を使うのがモチベーションになっていたりします。

ただそのときに、単純に音声合成にテキストを入れて波形を出して、それで学習データを加えればいいかというと、そうでもなくて、今山本さんのお話にもあったように、音声合成はけっこうスモールデータで、ある人の声を大量に集めてその人の声を作るというようなことは、今でもけっこうできているのですが、音声認識はいろいろな人の声を認識させる必要があるので、いろいろな人の声を学習データとして与える必要があるんですね。

なので、その多様性という点で、今の音声合成をすぐにもってくるみたいなことはちょっと難しくて。それを解決するためのアプローチとして、例えば音声合成から波形にするんじゃなくて、音声認識に都合のいい特徴量、エンコーダーの部分の特徴量をダイレクトに生成するみたいなアプローチもあって、そういったアプローチが有効なんじゃないかなと個人的には思っています。

戸上:なるほど。ちょっと今視聴者から1つ質問がきているのでピックアップしますが、これは山本さんへの質問なので、ちょっと補足してもらえるとうれしいなと思います。

山本:はい。

戸上:「音声合成で先ほどスモールなデータという話があったと思いますが、大規模なデータを使わないのはなぜですか?」ということに関して、ちょっと一言いただけるとうれしいなと思いますけど、いかがですか?

山本:まず語弊を生んでしまったのは申しわけないのですが、もちろん大規模なデータを使う方法もありますが、比較的少数です。なぜかといいますと、基本的に音声合成で使うデータはスタジオで収録されたようなきれいなデータじゃないといけないんですね。時にはそのデータに、アノテーションをする必要があって、スタジオ品質の音声を大量に用意するのが難しい、というのが理由ですね。

戸上:なるほど、わかりました。ありがとうございます。じゃあ、ちょっと次の話題にいきながら、また視聴者からの質問でも次のトピックに絡む質問があるので、ちょっと織り交ぜながら進めようと思います。

環境音研究の10年後

戸上:私からの最後の質問は、まさにこのカジュアルセッションのトピックの1つなのですが、今後の技術がどういうものが出てくるのかについて、予測というよりかは「自分としてはこういうものを作りたい」みたいな話をもらえるとありがたいかなと思います。

ちょっと1〜2年先の近未来だとすでに見えている部分もあると思うので、10年後としました。それぞれの方に答えていただこうと思いますが、視聴者からも1点質問が来ていまして、それもよろしければ絡めて答えてくれるとうれしいのですが。

「DNNによって、技術がめざましく発展したことはわかりましたが、逆にDNNによる限界にはどういうものがあるのか」について、ちょっと今でも見えてきている部分があるんじゃないかなと思っていて、そういった部分を織り交ぜながら、コメントいただけるとうれしいなと思っています。

それでは、井本先生からいかがでしょうか? 

井本桂右氏(以下、井本):ちょっと質問いただいた内容のうち、最初(DNNと)関係ないことから始めちゃいますが、環境音の識別はあらゆる音から情報を抽出しようというところなので、人の声、しゃべっているところじゃなくて、マイクのあるところなら音を取ってなんでも情報を抽出しようというところを僕はやりたいと思っていて。

そうすると、最近はやはりスマートフォンをみんなが持ち歩いていたり、家中にマイクがある環境がすごく整ってきているので、こういったマイクで1個1個の環境音を識別できれば、かなりいろいろな情報が取れて使えるんじゃないかなと思っているんです。

こう言うと、ちょっと怖いかなと思う人もいるかもしれませんが。音を盗られている、みたいな。でも私が思っているのはまったく逆で、音は好きなだけ取れますが、それをフィルタリングして、必要な情報だけを取って捨てるために、やはりこういう技術が必要で、今何が起こってというのを全部把握して、例えばこの音を取っちゃだめだよなど、そういうことをすることで、情報のフィルタリングするときにすごく活きていますし。

なので、10年後というと、あらゆるマイクロホンに、音声認識も含めてかもしれませんが、環境音の分析技術が入っていくようなところというのを目指していきたくて。

DNNとの絡みで言うと、さきほども話しましたが、そうするとより軽量な、ところがないとエッジ上で動くのがやっぱり課題にはなってくるので、ちょっと近い話しですが、そういうところを解決しないといけないかなと思っています。

戸上:なるほど。クラウドでやはりDNNを動かすところはちょっと限界があるかな、みたいなところでしょうか。あとプライバシーアウェアですかね。プライバシーを守るためにも、やっぱり環境音識別が必要だよという観点だったかなと思います。

音声認識はさらなるイノベーションが必要

戸上:それでは木田さんいかがでしょうか? 木田さん、もしよろしかったら言語識別的な話とかも触れてもらえるとうれしいのです。

いろいろな言語が世界中にはあり、そういったものもこれから認識できるようになると思うのですが、そういう言語のかなり似ているところの識別とか、そういうことができるのかどうかも含めて、なにかコメントをいただけるとうれしいなと思います。

木田:最初に展望という点に関してお話しすると、10年でできるかわかりませんが、音声認識は今だいぶできるようになってきてはいますが、まだまだ表層的で、今は単に機械的に音の波形を文字に変換しているだけに過ぎないんですね。

先ほどの質問にもあったとおり、DNNの限界みたいなお話ですが、そこが今のDNNの限界だと思っていまして。より人間と機械の深いコミュニケーションをするためには、もうちょっと踏み込んだ言葉の概念みたいなものを取り入れないといけない。そうしないと、けっこうトンチンカンな答えを、今もしちゃうと思いますが、そういうものがなくならないと思っています。ただそれって、やっぱりかなり難しくて、かなりブレイクスルー、イノベーションが必要だと思います。

一方で、今Deep Learningのモデルが、1、2年ごとにすごいブレイクスルーが続いていて、昔から僕もそういった言語の概念みたいなものがないと、音声認識が行き詰まっちゃうんじゃないのかと思ってはいたのですが、ここまで来ちゃっているという側面もあって、この流れがもっとどんどん年月をかけて続いていくのか、やっぱり数年後に頭打ちになって、概念みたいなところを解かないといけないのか、どっちなんだろうというところが、自分でも注目しているところではありますね。

言語識別というお話がありましたが、言語を識別するという研究自体もあって、それもかなりできてきてはいるとは思いますが、そこを絡めてちょっとおもしろい話をしますね。今、英語や日本語など、言語ごとに音声認識器をつくるのはやっていますが、それを全部一緒くたにしてユニバーサルな音声認識器を作るというアプローチもあって。

そうすると学習データとしていろいろな、日本語、英語、ドイツ語などを加えて、そこにローカルなマイナーな言語の学習データも加えて、一緒に1つの大きなモデルを作ってやると、本来マイナーな言語の学習データは少ししかないんですが、ほかのすでにたくさんのコーパスがあるような言語データを補完して、マイナーな言語の認識がすごくよくできるみたいな研究もあって。そういったところもあって、それが1つ興味深い例としてお話ししました。

戸上:ありがとうございます。そういう意味で、人が発声できる音声のパターンというのはやっぱり限定的なんですかね。言語によらず、ある程度普遍的ということでしょうかね。

声の個人化がもっと広く普及してほしい

戸上:それでは、山本さん、どうでしょうか?

山本:私からは、声の個人化がもっと広く普及していってほしいなと思っています。今でも、もちろん研究はたくさん行われていますが、少ないデータでその人の声を再現するのはやはり難しいですし、また、先ほど自己紹介のときにも言いましたが、スマートフォンで録音したような音声、ノイズが乗っている状態の音声からきれいな音声を合成するという、それはまた別の難しい問題があったりするので、少ないデータでもいろいろな人の声を簡単に作れる、高品質な音声を作れる。そういう技術が10年後にはできたらいいなと考えています。

また、これも先ほどの自己紹介で触れましたが、単なる読み上げの音声ではなく、人間のような感情が乗った、非常にexpressiveな音声を柔軟に作るれる技術も、ここ10年で実用化できるレベルになっていくといいなと思っています。

戸上:まさに不幸にも声を失ってしまった方とか、そういった方のためのサービスという意味でも、非常に重要なのかなと思いました。ありがとうございます。

それではちょっとここで、すでにいくつかピックアップてはいますが、視聴者の質問をお受けしていこうと思います。

音声の研究をしようと思ったきっかけ

戸上:先ほど最初のほうにいただいた質問で、これは非常におもしろそうだなと思ったのですが、まさに今音声を始めたいと思っている学生もしくはエンジニアがいっぱいいると思いますが、みなさん音声の研究をしようと思ったきっかけやエピソードみたいなものがもしあったら、簡単にいただけるとうれしいのですが、いかがでしょうか? 井本先生、どうでしょうか?

井本:私の場合、そんなに深いエピソードとかなくて申しわけないのですが、単に音楽が好きだったから、音に関わる仕事をずっとしたかったというのがあって。大学の学部を選ぶとき、どの大学へ行こうというときに、音の勉強とか研究ができるところを選んで、あれよあれよと今につながっています、という感じですかね。

戸上:ありがとうございます。山本さんはいかがでしょうか?

山本:僕も井本先生とちょっと近いのですが、もともとは音楽がすごく好きで、母親がピアノの先生だったんので、音楽は数学だとか言われて育ったんですが、音楽をガン無視して野球をやっていました(笑)。

ただ、大学でたまたまコンピューターサイエンスに入って、そこで音楽を数理的に見るという、音楽情報処理の学問があることを知って、すごくおもしろいなと思って、そこから音楽の研究に入って、音声もおもしろいなと思って、今に至るという感じですね。

戸上:確かに音声の研究者・エンジニアで、バンドや楽器をやっていたという人、すごく多いですよね。木田さんはいかがでしょうか?

木田:僕もバンドをやっていましたが、そこはぜんぜん関係なくてですね(笑)。

戸上:(笑)

木田:僕はもっとミーハーな理由なのですが、昔、映画の『マイノリティ・リポート』という映画があったんですけど、そこでトム・クルーズ が住む家に音声認識のすごいシステムがあって、「電気つけて」とか言うと、カッチョよく家のいろいろなものが作動するのがあって、それがすごい未来的で、なんか魔法のように感じて、音声認識ができたらめっちゃカッコいいなと思って。そういうすごく中二的な理由なんですが、まぁ、そんな感じです(笑)。

戸上:いや、でもそうですよね。なんかやっぱり『マイノリティ・リポート』とかって、本当にAIの開発やその後にすごい影響を及ぼしていて。まさにAIスピーカーも一種のその具現化なのかなと。

木田:そうですよね。

戸上:なるほど。私も回答ということで、私はですね、もともと私は航空宇宙という、ちょっとぜんぜん違う分野だったのですが、やっぱりロボットとかを研究していて。「ロボットが人の声を聞けたらすごいよね」って思いから音声認識の技術をちょっとやってみたいなと思うようになりました。

さらに昔、聖徳太子が10人の声を聞き分けたみたいな話もあったりしますが、ああいう複数の人の声を同時に認識するのは、人間にもなかなかできないんじゃないかということで、そういうのをやってみたいなと思ったのがきっかけでした。

前後の言葉や文脈を考慮した音声認識

戸上:ということで、あと、もうあと5分ぐらいなのですが、もうあと何件か質問を紹介したいと思います。

ちょっと技術的な質問になりますが、今音声認識で、これもある程度やっている部分はもちろんあると思いますが、前後の言葉とか文脈といったものを考慮して音声を認識するのは、今どれぐらいできているのか、どれぐらい考慮しているのかという観点で、このあたりを木田さんはどうでしょうか?

木田:先ほど言ったドメインみたいな話も関連すると思いますが、技術的には2つあるのかなと思っていまして。短期的な、例えば1つの文の中でのコンテキストを考慮するのは、今のEnd-to-Endの音声認識で非常によくできているところですね。

もう1つは、文をまたいだもうちょっと長いコンテキスト。現状のシステムでは,文ごとに独立に認識を行っているので,文脈の情報が消えてしまいます。その辺りを考慮するのが,今後の課題になるかなと思います。

戸上:なるほど。よりそういうドメインや、もうちょっとより抽象化されたものというか、ちょっとうまく表現できないですが、そういうのがどんどんこれからも考慮されていくような方向ですかね。ありがとうございます。

到来方向で環境音を分析する

戸上:次はちょっと井本先生におうかがいしたいと思いますが、これもちょっと技術的な話なのですが、環境音識別で音の到来方向などを環境音識別と同時に推定するのも、ちょっと今年の「DCASE」とかもトピックだったりすると思うのですが、けっこうやっぱり今でも難しいものなのかとか、そのあたりはどうでしょうか?

井本:ちょっと1つ申し上げにくいことがあって、これは何かというと、それを評価するためのデータというのが、まだまだ世の中にないので、どれぐらい本当に進展しているかというのが評価しづらいところがあって。

技術的にはまだまだ、それこそ戸上さんがやられているような音源を分離したり音の到来方向を推定するような、従来技術とくっつけただけというのがまだまだ多くて、それは今後どんどん発展しないといけない技術ではあるのですが。

1つ可能性として私が最近思っているところとしては、音源方向の、例えば到来方向を推定するような技術だと、それそのものがタスクになっちゃっているので、厳密にやっぱり到来方向をできるだけ推定しようとか、そういう技術が必要になってはくるのですが。

環境音の分析という意味でいうと、なんかあっちのほう、よくわからないけどあっちのほうから聞こえてきたら、たぶん台所のほうから聞こえてきたので、今料理しているんだなとか、あっちのほうから聞こえてきたからお皿がカチカチさせている音だなみたいな、ちょっと曖昧な、これまではあんまり使いようがなかったような空間を分析するような技術とかを組み合わせられるようになってきていて、やっぱりそういったところが今までやられていなくて、今後使えるようになるような技術なのかなとは思っています。ちょっとご回答になっているかどうかあれですが。

戸上:ありがとうございます。

音声合成の技術的課題

戸上:それでは、ちょっとそろそろ時間になってきたので最後の質問になりますが、音声合成の質問で、これそのものずばり、感情豊かな音声合成を実現するにあたって現状でどういう技術課題があるのかという観点、山本さんはいかがでしょうか?

山本:これはものすごく難しい質問だなと思って考えていたんですが、技術的にはそもそも感情とは何かということについて考えないといけないのが難しい点かなと思っていて。

例えばなにかしらバリエーションを生む音声合成は作れると思いますが、それが本当に人の感情に沿ったものになっているのかは判断しづらく、難しいと。もう少し技術的には、感情をどういう潜在変数でモデル化するかのが難しいといったことがあります。

あと、ちょっと話逸れちゃうかもしれませんが、そもそも感情のついたデータベースがすごく少なくって、それが研究分野全体での進展が遅いことに関連するのかなと思っています。ちょっと時間があまりないと思うので、このぐらいで終わらせていただきます。

戸上:ありがとうございます。最後にちょっと紹介なのですが、エンジニア・研究者・学生向けの音声のミートアップ「Tokyo BISH Bash」というのを今年作っています。こちらにも、ぜひみなさま参加していただければなと思っています。

ということで、あっという間に時間が過ぎてしまいましたが、パネリストのみなさま、本日はありがとうございました。井本先生、木田さん、山本さん、ありがとうございます。また、視聴者のみなさま、ありがとうございました。今後も音声技術のさらなる発展をご期待いただければと思います。ありがとうございます。

じゃあ最後は手を振って終わりたいと思います。ありがとうございます。