音声技術はますますおもしろくなってきている

戸上真人氏(以下、戸上):それでは「ここまで来た音声技術・今後の展望」というタイトルで、パネル形式のカジュアルセッションを開始しようと思います。司会を務めますLINE株式会社の戸上と申します。よろしくお願いいたします。

はじめに、このカジュアルセッションの概要をお伝えしたいと思います。今回の「LINE DEVELOPER DAY 2020」でも多数お伝えしていますが、End-to-Endの音声認識技術やEnd-to-Endの音声合成技術など、DNNベースの音声処理技術が非常に今ホットなトピックになってきてまして、使える段階に来ているんじゃないかなと思っています。

また、環境音識別技術など、これまでにない新しい技術分野も広がりつつありまして、ますますおもしろくなってきているんじゃないかなと私も感じています。

ということで、その音声処理技術を題材にして第一線で研究開発しているエンジニア・研究者にパネリストとして参加していただきまして、音声処理技術、ここまで来たんだということをちょっと感じていただきたいと思っていることと、さらにこれから技術面または応用面でどう発展していくのかの展望について、このセッションでカジュアルに議論できればなと思っています。

ということでさっそくパネリストを紹介しようと思います。お一人目は弊社のSpeechチームで、主にEnd-to-Endの音声認識のテックリードを務めています木田さんです。木田さん、よろしくお願いします。

木田祐介氏(以下、木田):よろしくお願いします。

戸上:2人目は同じく弊社のVoiceチーム、こちら音声合成のチームですね。DNNベースの音声合成技術の研究開発をリードしている山本さんです。山本さん、よろしくお願いします。

山本龍一氏(以下、山本):よろしくお願いします。

戸上:3人目はゲストパネリストとして、環境音識別の第一人者である同志社大学の准教授の井本先生をお招きしました。井本先生、よろしくお願いします。

井本桂右氏(以下、井本):よろしくお願いいたします。

戸上:ということで、それぞれ自己紹介してもらおうと思いますが、まずは私の自己紹介を最初にしようかなと思います。

私は、LINE株式会社のSpeechチームのマネージャーをしている戸上と申します。主な技術分野としては、さまざまな音が混じった雑音環境での認識率向上を目的にした音源分離技術の研究開発をしていまして、これちょっと宣伝なのですが、音源分離技術に関して先日『Pythonで学ぶ音源分離』という本を出版したので、ぜひ興味のある方は参照していただければと思います。

それでは、それぞれの方に自己紹介していただきます。木田さん、山本さん、井本先生の順番で自己紹介と各分野のトピックについてお話しください。それでは、木田さん、よろしくお願いします。

音声認識の最近のトピック

木田:LINEのSpeechチームという部に所属しています木田と申します。よろしくお願いします。私はこちらにあるとおり、東芝・ヤフーを経て、今年の5月にLINEに入社しました。東芝のころからずっとなのですが、今は音声認識をやっています。LINEでは、音声認識プロダクト開発のテックリードとして仕事をしています。

こちらに、音声認識の最近のトピックというか進展についていくつか例を挙げました。いくつかあるのですが、左上が精度についてです。今は静かな環境でマイクに近づいて話すような、ある程度理想的な環境だと、音声認識を使っても人間と同じぐらいの認識精度が得られると言われています。

あと左下ですね。音声認識は処理が重いので、一昔前まではクラウド上にあるサーバ上でしか大語彙の音声認識はできなかったのですが、今はスマートフォン上でも最新のモデルを使った認識がある程度可能になってきています。

あと右上ですね。これは人間というのは、同時にいろいろな人が話している状況でも、注目している人の、自分が話している人の声だけを識別して聞くことができますが、それと同じように、コンピューターでも複数の人が話している中で、狙った人の声だけを認識することもだんだんできるようになってきています。

最後右下は、まだ研究段階ではありますが、1つのマイクだけを使って多人数の会議の書き起こすといったことも、だんだんできるようになってきています。

このように、音声認識の応用が広がって、できることも増えた背景には、「End-to-End音声認識」と呼ばれる新しい技術の登場があります。左側にあるのが、従来の音声認識システムの構成でして、従来は「音響モデル」「言語モデル」「単語辞書」という3つのモジュールを組み合わせて認識していました。

一方、End-to-End音声認識は、こちらの図の右側の構成になるのですが、1つのニューラルネットワークだけで音声から文字を直接推定するようなフレームワークです。このようにEnd-to-End音声認識、非常にシンプルな構造なのですが、ニューラルネットワークへの依存度を高めることで、飛躍的に認識精度を高めることができています。

ただし、End-to-End音声認識を実用化するには、まだ解決しないといけない課題がいくつかあります。1つが従来の音声認識に比べて応答速度が遅くなってしまう点。もう1つが計算量が多くてGPUを使わないと速く認識できないという点。最後が特定の単語を認識させやすくするといったカスタマイズが難しい点です。LINEではこうしたEnd-to-End音声認識の実用化のために、研究開発に取り組んでいるところです。以上です。

戸上:木田さん、ありがとうございます。それでは、次に山本さんお願いします。

音声合成で今何ができるか

山本:LINEの山本です。よろしくお願いします。私は2018年にLINEに入社して以来、音声合成の研究開発に取り組んでいます。トピックとしては、本日メインセッションで発表しましたが、GPUを利用した高速かつ高品質な音声合成というのが主なテーマです。具体的にはニューラルボコーダやEnd-to-End音声合成といった開発に取り組んでいます。

では、音声合成において何ができるようになってきたのかというと、端的にいうと、非常に高品質な音声合成が可能になりました。その鍵となったのが、こちらの図にあるWaveNetですね。

WaveNetというのは、深い畳み込みニューラルネットワークによって成り立っていますが、自己回帰モデルに基づいて音声を1サンプルずつ生成します。この音声を1サンプルずつ生成していくというアプローチは、一見非効率にも思えますが、これが非常に高品質な音声合成を達成できるということで、当時話題になりました。

では、具体的にどのぐらい高品質かといいますと、こちらの図が主観評価の実験結果を表しています。一番左のParametricが従来の統計的音声合成の結果です。実はDeep Learning以前だと、機械学習による音声合成は品質があんまりよくないと言われていたのですが、その常識がWaveNetによって覆りました。

また、Seq2Seq(Sequence to Sequence)と呼ばれる機械学習のモデルを組み合わせることで、さらに品質を向上することができて、人間の音声とかなり近い品質を達成できるということがわかってきました。

このように、現在の音声合成技術は、合成音声が人間とほとんど区別がつかないところまで来ています。

じゃあやることがないのかと言われれば、そうではなくて、やるべき課題はたくさんあります。例えば先ほど紹介したWaveNetは、品質がいい一方で、速度が遅いという問題があります。うちのグループでも実用化に向けて研究を進めていますが、品質を保持しながらいかに高速で効率のよいライトウェイトな音声合成を実現できるかは、1つ重要な研究のトピックです。

また、ニュースの読み上げ音声のようなものではなく、感情豊かな音声を合成したり、感情や発話スタイルをコントロールするという、そういう技術もまだまだ発展途上で、これから重要になっていくと考えています。

また「Low-resource」というキーワードも非常に大事だと考えていて、データがたくさんあれば機械学習でうまくいくというのはよく知られていますが、そうじゃあない場合にはどうすればいいのかと。こういった少ないデータをいかに活用するかが、今後重要性が増すと考えています。例えばスマートフォンで、ほんの数文章を収録するだけで、自分の高品質な声を作ることができる。そういう未来も近い将来来るのではないかと考えています。

簡単な紹介になりましたが、私からは以上です。

戸上:山本さん、ありがとうございます。それでは引き続きまして、井本先生、よろしくお願いします。

環境音の分析

井本:はい。同志社大学の井本と申します。私がやっている研究内容は、環境音を識別・分析すること。特に最近流行っている機械学習や深層学習を使って環境音を分析する研究をやっていたり、あとはそれに関わってマイクロホンアレイ処理をやったり。あと、最近は分析するだけじゃなくて、機械学習を使って環境音を作り出すような研究をやっています。

環境音の分析は比較的新しい技術なので、「それ何だろう?」という人もいるかもしれないので、定義のようなものだけ簡単に説明します。環境音分析というのは、人の声とか音楽に限らない、あらゆる音から有益な情報を取り出そうという研究で、それらをまとめて環境音の分析と呼んでいます。まだ新しい技術なので、実用化されている応用例はそこまで多くはないですが、いろいろなところに応用できる技術かなと考えています。

例えば窓ガラスが割れるような音を検出してセキュリティに使ったりとか、あとは乳幼児が泣いている声を分析して、ホームモニタリング、見守りのようなものを実現したり、あとは自動運転とかですね。動物をモニタリングするとか。また動画に自動的にタグをつけるとか、ライフログを自動的に作るとか、こういったさまざまな分野に活かせる技術ではないかなと考えています。

まだ新しい技術ですので、課題もすごくたくさんあります。ここでは2つ挙げていますが、1つは、これは機械学習とか深層学習を使う技術全般的な問題ですが、データをとにかくたくさん集めないといけないという課題があります。

特にこの環境音の分析の場合、何が問題になるかというと、いろいろな音が重なって聞こえてきたりとか、あとは遠くのほうで鳴っている音があったりするので、このデータを準備するときに「どの音がいつからいつまで鳴りましたよ」というラベルが必要になってきて、これをつけるのが非常に大変な作業だということが知られています。

なので、この「いつからいつまで」というラベルをもういいやと言って、例えば「この音にはガラスが割れる音が入っているんだよ」という、そういうちょっと曖昧なラベルを弱ラベルと言いますが、そういったものを使って環境音の識別・分析をする研究を最近盛んに行っています。

あと環境音は、あらゆる情報が含まれているわけではないので、いろいろなものと組み合わせることが非常に重要になっていて。

例えば空間の情報。マイクロホンアレイ処理のようなものと組み合わせて、空間の情報を使う。ガラスが割れる音が聞こえてくる場合でも、テレビのほうから聞こえてくる音と窓のほうから聞こえてくるガラスの割れる音はかなり意味が違うので、こういったものを区別して、本当に必要な音を分析したいという思いから、こういう研究が最近盛んに行われています。

以上です。

戸上:みなさん、自己紹介ありがとうございました。各分野でこんなことができるようになってきたんだというイメージが、おそらく視聴者にも湧いたんじゃないかと思っています。

ということで、これからパネリストといろいろな議論をしていきたいなと思っています。これから私からトピックをいくつか紹介してから議論したいと思いますが、その間に、セッションに参加のみなさまは、パネリストへの質問を、個別でもいいですし全体でもいいのでぜひ考えていただいて、投稿いただければと思っています。ただ、すべての質問を拾えるわけではない点に関しては、ご了承ください。

ということで、私から用意している3つの質問に関して、まず議論していきたいなと思います。まずは最初のトピックにいきたいと思います。

音声技術が発展した背景

戸上:今もみなさん、いろいろ語ってもらった中にもありましたが、音声処理技術が進展してきた背景の中に、やはりDNNの進歩の影響が大きくあるのかなと思っています。一方で、やっぱり汎用のDNNの進歩だけが音声処理技術の進化に貢献してきたというのも、ちょっと偏っているかなという気もしています。やはり、音声処理特有の難しさ・課題があって、それを解くことで技術が進化してきたと。それとDNNが合わさるという、そういう側面が大きいんじゃないのかなと思っています。

ということで、ちょっとここでは、音声処理の技術開発に興味をもってくれる人、「音声ってこういうふうな課題を解いているんだ」と音声の特有の課題に関して興味をもってくれる人を増やしたり、または異分野のエンジニアの人で「音声でこういう技術が開発されているんだ」といったことに興味をもってくれる人、そういった人が増えたらいいなとちょっと思っていて、音声処理特有の難しさとか課題、その解法について、ちょっと掘り下げて議論できればなと思っています。

ということで、パネリストの方にちょっと聞いていきたんのですが、井本先生、そういった観点でいかがでしょうか?

井本:我々の環境音識別は、明らかにDNNとともに発展してきたので、コアになる技術の1つではあります。しかし、先ほどやっぱり申し上げたとおり、環境音はすごくたくさんの種類があって、これを全部DNNで学習しようとすると、ものすごく大量のデータが必要になってきて、これはまだ残念ながら現状の技術ではなかなか実現できません。なので、やはり自分が何をしたいかが大事で、そこに応じたなにか事前の知識やドメイン知識であったり、そういったものを使うのが、まだまだ有効なのかなと思っています。

例えば、私の話で恐縮ですが、私の場合、音がどういうシチュエーションで発生するかに基づいたDNNをいくつか考えています。例えば外にいるのに包丁で何かを切るような音が聞こえてくるとか。これは明らかに変な状況ですので、そういった学習が起こらないようにすることで、できるだけ少ないデータ、今手元にあるデータでもうまく環境音の識別ができるような技術を考えたりしています。

戸上:なるほど、ありがとうございます。まさにシーンとイベントを階層関係で見るようなイメージかなと思うのですが、非常に音ならではの知識を利用して、というイメージですよね。 それでは木田さん、いかがでしょう? 音声認識という立場で考えて。

木田:井本先生の今のお話にもありましたが、ドメインというのがけっこう音声認識にとっても重要になってきていて。我々が日常で会話するときにも、会社で話すような話と家でするような話って、かなり言葉の単語の処理とかも全然違うので、それと同じことを機械にやらせようとすると、かなり大変で。

今のDNNをもってしても、やっぱりある特定のドメインに対しては強いが、ほかのドメインに対しては弱いというようなことがあるので、なかなか汎用的なものを使うのが難しい。なので、そういったデータに、どのような特定のデータを与えてよくするかみたいなところが、重要になってきていると思いますね。

戸上:データをどう選ぶかとか、実はそこらへんがすごく肝だよということですよね。

木田:そうですね。

戸上:ありがとうございます。

後半につづく)