AiCallの概要

細谷研氏(以下、細谷):本日はLINE AiCallの概要を事例と合わせて紹介します。そして、それを支える音声認識、音声合成のシステムについても紹介いたします。

私はAIカンパニーで音声、自然言語系のプロダクト企画を担当している細谷と申します。LINE CLOVAのプラットフォーム企画担当としてLINEに入社し、その後サードパーティのデバイスへのLINE CLOVA搭載などを推進してきました。2020年からは、現在のLINE AiCallのプロダクト企画を担当しています。

まずはLINE AiCallの概要について紹介いたします。LINE AiCallは「CLOVA Speech」という音声認識と「CLOVA Voice」という音声合成、それから会話制御のAI技術を組み合わせ、人と会話をするような質疑応答を実現するソリューションです。電話応対をAI化するデジタルと、アナログの垣根を超えるための技術であり、コンタクトセンターや店舗の電話対応業務をAI技術で効率化することを目指しています。

まずはじめに、ヤマト運輸さまの事例を紹介します。ヤマト運輸さまでは、お客さまからの集荷依頼をこのLINE AiCallを使って対応をしています。一方、AIでは対応できないものについては、有人のオペレーターに転送し、お客さまの利用シーンに合わせてAIによる対応と有人対応とを組み合わせることで、最適なコミュニケーション体験を提供しています。

続いて紹介するのはエビソルさま、そしてカーフロンティアさまとの取り組みです。どちらも予約業務になりますが、エビソルさまは飲食店にかかってくる予約電話にLINE AiCallが応対し、それを聞き取った内容と飲食店向けの予約管理システム「ebica」の空席データをリアルタイムで参照することで、予約登録まで自動化するサービスです。

お店の負担を軽減しながら、電話予約をデジタル化した音声AIサービスになります。お客さまは、お店に電話をかけて「何日、何時に、何名で予約したい」と伝えるだけで、そのあとは、まるで人と会話をしているような自然な音声が特徴のAIスタッフの質問に答えるだけで、簡単に予約が完了します。

一方のカーフロンティアさまですが、こちらも店舗にかかってくる予約電話にLINE AiCallが応対し、予約管理システムである「timy」の予約空き状況を判断し、自動的に予約台帳へ予約登録します。人手の少ない夜間や繁忙期など、ユーザーがこれまで感じていた電話がつながらない、待ち時間が長いなどといった負の部分を解消し、閉店時間中や作業・接客中で電話対応できないことから生じる、店舗側の予約獲得機会損失を防げます。

以上、導入事例をいくつか紹介しましたが、まだまだ世の中には電話業務が残っています。事例以外でも、LINE AiCallを活用できるシーンが多くあると考えています。ここにいくつかの例を挙げていますが、すでにコンタクトセンターではAI活用が一般化しつつあり、人手不足や新型コロナウイルスの感染拡大を背景としたコスト削減、効率化。こういったものは、より重要性を増しています。

一方でコスト削減を進めるために、顧客体験を悪化してしまうことは避けなければいけません。お客さまの傾向や、実際にお客さまとどのようなコミュニケーションが起こっているのかを的確に判断し、反映したAIの活用が求められているのではないでしょうか。

AiCallのシステム

続いてLINE AiCallのシステムについて簡単に紹介します。まず、LINE AiCallのシステム概要を紹介する前に、LINE AiCallの連携イメージをご覧ください。LINE AiCallでは、コンタクトセンターのPBXやLINE電話を始めとした各種電話サービスとの接続はもちろん、CRMや他社APIと連携が可能になっています。こういった連携をもとに、登録情報を確認しながらの障害対応や、各種手続きの受け付けをAIで対応可能となっています。

こちらがLINE AiCallのシステム概念図です。左側にあるユーザーから、電話網を通じてAiCallを利用する。そういった構成になっています。LINE AiCallでは、SIPサーバーを経由して、まずユーザーの音声を音声認識サーバーで認識、テキスト化し、そのテキスト化された音声をもとに、会話制御サーバーで会話を組み立てていきます。

組み立てられた会話を基に、ユーザーに対してはTTSサーバーで音声を合成し、音声を返すことで会話を組み立てていきます。この処理を繰り返すことで、一連のシナリオが完成いたします。

以上、LINE AiCallの概要、それからシステム構成の紹介でした。続いて木田さん、お願いします。

AiCallの音声認識技術の仕組み

木田祐介氏(以下、木田):私は、AIカンパニーで音声認識技術の研究開発を担当している木田と申します。これまで、電機メーカーやAI企業で、音声信号処理や音声認識といった音声に関する技術に幅広く携わってきました。私からははじめにLINE AiCallを支える音声認識技術についてお話しいたします。

まずは、私たちがLINE AiCallで構築した音声認識技術の仕組みを紹介します。音声認識とは人が話した言葉をテキストに変換する技術です。音声を認識するためには、主に音響モデルと言語モデルという2つのモデルを利用します。音響モデルは短く区切った音声信号を入力すると、そこにどんな音が含まれているかを予測するAIです。

このモデルは、大量の音声信号と書き起こしテキストを使って学習します。一方言語モデルは、日本語の言葉のつながりやすさを表した統計モデルで、大量のテキストコーパスを使って学習します。このように音声認識をうまく行うためには、音響モデルと言語モデル、この2つをいかにうまく学習するかが重要となります。

次に、LINE AiCallにおける音声認識の難しさについてお話しします。1つ目は、まさに音響環境の多様性です。LINE AiCallは電話という万人が使うプラットフォームの上にありますので、幅広い年代、性別の方が利用されます。中には、インターネットや音声インターフェイスに不慣れなユーザーさんもいます。また、デバイスや通信環境、雑音といった使用環境は、ユーザーによって都度異なります。そのため、これらの多様性を考慮して、さまざまな音声データを使って、先ほど説明した音響モデルを学習しておく必要があります。

2つ目は発話内容の多様性です。AIが人に代わってタスクを進めるためには、タスクに関する情報を十分にAIに与えておく必要があります。例えばユーザーに住所を尋ねる際は、全国にある無数の地名の中から、ユーザーが発話した住所を一意に特定する必要があり、これは人間であっても、非常に難しいタスクです。これを可能にするため、私たちは先ほど説明した言語モデルを緻密に設計・運用をしています。

最後の1つは、認識誤りが起きた時にユーザビリティに与える影響の大きさです。LINE AiCallの音声認識は、スマートフォンのように結果が目に見えるわけではないので、誤認識が起きた際にも、音声でのやり取りを継続しながら、タスクを前に進める必要があります。

そのため、誤認識が起きた際には、ユーザーに大きな負担を強いることになります。もちろん、誤認識を完全に排除することは不可能ですが、私たちは日々精度の向上に取り組んでいます。

ここで、音声認識の精度を継続的に向上するための取り組みを紹介します。こちらの図が、私たちが構築したデータのエコシステムです。日々プロダクトを通じて収集される音声データは、事前にユーザーの同意を得た上でログサーバーに保存されます。そして専任のスタッフがセキュアな環境から音声を書き起こし、誤認識に対しては、リンギストとエンジニアが共同で原因を分析します。

その結果を受けて、音響モデルや言語モデルがアップデートされます。こうしたフィードバックループが繰り返されることで、音声認識精度が継続的に向上されます。

次世代型音声認識エンジン「NEST」

続いて私たちが開発している次世代型の音声認識エンジン「NEST」についてお話しします。2021年現在、音声認識の分野では、End-to-End音声認識と呼ばれる新たな技術を世界中の企業が競って開発しています。End-to-End音声認識は、これまでプロダクトに使われてきた音声認識とは明確に異なる技術です。

こちらが、End-to-End音声認識の仕組みを表した模式図です。先ほどは音響モデルと言語モデルという2つのモジュールを使っていましたが、ここではEnd-to-Endモデルという単一のモデルのみを利用します。このモデルの正体は、巨大なニューラルネットワーク、つまりAIのモデルです。このニューラルネットワークは、音声信号を受け取るとモデルから文字列を直接出力できます。

これまでの音声認識では、複数のモジュールに対してそれぞれの専門家がチューニングを行ってきましたが、End-to-End音声認識ではこのニューラルネットワークの学習さえできれば、音声認識を行えます。End-to-End音声認識のメリットは、そのシンプルな構造だけではありません。こちらのグラフは、日本語のデータに対する音声認識の誤り率であり、値が小さいほど良い結果を表しています。

この図から、End-to-End音声認識によって、従来の音声認識の誤りが半分ほどに抑えられたことがわかります。また、先ほどもお伝えしたように、現在End-to-End音声認識の研究は世界中で活発に行われており、この数字は年々下がり続けています。このことからも、End-to-End音声認識の有望性を理解していただけるのではないかと思います。

LINEはNAVERと共同で、このEnd-to-End音声認識システムを開発しています。それが、こちらの「NEST」です。私たちはNESTを使って、人間同士の話言葉を正確に認識することで、新たな価値を生み出せるのではないかと考えています。

それでは、NESTの簡単なデモをご覧ください。映像の音声に対してそのまま認識させた場合と、BGMを後から重ねて認識させた場合の、2つのパターンが再生されます。それではご覧ください。

木田:いかがでしょうか。BGMがない場合には、高い精度で音声が認識できていることがわかります。また、今回はあえてBGMを大きく重ねたので、誤認識してしまっているところもありますが、実際の利用シーンでは、より高い精度が期待できます。

Keynoteでも紹介した「CLOVA Note」は、私たちがNESTを使って生み出した最初のプロダクトです。リリースまで、もうしばらくお待ちいただければと思います。現在進行している技術開発の成果を、今後も次々と追加していく予定です。

最後に、LINEが今後NESTを使って目指す新たな体験の一例を紹介します。例えば、LINE AiCall。現在のLINE AiCallは、予約業務に必要な日付や名前などの認識は得意ですが、いわゆる自由記述のような長い文章の認識には不向きでした。しかしNESTを使うことで、例えばサービスの解約理由をユーザーに尋ね、認識したテキストを解析して解約理由を分類し、その理由によってはオペレーターが別のプランをお勧めすることが可能になります。

また、LINEはLINE DEVELOPER DAY 2020で発表した「R&D Vision」で、新しい教育サービスのビジョンを紹介しました。NESTは、外国語教育にも役立つと考えています。日本人英語を集めて学習したNESTのモデルを利用して、オンラインレッスンの音声を認識、解析することで、ユーザーに有益なフィードバックを与えられると考えています。

さらに日本の動画コンテンツの視聴に対して、海外で高いニーズがあります。そこでライブ配信の音声を認識して翻訳、さらに本人の音声で合成することで、あたかも日本人のコンテンツ配信者が、ユーザーごとの国の言語で話しているような体験を生み出せるかもしれません。

以上私からは、音声認識のパートについてお話ししました。それでは、続いて橘さんよろしくお願いします。

LINE AiCallを支える音声合成

橘健太郎氏(以下、橘):AI開発室でテキスト音声合成の研究開発と、Voiceチームのマネージャーを務めています、橘と申します。私は2008年に東芝に入社いたしまして、テキスト音声合成の研究開発をしていました。その後DeNAに移り、音声から音声に変換する「音声変換」という技術の開発を行っていました。その後、2020年8月にLINEに移りまして、現在は先ほどのとおり、マネージャーを務めています。

私からは、LINE AiCallを支える音声合成、それと感情を制御する音声合成についてお話したいと思います。まず、LINE AiCallを支える音声合成についてですが、その前に音声合成の仕組みを紹介したいと思います。音声合成ですが、テキストから音声に変換する技術のことを指します。入力されたテキストに対して、適切な音声波形を生成するといった技術です。

この音声合成ですが、主に3つのモジュールから構成されています。まず、テキストからそのテキストに合った読みや、イントネーションを示すアクセントといった情報を抽出する「テキスト解析部」。そして、その抽出された読みとイントネーションの情報から音声の特徴量である音響特徴量を生成する「音響モデル」。さらに、この音響特徴量から最後に音声波形を直接生成する「ボコーダー」。この3つのモジュールから構成されます。

LINEでは、この3つのモジュールすべてを内製していまして、自由度高く柔軟に、パラメーターの調整であったり、個々のユースケースに合わせたかたちで提供可能となっています。

LINE AiCallにおける音声合成の位置づけですが、ユーザーの発話内容を音声認識した後、そこから適切に生成された応答文、この応答文を音声にして出力すると、最後のモジュールとなっています。このAiCallで提供されている音声合成では、話者、話速、音量、声の高さ、声の太さといったことが調整可能になっています。

こうすることによって、例えば「その緊急性を高めたい」という意味で話速を速くしたいだったり、「聞き取りやすい」ということで声の太さや高さを変えたり、または「ちょっと話速を遅くしてほしい」といったさまざまなケースにおいて、対応可能となっています。

音声合成をLINE AiCall上で運営する上での工夫点

次に、この音声合成をLINE AiCall上で運営する上での工夫点について、述べたいと思います。工夫点は主に3つ挙げられます。まず1つ目は、音声合成の応答速度の高速化です。音声合成は今回LINE AiCallで使う場合、定型文が多いことが想定されました。そこで、文章が入ってきた際に音声波形を返しますが、それをキャッシュのデータベースにも、このように保存しておきます。

そしてまた、このように「ありがとうございます」という同じ文章を来た場合に、このキャッシュしているデータベースから音を取り出して、それを返すことをしています。こうすることによって、生成するフローを省けるため、高速に応答を返せます。

2点目は、入力テキストの調整を行っています。例えば例を挙げると、「1日、イベントが開催される」という文章が入力されます。これは1日中という意味の1日とも取れますし、日次での“ついたち”という意味での1日という意味でも取れます。こういった場合は、ユーザーが望むようなかたちの応答文で、この場合ですと「ついたち、イベントが開催される」というかたちで、このかな漢字交じりの文章をかな文字に変換してテキストを修正するようなことを行っています。

そして最後に、特別な用途で使われるような用語、つまりは専門用語であったり地名に関しては事前に辞書に登録しておくということを行っています。こうすることによって、読みの誤りを防止できます。例を出すと、私たちが使っているAiCall、これをアイコールと読むこともできるので、これを「エーアイコール」というかたちで読みを登録しています。

また「ヤマダマチ」「ヤマダチョー」というように、同じ「山田町」という漢字に対しても地名によって読みが異なりますので、これも適切なかたちで、読みを事前に登録しておくというようなことをしています。これら3つの工夫を行うことによって、レスポンス早く、かつ品質の高い音声合成を生成することが可能になります。

感情強度を制御できる音声合成

それでは次に、現在私たちが取り組んでいます、感情強度を制御できる音声合成について紹介します。この感情を制御できる音声合成は、真ん中の音響モデルというモジュールに工夫を加えています。まず、テキストにあった感情を込めた音声を用意します。そのうち、この感情の音声に対してどれぐらいの強度があるかというのを予測する「感情強度予測モジュール」に通して、そこで出てきた感情の強度、例えばこの例だと明るさが0〜1段階のうちの「0.5」と予測されたとします。

この情報と、あとは音素とアクセント情報を結合することによって、音響特徴量を生成します。その後、このボコーダーを通すことによって、感情を込めた音声を生成できるように、モジュールを構築します。

そして、実際に音声を作る場合は、このようなかたちで明るさや暗さといった感情の強度を指定して、その情報とアクセント、音素の情報を加えることによって、感情を込めた音声が出力可能になります。

それでは実際にサンプル音声をお聞かせいたします。まずは感情のついていない音声を再生します。

感情なしのサンプル音声:「本日はありがとうございました」。

:このように感情がなく平坦な読みになっていますが、ここに対してどんどん明るい情報を付与していきます。

感情ありのサンプル音声1:「本日はありがとうございました」。

感情ありのサンプル音声2:「本日はありがとうございました」。

感情ありのサンプル音声3:「本日はありがとうございました」。

:このように、だんだん明るくなっていったことが確認できると思います。今度は逆に暗い感情を付与します。

暗い感情のサンプル音声:「本日はありがとうございました」。

:暗さに関してはまだ開発段階であるため、1段階しかありませんが、これは今後段階的に変化できるよう技術開発を進めていきたいと考えています。

最後に音声合成と、私たちのチームの展望について紹介したいと思います。現在取り組んでいる強度付きの感情音声合成、これは音声対応に適用できると考えています。そうすることによって、よりリアルな音声対話の演出が可能になると考えています。例えばの例で説明すると、ユーザーが「ねー、聞いてー」と入力した際に、AIでは。

AI音声:「どうしたの?」。

:と、返答します。それに対して、ユーザーが「学校で褒められた!」と入力。

AI音声:「それは本当によかったね!」。

:ユーザーが「今日はいい夢見れそう」と入力。

AI音声:「早く寝てね」。

:こういったかたちで、ユーザーの応答に対して感情をうまく制御することによって、かなりリアルな音声の対話に近づくと考えています。私のパートは以上です。

LINE AiCall Consoleを公開

細谷:木田さん、橘さん、ありがとうございました。お二人から紹介があったように、LINE AiCallでは顧客層や利用シーンに合わせて、さまざまな工夫をしています。シナリオの表現や会話のタイミングなど、事前に細やかなチューニングを行います。導入前だけではなく、LINE AiCall導入後もユーザーの発話内容を分析し、学習結果をモデルに反映し、学習を続ければ、精度の継続的な向上につながっていきます。このチューニングは、自社開発技術を使用しているからこそで、それがLINE AiCallの1つの特徴となっています。

最後に、本日ご紹介したLINE AiCallを、今後パートナーを通じて公開していきます。LINE AiCall Consoleでは、LINE AiCallに必要なコンポーネントの管理、通話ログの紹介および分析、その他テレフォニー環境構築に必要な機能が搭載されています。

音声認識、音声合成エンジン、これらの設定パラメーターも用意しています。人間同士のコミュニケーションを、より豊かにするためにサポートするAIを目指す私たちの技術の一端に触れられるものになっていると思います。

最後、LINEが音声AIで目指すこれからの当たり前について、紹介したいと思います。LINE AiCallでは、生活やビジネスに潜む煩わしさを解消させ、社会機能や生活の質を向上し、より便利で豊かな世界を目指していきたいと考えています。自然なかたちで、生活やビジネスに溶け込み、無意識下でLINE AiCallを使うような、そういった世界を実現したいと考えています。