音声認識や音声信号処理の研究の道を歩んできた木田祐介氏

木田祐介氏:私からは、AIのコースについて説明しようと思います。よろしくお願いします。

最初に自己紹介をいたします。木田と申します。AIカンパニーの中にあるAI開発室のさらに中にある、音声認識技術の研究開発をしているSpeechチームのマネージャーをしています。

経歴としては、音声認識や音声信号処理の研究の道をずっと歩んできました。東芝の研究所に10年ほどいた後、ヤフーに移って、当時は音声認識って車載用でメインに使われていたので、ぜんぜん精度もよくなかった時代から車載用の組み込み型音声認識をやっていました。2020年にLINEに移り、今はマネージャーとして音声認識技術全般の開発リードを担当しています。

コミュニケーション向けの技術を開発するためにAIをスタート

今日、私からはAI開発室の紹介をしようと思います。AIカンパニーというところですが、LINEという会社の中の1つのカンパニーになっています。LINEはカンパニー制を取っており、会社の中にいくつもの小さな会社があるようなイメージなのですが、その中の1つがこちらのAIカンパニーです。

LINEの中のカンパニーは、例えばエンタメだったら「マンガとか音楽とかをやってそうだな」とか、ECだったら「そのまんまEコマースやってそうだな」とか、だいたいやってることの想像がつくことが多いのですが、「LINEでAIって何をやっているの?」みたいに思う方がけっこう多いんじゃないかなと思います。というわけで、どうしてLINEがAIをやっているの? というところからちょっとお話ししようかなと思います。

先ほどのセッションでもしかしたら説明があったかもしれませんが、(スライドを示して)こちらがLINEが誕生してからのヒストリーです。LINEアプリは2011年の東日本大震災がきっかけで誕生したアプリです。

コミュニケーションアプリということで、人と人とのコミュニケーションを支援するようなことをずっとやってきたわけですね。2012年以降にディープラーニングの波がグワッと来て、AI技術はすごく使える技術だというのが徐々に世の中に浸透していきました。

そうすると、これまでLINEが手がけてきたコミュニケーション領域においても、これまでそう技術でできなかったこと、人と人とのコミュニケーション上で解決できなかったさまざま課題がAIの技術を使っていろいろ解決できそうだぞというのがわかってきました。そこをやっていこうと、LINEはAIをやり始めました。

そういういきさつもあるので、LINEという会社の持つAI技術の特徴としては、音声とか言語とかの領域がけっこう多いんですね。やはり、LINEがコミュニケーション向けの技術を開発しようとAIをスタートしたというのが、種になっているのかなと思います。

AIテクノロジーブランド「LINE CLOVA」をもとにソリューションを展開

(スライドを示して)ここに書いてある「LINE CLOVA」というのが、私たちのAI技術のテクノロジーブランドの総称として今使っているのですが、少し昔のことをご存じの方にとっては、LINE CLOVAは、スマートスピーカーのイメージですよね。LINEが開発したスマートスピーカーの名前だったのですが、今はその名前の位置付けを変えて、この全部大文字のCLOVAというのをAIテクノロジーブランドの総称として使っています。

その下に音声、言語を始め、さまざまなAIの技術や、それらを組み合わせたソリューションを展開しています。

先ほどお話ししたとおり、私たちはこのLINE CLOVAをスマートスピーカーとして5年前の2017年10月から始めて、そこからさまざまなサービスを展開してきました。

こちらのスマートスピーカーは、つい先日アナウンスしたのですが、残念ながら2023年3月にサービスを終了することになったのですが、実はGoogleやAmazonに先駆けて日本で一番早く出したスマートスピーカーで、音声対話というところでこのプロダクトをリリースしたことがすごく大きな知見になりましたし、データを集めるという意味でも、すごく重要なことだったかなと思っています。ここで集めたさまざまな知見が、その後のサービスづくりにも活かされたのかな、と思っています。

その後もいろいろなサービスを出しているのですが、私たちがこういうサービスを出すことで何をやろうとしているかというと、「ひとにやさしいAI」を作ろうと(思っています)。それが、生活やビジネスに潜むわずらわしさを解消するという、これからの当たり前を作っていこうという気持ちで、私たちAIカンパニーは日々活動をしています。

ビジネスの内容としては、最初はBtoCのスマートスピーカーを出していたのですが、2019年以降に方向を変えて、BtoB向けのソリューションビジネスに向けて、いろいろなサービスを展開しています。

自然言語処理・音声合成などの技術を使ったボイスボット「LINE AiCall」

以上、少し長かったのですが、以上が前置きになりまして、ここから、私たちが作ったプロダクトやサービスのいくつか紹介して、その後その背後にある技術、私たちが持っている技術や開発している技術がどうすごいのかというお話をして、最後にAI開発室の中の働き方という3つのアジェンダをお話ししようかなと思います。

ではまず、プロダクトサービスです。主に音声認識や音声合成に関係するところで、「LINE AiCall」というサービスがあります。これはいわゆるボイスボットという技術です。

みなさんレストランの予約をしたり、家電が壊れた時にメーカーのコールセンターに電話したりすると思うんですね。実は、そこでのやり取りはけっこう定型的なものが多いです。

例えばレストランの予約だと、人数が何人かとか、予約の日時は何日かとか、電話番号は? とか、そういう定型的なやり取りが多いですね。店員さんやコールセンターの方がそういう定型的な業務にすごく忙殺されてしまうというのがあるので、AIの力を使ってそれを代わりにやらせる。そういうサービスを提供しています。

私たちが持っている音声認識の技術であるとか、チャットボットの自然言語処理であるとか、音声合成であるとか、そういった技術を使ってこのようなサービスを提供しています。

実はみなさんの身の回りにもじわじわとこのサービスは浸透しています。例えばヤマト運輸ですね。今まで、ヤマト運輸さんの集荷受付は営業所に電話をかけていたのですが、今は電話かけると、実は私たちのLINE AiCallにつながるんですね。このようなかたちで、世の中に貢献しています。

文字のにじみなどハードな条件下でも文字認識ができる「CLOVA OCR」

あとはLINEのeKYCですね。これは画像認識技術を使った本人認証です。経験のある方もけっこう多いと思いますが、例えば「LINE Pay」とかで本人認証する時に「カメラを起動して笑ってください」とかあると思いますが、そこで他人の写真を使うと笑ったりができないんですよね。という感じで、本人認証に使ったりする技術を開発しています。

また、同じく画像処理技術ではありますが、文字認識の「CLOVA OCR」というサービスも提供しています。OCRはけっこう古くからある技術で、もう枯れた、解決された技術だと思われがちですが、実はそんなことはありません。

例えば文字が濡れてしまってにじんでいるとか、紙が折れてしまっているとか、ハードな条件になると、これまでの技術ではうまくいかなかったのですが、やはりディープラーニングの技術が進化していくことによって、そこがすごく解決されているというのが背景にあります。

このOCRに私たちはすごく力を入れていて、その技術が他社にも導入されていたり、あるいは、あまりこれは知られていないのですが、LINEのトークルームの中で画像を撮ると、そこで文字認識が利用できるんですね。こういったところでも使われています。

あと、OCRでけっこう大きなニュースとしては、国会図書館のデジタルアーカイブプロジェクトというのがあります。これは、国会図書館の247万点の、2億ページ以上のコンテンツをアーカイブ化するという、すごく大きなプロジェクトで、このプロジェクトでLINEのCLOVA OCRが採用され、なんとか納品まで至ったということが最近ありました。

ライター界隈で話題になっている文字起こしアプリ「CLOVA Note」

次々に紹介しますが、(スライドを示して)こちらは私たちが最近出したスマホアプリの「CLOVA Note」です。これは、技術としては本当に単純で、文字起こしですね。音声をマイクで入力すると、それを文字起こしするだけのものではあるのですが、すごく精度が高いというのが特徴です。これにも最先端のEnd-to-End音声認識技術を使っています。

文字起こしの技術なので、会議での議事録とか、あるいはライターさんがインタビューする時に取材メモを取るなど、そういった使い方がされているんですね。

特にライターさん界隈のTwitterで今このアプリがけっこう話題になっています。今までも音声認識のアプリはいろいろあったのですが、やはり精度的にイマイチで自分で書き起こしたほうが早いという人が多かったのですが、CLOVA Noteがリリースされてから、仕事のやり方が劇的に変わったと。

「私たちが書き起こさなくても、もうこれを使ってだいたいできるから、それをちょっと手直しするだけで大丈夫」というふうにご好評いただいております。これは今無料でダウンロードできるので、興味のある方はぜひ1度使ってみてもらえればうれしいです。

あとは音声合成のデモ映像があるので、少しご覧ください。

というわけで、すごく高品質な音声合成技術も私たちは開発しています。

技術と設備に対して投資を惜しまないのが特徴

では、次に技術についてお話ししようと思います。先ほど、みなさんはLINEにあまりAIというイメージがないんじゃないかというお話をしました。LINEは技術開発をしているイメージをされている方が多いかなと思うのですが、私たちは、本当に積極的にR&Dをやっているというところが特徴なのかなと思っています。技術と設備に対して積極的に投資をしているというのも、私たちの大きなメリットかなと思っています。

その一環として、韓国のNAVERと一緒ではありますが、すごく巨大なコンピューティングリソースを使っていたり、そういうコンピューティングリソースへの投資も惜しんでいないというのが特徴です。

また、コンピューティングリソースだけあってもダメで、それを使いこなして成果を出せる人、人材をやはり集めないと成果はもちろん生まれないわけですね。私たちは、優秀なリサーチャーやエンジニアをたくさん抱えており、彼らは各分野での最高峰の国際会議で論文を投稿するという活動をしており、実際に採択されています。

ここに挙がっているのは、ここ2年以内で出した主要な国際会議での採択実績ですね。2020年のものもあります。ご覧のとおり、世界のトップカンファレンスにいろいろ論文が採択されています。

音声合成へ感情を付加するところに力を入れている

少し分野ごとに主要な成果を紹介しようと思います。まず音声認識分野では、私たちはEnd-to-End音声認識の技術にすごく力を入れています。日本語の音声認識に標準的にCSJというベンチマークセットが使われているのですが、そちらで世界ナンバーワンの精度を現在進行形で達成しています。

(スライドを示して)この数字が音声認識の誤り率です。低ければ低いほどいいのですが、今のところ世界で一番エラーレートが低い状態になっています。

あと音声合成分野ですね。音声合成の分野だと、私たちは感情を付加するというところにすごく力を入れています。非常に感情豊かな音声合成を実現して、いろいろなサービスに適応しようとしています。ちょっと音声のサンプルを聞いていただきます。

こちらは、真ん中がニュートラルな音声ですね。

合成音声:もうすぐバレンタイン。甘いものが苦手な彼でも食べられるスイーツを作ってあげたいけれど、難しいものは作れない。

木田:こういう感じなのですが、一番悲しみを表す声にすると……。

合成音声:もうすぐバレンタイン。甘いものが苦手な彼でも食べられるスイーツを作ってあげたいけれど、難しいものは作れない。

木田:こんな感じですね。もうちょっと悲しいほうから喜びのほうに声を戻すととこんな感じです。

合成音声:もうすぐバレンタイン。甘いものが苦手な彼でも食べられるスイーツを作ってあげたいけれど、難しいものは作れない。

木田:はい、では喜びの最大にいってみましょう。

合成音声:もうすぐバレンタイン! 甘いものが苦手な彼でも食べられるスイーツを作ってあげたいけれど、難しいものは作れない!

日本語に特化した超巨大な言語モデル「HyperCLOVA」

あとは、LINEはNLPの領域でもけっこうプレゼンスを示しています。こちらは、「HyperCLOVA」という日本語に特化した超巨大な言語モデルですね。こちらを作っています。超巨大言語モデルは、オープンAIのGPT-3とか、GoogleのPaLMとか、いろいろ出ていますが、私たちもそこに負けないように、GAFAと本当に全言語で戦うということはさすがにちょっとできないのですが、日本語では決して負けないようにしようというところで、今がんばっています。

この超巨大言語モデルについては、みなさんこの業界にいらっしゃる方(だと思うので)、あらためて説明をする必要はないと思うのですが、生成系のAIでこの技術を使うと対話、翻訳、要約、メール文作成など、いろいろなことをやらせることができるんですね。

この右のデモがけっこうおもしろいもので、AIにそのキャラになりきってしゃべらせることができるんですね。(スライドを示して)左側にいろいろあるのですが、ここの人を選んでしゃべると、その人になりきったように返ってきます。

今このHyperCLOVAが、食器洗い乾燥機になりきって、ユーザーのメッセージに対して返答をしているということになります。かなり食器洗い乾燥機っぽくしゃべっているのがおわかりいただけるかと思います。

1つのモデルだけで特別に食器洗い乾燥機にチューニングしたわけでもなく、1つのモデルでいろいろなキャラクターになりきれるというところがすごい技術かなと思います。

「これから実現したいこと」とそのための取り組み

私たちのビジネスにどう活かすのかというところはまだいろいろと検討している段階なのですが、今はHyperCLOVAがどれぐらいすごいものなのかというところを、さまざまなコンペに参加して、その能力を客観的に評価いただくというところにも力を入れています。

(スライドを示して)これは人工知能学会の「SLUD」(人工知能学会 言語・音声理解と対話処理研究会)の対話コンペに参加した時の成績です。確かシチュエーショントラックともう1個トラックがあって、両方とも一位の成績を修めています。また、つい先日も「対話ロボットコンペティション」という別のコンペもあったのですが、そちらでも見事に優勝しています。

また、LINEでは「コンピュータビジョンラボ」というのを1年ほど前に立ち上げて、CV領域でも研究開発をスタートしています。そこでは、先ほどのOCRやレシートを認識するみたいなこともやっているのですが、他にも(スライドを示して)こういったキャラクターを生成する、動かすという技術にも取り組んでいます。このように、本当に自然で滑らかなモーションを作る技術もやっています。

この発展系としては、例えば「歩いて」と指示をすると、このアバターが歩いて、「走って」という指示をすると走るモーションができたりすると、すごくおもしろいですよね。Vision And Languageという分野が今すごく流行していますが、こういったことができるようになるといいなと(思っています)。

さらには私たちが持っている音声認識や音声合成の技術を使って、このキャラクターを感情豊かにしゃべらせたりできたらすごくおもしろいなと思っています。これは私たちが、画像、音声、言語など、さまざまなコミュニケーション領域のAIを統合的に持っているからこそ、そういったことができるんじゃないかなと考えています。

ただ、先ほどのAIのアバターが急に差別的なこととかを言い出すとみんな困っちゃうわけですよね。AIを使った公平性、信頼性など、AIのTrustworthyにも実は私たちは力を入れています。それを担当するTrustworthy AIというチームも実はあります。

ここでこのHyperCLOVAみたいなものに、どうやって差別的なこと、あるいは偏ったことを言わせないようにするのかなどの研究開発もやっています。

NAVERのCLOVAチーム・企画・事業との距離がすごく近い

最後にちょっと駆け足なのですが、働き方のところにいきたいと思います。(スライドを示して)こちらがAIカンパニーの組織図です。カンパニーCEOの下に、開発室、企画室、事業系の人たちがいて、私たちが開発室の中にいて、その中に音声認識・合成、言語処理、コンピュータビジョン、TrustworthyといういうAIのR&Dをするチームがあります。また、実際にものづくりをするプロダクト開発チームも別にあります。

私たちはここのAI開発室にいるのですが、NAVERのCLOVAチームがすごく近くにいるというのが特徴です。NAVERにも同じように各要素技術のチームがあり、彼らと連携しながら技術を開発しているというのが1つの大きな特徴かなと思っています。

あとは企画や事業の人との距離がすごく近いのも特徴かなと思っています。やはり技術を作りっぱなしにするのではなく、事業化するところにもすごく近くにいられるというのもポイントなのかなと思います。

LINEで働く3つの魅力とは?

最後のスライドですが、LINEで働く魅力を3つ挙げています。1つは、一流のリサーチャー・エンジニアと働くことで大きく成長できるという点ですね。これは先ほど、論文のところでお話ししたように、人材にすごくこだわって優秀な人を採用しているので、みなさんがもしLINEに入社したら、一流の人と働くことですごく大きな経験ができるんじゃないかなと思います。

2つ目。先ほどコンピューティングのお話をしましたが、成果を出すための設備にかなりの投資をしています。また、みなさんが快適に働ける職場環境もLINEの魅力かなと思っています。

最後は意欲的なプロダクトを次々と打ち出す積極的な社風です。作った技術が論文だけ出して、かたちにならないのはやはり悲しいですよね。意欲的なプロダクトをどんどん打ち出していく、そのプロダクト開発の距離が近いというのがLINEのいいところかなと考えています。

時間の関係上、細かく説明できませんでしたが、またなにかあればチャットとか、後の座談会でお話しできればと思います。私からは以上です。