LINEのAI領域でのこれまでとこれから

砂金信一郎氏(以下、砂金):LINEでAIカンパニーのカンパニーCEOをしています砂金と申します。AI事業の責任者ということで、ビジネス面だけではなく研究開発も含め、AI事業の全体を統括しています。

本日は私と技術アドバイザーを担当されている栄藤さんの2名で『LINEのAIプロダクト:これからとその先にある未来』と題したセッションを担当させていただきます。

LINEがAI領域で今後どのような活動をしていくのか。すでに目処がついているいくつかの技術についてはデモの動画をご覧いただきつつ、R&Dの方向性を形造るビジョンについてお話させていただきます。40分ほどお付き合いくださいませ。

昨年のLINE DEVELOPER DAYにご参加いただいた方はどのくらいいらっしゃいますでしょうか? 2019年のDAY1キーノートでは私も登壇させていただきまして、LINEのAI技術をいくつか紹介させていただきました。AIで自動生成した手書きフォントを用いてプロッターで出力するデモなど、覚えていらっしゃる方がおられれば大変うれしく思います。今回は昨年からのアップデートなども含めまして、より踏み込んでAI領域の進化をお話させていただきます。

はじまりはスマートスピーカー「CLOVA WAVE」

LINEがAI技術を活用したプロダクトを手がけるようになったのは、2017年に発表したスマートスピーカーCLOVA WAVEが大きなきっかけの1つになっています。

日本語での展開においては、AlexaやGoogle Homeより早く市場に出すことができました。その後、LINEのキャラクターをモチーフにしたCLOVA Friendsなどをリリースして、音声対話に必要な音声認識、音声合成、自然言語処理などの技術を中心に研究開発をしてきました。

2019年からはAI技術を外部向けに展開する事業を開始しています。スマートスピーカーの開発で培った音声認識、音声合成、対話技術を組み合わせて電話の自動応答を実現しているLINE AiCallは、すでに実社会での運用が始まっています。飲食店の予約台帳を持つエビソル社との協業でレストランの予約対応を開始し、少人数で運営せざるを得ない店舗などの役に立っています。

また先日発表があったヤマト運輸では、国内の一部地域で企業からの集荷受付業務をLINE AiCallが担当し始めており、すでに多くの電話をAIが対応しています。さらにLINEバイトでは、LINE AiCallによるバイト応募の自動受付を開始しました。

OCRは画像から文字を抽出するだけでなく、運転免許証のような身分証明書や請求書、レシート、手書きを含む領収書などから必要な情報を構造化した状態で読み取り、JSONで返すAPIとして提供しています。

こちらも実際の業務の中で必要な課題を見つけ、お客様やビジネス担当者、エンジニアやリサーチャーが近い距離で課題に対する対応策を協議しながらニーズの高い用途向けにEnd to Endの特化モデルを生み出しています。

身分証明書のOCRと顔認識技術を組み合わせて実現しているeKYCでは、すでにLINE Payの口座開設で利用しているものをより汎用的なものとして作り上げ、LINEの公式アカウントと組み合わせることで、なめらかなユーザー体験を提供しようとしています。

LINEが手掛けるAI技術は研究のための研究ではなく、世の中で実際に利用されることで人々のユーザー体験をよりよくすることを目的としています。例えば先ほど申し上げた企業からの集荷依頼業務においては、住所の読み取り精度が課題になっています。そこで住所に特化した音声認識モデルを作り、認識できなかった場合のシナリオを工夫するなどしてテストを繰り返し、タスク間両立を向上させています。

幸いヤマト運輸のコールセンターには非常に多くの集荷依頼の電話がかかってきており、学習用のデータ収集には事欠きません。特定の課題にフォーカスし、改善サイクルを回して精度向上を図っています。

これらの技術はすでに実用段階にあり、外部にも提供していますし、OCRなど一部の技術はCLOVAのサイトからデモ環境でご利用いただくことが可能です。今回はAIプロダクトのこれからとその先にある未来についてお話するセッションですので、研究開発段階のプロジェクトをいくつかご紹介したいと思います。

動画によるAIサービスの紹介

ではさっそくですが、この動画をご覧ください。

日本だとご存知の方も多いかもしれませんが、謎解きで有名な松丸亮吾さんというタレントさんの番組で、彼のテンポのよいカジュアルなトークをきちんと認識できているのが、日本語がわかる方にはご理解いただけたのではないかと思います。

音声認識はスマートスピーカーCLOVAやLINE AiCallでも活用している技術ですが、LINEが保有するデータを用いてその精度を高める努力を継続的に行っています。こちらの映像はLINE LIVEで実際に配信されていた動画に音声認識をした字幕を付与する仕組みを実験的に適応してみたものです。

LINE LIVEに母国語のキャプションが付いてなにかうれしいことがあるのかというご指摘もあるかもしれませんが、例えばこれに機械翻訳を組み合わせると役立つサービスになるのではないかと思います。

続いてもう1つ、同じようなシーンでの動画をご覧ください。

こちらの動画での音声認識の難しさ、お気づきになりましたでしょうか? 伊藤美来さんという方がバックで音楽を流しながらお話されているのですが、その環境の中でもメインで話している音声だけを拾って正しく認識しています。これはノイズが多い環境でも目的の会話を聞き取る際に役立つ技術です。

続いて、これらの技術を応用したプロトタイプの動画デモをご覧ください。

今回はオンライン開催ということで、みなさんも今動画配信でこのセッションをご覧になっているでしょうし、在宅勤務においてはZOOMなどで会議を行う機会が増えているのではないかと思います。

こちらのツールはZOOMのプラグインとして実験的に音声認識を追加してみたプロトタイプなのですが、4名の会話がほぼ正しく認識されていることがわかると思います。日本語圏以外のみなさまは申し訳ありませんが、想像しながらお楽しみください。

さらに実際のビジネスシーンにおいてはリアルタイムでなくてもいいから議事録の書き起こしをバッチ処理で精度高く行いたいというニーズもあり、むしろこちらのほうが求められているのではないかと思います。

現在我々が利用しているN Speechと呼んでいる音声認識の方式はスマートスピーカーの頃から使っているもので、短い発話からリアルタイムに認識することに向いた方式、実装になっています。

先ほど言った議事録の書き起こしも含め、長文や自由な発話での認識、文章の切れ目がわかりにくい状況で高い精度を出すことを目的としたNESTというEnd to Endのモデルを現在開発中です。今回のDevDayに使うにはちょっと間に合ってないのですが、近いうちになんらかのかたちでご提供するサービスの中に実装されてくると思います。

LINEの研究開発

音声認識だけでなく、音全体の認識も研究開発を行っています。この研究は環境音認識という領域で、犬の鳴き声やガラスの割れた音などを正しく認識することを目的としています。

中でもDCASEというコンペティションが信号処理研究者の中で熱量高く実施されており、小松さんというLINEリサーチャーと彼のところに名古屋大学から来ていたインターン生を中心としたチームが弱ラベル学習の手法を用いることで4つのカテゴリーで1位を取ることができました。

LINEの中では研究成果でナンバー1を取ることが重視されており、妥協せずチャレンジし続ける姿勢が求められています。

音声合成の分野でも開発中のプロトタイプを1つご紹介します。まずはこちらの動画をご覧ください。

このツールはCLOVA Dubbingと呼んでいる動画にテキストを読み上げる音声を付与するための仕組みです。この動画自体のナレーションも音声合成モデルであるなおみとともこを利用して作成しています。音声合成技術ではより自然な対話、発話を目指し研究開発を進めています。

さらに関連する技術として、アバターによる表現を追加しようとしています。我々の音声合成技術は正しく文章を読み上げるだけでなく、エモーショナルな表現ができることを目標の1つにしており、音声と合わせて表情や動きを変えることができるアバターと組み合わせることで、より効果的にコミュニケーションをサポートできるのではないかと考えています。

アバターはすでにLINEのメッセージングアプリの中に実装されていますが、現時点ではデフォルメした3Dアバターのキャラクターが動く仕組みになっています。このアバターがしゃべるようになったら、さらに自分に近い音声合成でしゃべるようになったら、ちょっとおもしろい未来になるかもしれませんね。

ここでLINEアプリへの実装をお約束するものではないのですが、我々が自社技術でアバターを通じた会話体験を実現できる目処をつけていることはご理解いただければと思います。人間の代わりにAIが感情表現豊かにコミュニケーションしてくれる時代が来るかもしれないですね。

いかがでしたでしょうか? ここまでご覧いただいたいくつかの技術は、製品化には至っていないものの、すでに研究開発に着手しているものですので、外部へのAI技術提供やLINEの各サービスに実装される日を楽しみにしていただければと思います。

また完成度がある程度向上したいくつかの技術については、LINEの開発者向けサイトLINE Developersから利用できるよう準備を進めていますので、もうしばらくお待ちください。

LINEのR&Dビジョン

さてここからは、冒頭で少しだけご紹介したAIカンパニーおよびData Labsの技術アドバイザリーをしている栄藤さんに引継ぎまして、我々が策定したR&Dビジョンについてお話を展開していければと思います。栄藤さん、よろしくお願いします。

栄藤稔氏:砂金さんご紹介ありがとうございます。LINEでLINE AIカンパニーとData Labsの技術アドバイザリーを務めさせていただいています、栄藤です。これからLINEのR&Dがどのような研究開発をするかという話をします。

大阪大学の教員が本務で、兼業を許可いただいて、LINEで産学の連携を推進させようとしています。技術が世の中を変えていくことに関わるのが大好きで、前職では研究開発と投資業務を担当する一方で、データマイニングやデジタルトランスフォーメーションのプロジェクトを立ち上げたり、みらい翻訳という会社、それからコトバデザインという会社を作りました。

さて、今からLINEの今後3年から5年の研究開発の方向を示すR&Dビジョンを紹介したいと思います。 R&Dビジョンとは何か? それは研究開発の目的とゴールを示すものです。NAVERとLINEのR&Dは一体運営となっています。そのNAVERとLINEが手掛ける事業の現在と未来に照らし合わせて、「将来何が起きるのか」「どのような変革点が生じるか」を、技術と社会の2つの側面で予測してみました。

さて、R&Dビジョンをどのようにして作成するかですね。 未来における変化点を予測することで、研究開発の目的とゴールを明確にしていきます。我々のとったアプローチは、現場の一線の研究者、技術者、マーケティングの専門家にそれぞれが考える未来の変革点を予測してもらって、それを複数のエディターがトレンドとしてまとめてシナリオにすることでした。

この夏、LINEとNAVERのAI関係者200人に意見を募集しました。今後3年間で技術と社会にどんな変化があり、どのようなサービスが起きるのかと。それをLINEとNAVERから選抜された5人のエディターが未来シナリオに紡いでいきます。

「今後AI事業環境を取り巻くトレンドは何か?」という問いかけに、300近い提案を受けました。多様なアイデア、驚くアイデアがありました。自動化キッチン、仮想空間のインターフェース、寄り添うロボット、未来の流通などなどです。その300近い提案から5人のエディターがまとめた近未来のトレンドを次のスライドで紹介したいと思います。

4つの近未来トレンド

それが次の4つになります。左からDigital Me、Generative Intelligence、Trustworthy AI、Dark Dataです。ここで書いているUmbrella Topicsとは、個々の未来予測を抽象化した技術コンセプトです。

1つずつ説明していきたいと思います。Digital Meは、自分のデジタルクローンをバーチャル空間で作ることを意味しています。自分のデジタルツインを作ることが今後のイノベーションの鍵になります。個人のデータをバーチャル空間で利用すると、パーソナライズされたサービスを提供できます。

Generative Intelligenceは、AI応用の進化の方向を述べています。狭い定義にGenerative AIという技術があります。それは画像、音、テキストの既存コンテンツから新しいコンテンツを自動生成する技術を言います。

Generative Intelligenceはそのコンセプトを拡張してコンテンツの自動生成だけでなく、深層学習の発展によるAIの認識結果の相互作用、つまり異なるコンテンツ間の関連付けを含む技術コンセプトです。

つぎに、Trustworthy AIです。これは我々がAI開発者として信頼できるAIを作らなければならないことを意味しています。今後AIの進化に伴って、プライバシーとデータのガバナンス、結果の説明性、納得性の向上や公平性の確保などの課題が必要になってきます。さらにデータ自体について、フェイク情報の流通やデータ改竄と信頼性、信憑性に関わる問題を扱う必要が生じてきています。

最後にDark Dataです。これまで使われていなかった巨大なビッグデータが使われるようになるという技術コンセプトを説明しています。いま深層学習の研究の最前線は、教師データがないか、あるいはあっても少ない、そのうえ間違いを含む教師データを用いた学習技術の開発になってきています。

4つの領域の関連性

これら4つのUmbrella Topicsを、時間軸と革新軸にマッピングしたものが、この図です。4つのUmbrella Topicsは注目すべき技術コンセプトを表しており、それらの実態は、提案された数々のトピックに支えられています。 この図は、LINEが直接事業化するしないに関係なく、関係する事業分野で今後3年から5年の間で現れる新たなサービス、イベントとその4つのUmbrella Topicsの関係をまとめたものです。

この図でわかるように、左下のDigital Me、右下のTrustworthy AIは、社会的要請に応えるための研究開発。左上のGenerative Intelligence、右上のDark Dataは社会をより進化させる研究開発の方向性に位置付けています。そしてこの4つは、相互に関係します。

4つのUmbrella Topicsを形成するインスタンスが重要です。それらは未来のサービス群を表現しています。ここに書かれた一つひとつのワードがこれから起こり得るであろうサービスを表していることになるんですね。網羅的にすべてを説明したいところですが、この発表では半分ほどを紹介したいと思います。