Clovaは私たちになにをもたらすのか?

Soonmin Bae氏:みなさん、こんにちは。Soonmin Baeと申します。

マルチメディア、そして、Clova AIのリサーチ・開発および研究を行っております。本日は、私たちがClova AIにおいて達成したこと、そしてそのビジョンについてお話しできることをうれしく思います。

オープニングセッションでも、AI、ブロックチェーン、そしてFinTechの話がありました。その中では池邉さんからデモページを紹介しましたが、私からはそれらの技術について、より詳細に説明いたします。

私たちは、Clova AIによって、Clova AI for Everyoneの技術的なブレイクスルー(が実現したこと)に非常にワクワクしております。そして、それらのブレイクスルーを短期間で達成してきました。

本日のタイトルは「誰もが使えるClova AI」です。その名のとおり、Clova AIは私たちの日々の生活に大きな影響を与えます。もはや空気のように、それなしでは生きられない存在となるでしょう。

簡単に「Clova AIとはなにか?」について説明いたします。そのあとに、Clova AIにおける技術的な成果についてお話しします。そして最後に、ユーザーを中心にClova AIが今後どうなっていくかについてお話しします。

キーワードは「誰もが使えるAI」

Clovaは人工知能のプラットフォームです。日本のNo.1コミュニケーションアプリであるLINEと、そして韓国の検索エンジンとしてNo.1のNAVERとが一緒に作りました。この世界トップクラスの人工知能の技術は、LINEとNAVERがこれまで20年をかけて開発してきたもので、それらの技術がこの単一のプラットフォームへ注ぎ込まれています。すばらしいことではありませんか?

それらの技術の中には、検索、音声認識、そして音声合成、さらには自然言語の処理などがあり、それらはLINEとNAVERが提供する様々なコンテンツやサービスの中から生まれてきたものです。

私たちは、世界中の200ヶ国のLINEユーザーに対して、大きな影響を与えたいと考えています。その中には直接ユーザーに対してサービスを提供するものもありますが、Clovaの持つ重要な機能をパートナー、そしてユーザーに対して提供し、その支援も行っております。

車、家電、Clovaのスマートスピーカー、モバイルアプリなどに組み込まれているClovaは、重要な機能を提供します。

例えば、音楽の再生、予約、日々の活動の記録、アラームの設定、天気の確認、そしてメモ、スケジュールなどです。スマートカー、スマートホーム、またバーチャルアシスタントは、Clova AIによってよりパワフルに、そして、よりインテリジェントになっております。

私たちは誰しもが望んでいるのと同様に「誰もが使えるAIを」というミッションを掲げております。近い将来、私たちの子どもたちはまったく違う世界に住むことになるでしょう。なぜなら、AIがさらに発展するからです。そして、もちろん私たちがより歳を重ねたときには、(Clovaのような)支援をする技術によって私たちの生活はより良くなり、便利で、安全で、楽しくなることでしょう。

オープニングセッションでイビンさんからお話させていただいたとおり、Clovaはそれを取り巻くエコシステムを通して、誰もが使えるClova AIというビジョンを実現しようとしています。そこでは、誰もが簡単にAIのサービスやシステムを構築できるグローバルなプラットフォームを使うことができます。Clovaは、AIエコシステムを構築し、そして、ユーザーと世界中のパートナーとともに、よりよい世界を構築しています。

Clovaはすでに、100近くのパートナーと一緒に活動を行っております。

そして、私たちはもう1つ重要なマイルストーンを迎えようとしています。これからは、ClovaはB2Bのビジネスにもよりフォーカスします。そして、本日私がプレゼンする技術的な内容は、すでに皆様にも利用いただくことができるようになっています。

Clova AIがフォーカスしていること

それでは、Clovaがフォーカスしている技術についての話をしたいと思います。人間のような知能を真似する、もしくは構築することは、多くのコンピュータの開発者、そして研究者にとって長年の夢でした。

人間のような知能を作れば、汚くて、危険であるようなきつい仕事を助けてもらうことができます。また、高齢者や障がい者の支援をする福祉技術を進化させることもできます。

ジョン・マッカーシーが「Artificial Intelligence(人工知能)」という言葉を1956年のDartmouth Conferenceで初めて話した時、人間のようなAIの開発には10年も20年もかかると言われていました。

このスライドにあるような脳の機能、これらはほんの一部ですが、それらは5つの感覚にもとづいていて、そこからより意味のある機能を実現しています。そして、それらの機能を人工的に実現するのは決して簡単ではありません。

しかし、情報の検索や検索エンジンは、機械学習のアルゴリズムやコンピュータのハードウェアの発達や、収集できるデータの増加のおかげで、あと数年のうちにAIによって実現されるでしょう。

現在、Clova AIは知能の特定の分野に焦点を当てています。

人の頭脳の中で、感情を認識する場所と人の顔を認識する場所が分かれていることは特に驚くべきことではありません。顔の認識は、もちろんClova AIにおける最優先事項です。そして、「話す」「書く」「読む」「聞く」という4つのコミュニケーションの機能もClova AIにとっては重要です。

「聞く」「話す」。これは音声認識、そして音声合成、また言語のテクノロジーによって実現されます。ClovaAIは「聞く」という機能の中でも、特に音声認識を完璧にすることを目標にしていますそして「書く」「読む」というのは、視覚技術および言語技術によって実現されます。読み書きをつかったコミュニケーションも同様に重要です。

しかし、視覚テクノロジーというのは、ただ視覚的に理解するだけではなく、イメージ、そしてビデオを生成することも意味します。Clovaはビジョンテクノロジーにフォーカスしてきました。なぜなら、視覚的な検索、そして、イメージやビデオの生成を行うためです。

学習は人の能力の中心にあります。Clova AIは、アルゴリズムを開発することによって学習能力を身につけようとしています。すなわち、Clova AIは深層学習とデータを用いた、音声・視覚・言語の技術にフォーカスしているということです。深層学習とは、表現と抽象の複数のレベルを学習することに基づいた機械学習アルゴリズムを意味しています。

日本語・韓国語の音声認識は世界トップレベルに

音声認識におけるブレークスルーは2010年に起きました。また、これが実用的になったのは2012年以降です。音声認識の進化によって、現在では多くの携帯電話、そしてスマートスピーカーが音声認識の能力を持っています。

Clova AIは音声認識を担当しており、Clova Apps、そしてスマートスピーカーにClova AIが入っています。Clova AIの音声認識のパフォーマンスは、日本語、韓国語に関しては世界トップレベルです。

また、視覚テクノロジーのブレイクスルーは2012年以降に起こりました。2015年には、コンピュータビジョンのクオリティは、物体の検出と認識に関して人間と同じパフォーマンスレベルに達しました。

Clova AIにはすばらしいビジョンリサーチャーが搭載されており、そして、世界最高クラスのOCR、ビデオテクノロジーを備えています。

また、機械翻訳や音声合成は2015年以降にブレイクスルーを迎え、こんにちでは非常に重要な技術となっています。そして、Clova AIは最高レベルの音声合成の技術を持っています。これらはClova AIの深層学習の技術と、LINEとNAVERのデータによって可能になっています。

Clova AIが達成してきたこと

それでは、Clova AIの技術において達成してきたことについて、いくつか話したいと思います。これらの機能はすでに多くのユーザーに使用され、実証されています。

(映像が流れる)

個人的には、この(車における音声認識の)機能を非常に気に入っています。私も車を運転して通勤していますが、常にハンズフリーのインタラクションを求めていました。みなさんも車で通勤しているのであれば、どれだけこのハンズフリーのインタラクションが重要かご理解いただけると思います。

(映像が流れる)

Clova AIの音声認識は、スマートカー、そして家電、スマートスピーカーにも組み込まれています。そのパフォーマンスはノイズがある環境でも世界トップクラスです。

子どもたちはスピーカーを気に入るでしょうし、ドライバーにはより多くのClova AIの機能を楽しんでいただけることでしょう。これらの新しいインターフェースによって、ハンズフリーの対話が実現されます。みなさまにも気に入っていただけるはずです。

Clovaの音声合成のパフォーマンスも世界最高レベルとして認識されています。そこでは有名人の声を再現したり、友達の声も再現できます。まったく同じ声で、人には区別できないほどです。

(映像が流れる)

LINEのCSMOである舛田さんは、週末に自分の声を4時間録音しました。それにより、パーソナルスピーカーを自分の声にすることができたわけです。想像してみてください。自分用にパーソナライズされたスピーカー、そして自分が一番好きな声をそこで使えるということを。また、テキストから音声に変換するタスクもClovaがやってくれます。

音声の機能は重要ですが、さまざまなシーンを考えると、顔や文字を認識することも重要です。OCRは光学式の文字読み取りの機能ですが、例えば、写真などにおける文字を認識し、文字の種類も識別できます。

ClovaのOCRは独自に開発された方法を用いています。そして、こちらも世界トップレベルであり、OCRのコンテストにも勝つことができました。人が見落としてしまうようなところでも文章や文字を認識できます。現在、ClovaのOCRのパフォーマンスは人の能力よりも優れています。

例えば、海外に行き、メニューを読まなくてはいけない、もしくはなにか看板を読まなくてはいけないときには、Clova AIのOCRを使えば、すぐに読み取ることができます。ただ、旅を楽しみ、快適に過ごせば良いのです。なお、ClovaのOCRはレシート、領収書、名刺などの認識にも使えます。

このような映像があって、その映像にこのようなレンガ状のスタイルを適用したいとします。(合成された映像をさしながら)こちらが、Clova AIがあなたのために作った映像です。この技術はユーザーの写真を芸術へと変えることができます。

合成は解析よりも難しいのですが、Clova AIの多くの研究者は自然な画像やビデオの合成に熱心に取り組んでいます。

このような「Style Transfer」は新しく、非常におもしろいものです。Photo2Artのテクノロジーは世界最高クラスです。そして、すばらしくリアルに、そして芸術的に、ユーザーの写真を望んだスタイルにリアルタイムで変換することができます。

Clova AIを支えるNSML

Clova AIの技術的な成果はNSMLなくして達成できませんでした。NSMLはクラウド・マシンラーニング・プラットフォームで、ディープラーニング・アルゴリズムの設計過程において、便利で高速なR&Dを行うことができます。

ユーザーはディープラーニング・プロセスの進捗をこのように管理できます。トレーニングが進むにつれて、NSMLは各ステップのパフォーマンスを可視化します。

また、チームで開発する場合、GPUを共有することはとても重要です。NSMLは自動でGPUのスケジューリングを行うことができ、研究者は誰でも利用可能なGPUを見つけることができます。

さらに、AutoML機能がNSMLに搭載されていて、これによってリサーチャーはモデルにフォーカスし、さまざまな実験を行うことができます。

この動画をご覧ください。それぞれの線は、様々なハイパーパラメータを表しています。複数のセッションが同時に走り、さまざまなハイパーパラメータのスペースを検索して発見します。

AutoMLがこれを加速し、そしてClova AIのR&Dのパフォーマンスが向上することを願っています。また、みなさまにとっても価値あるサービスとなることを期待しています。

ラーニングの開発をしたことある方なら、ぜひこの機能を使ってみてください。NSMLとAutoMLを気に入っていただけると思います。非常に簡単なインターフェースを使って、すべての開発中のセッションを見ることができますし、データも見ることができます。そして、GPUスケジュールも自動で行われます。

またAutoMLは、幅広い経験者を想定しています。つまり、ディープラーニングの専門家だけがディープラーニング・アルゴリズムを開発できるのではなく、経験が少ない開発者でも、これを使えばハイパフォーマンス・ディープラーニング・アルゴリズムの開発が可能となります。

新たなインターフェースの時代へ

Clova AIは技術で業界を牽引していますが、一番の優先事項はユーザーです。Clova AIでは、ぜひユーザー中心型のAIサービスを作りたいと考えています。

コミュニケーションの幅とスピードが改善したことによって、そしてスマートフォンが進化したことによって、新しい世代の人たちはスマートフォンにますます頼るようになっています。

ジェネレーションZと呼ばれる24歳以下の世代では、テレビやPCはもう使いません。スマートフォンを通じてコミュニケーションをとり、メディアの視聴もすべてスマートフォンで行う世代です。モバイルの利用方法や利用率を見ればこの差は歴然です。

デジタルシニアは、主にコミュニケーションと情報の検索・取得にモバイル端末を使います。これに対してジェネレーションZは、マルチメディアの視聴にモバイル端末を使います。このトレンドは、5Gのコミュニケーションが主流になる頃には、さらに中心的なトレンドになるでしょう。

20年前は、テキストメッセージを交換する程度のことしかできませんでした。そして10年前、やっと画像が交換できるようになりました。新しい世代の人たちはためらうことなく動画を撮影し共有します。

2020年からは、他の世代もまた、このような新しいインタフェース、新しいユーザトレンドに移り変わることでしょう。なぜなら、AIが技術をより簡単に、より人間らしく変化させるからです。Clova AIは新しいインターフェースの時代への準備を着々と進めています。

Clova Visionがもたらすもの

続いて、Clova Visionです。Clova Visionは、ユーザーが写真を撮るだけで簡単に検索することが可能になります。例えば、LINEの「ショッピングレンズ」や、NAVERの「Smart Lens」「Shopping Lens」にすでに搭載されていて、ユーザーに新しい検索体験を提供し、既存のテキストベースの検索サービスを置き換えようとしています。

これまでは、テキストをサーチエンジンに入力することが不可欠でしたが、新しい世代では、クエリを気に留める必要はありません。単純に自然言語クエリを入力して、写真を撮るだけで検索ができます。Clova Visionは、日本の最も大きな、そして韓国でも大きなサーチエンジンによって最適化されています。

ここまで、音声合成についてお話ししてきました。録音には4時間かかりますが、我々は志を高く持っています。今後は録音時間を8分に短縮して、オリジナルの音声、あるいはお気に入りの人の音声を利用できるようにします。また、いつでも使えるようにいたします。

この技術が一般化する頃には、スマートカー、スマートスピーカー、そして家電は、あなたが好きな、お気に入りの声で作動するようになります。先ほどもお話ししたとおり、文字と顔は認識する対象としてとても重要です。Clova AIは、顔検知から認識まですべてのプロセスを提供します。例えば、新しい顔を検知したら、それをすぐに認識して追加します。

この画像が実際の動画ですが、Clova AIの顔認識は動画全体を通して実行されており、特定の顔を認識している領域ごとに分割することができます。

この技術は、正確なだけでなく、非常に高速です。こうした顔認識技術はCPU、あるいはモバイル端末で利用可能です。

また、この技術は少ないコストで、かつ大規模に適用可能です。例えば動画です。Clovaのフェイス技術は「V LIVE」などの動画サービスでも利用されています。

(映像が流れる)

特定の人物を自動トラッキング

Clova Video HighlightはAI技術ですが、特定の人物を選択することができます。

この動画には4人の女性が映っていますが、ファンはその中の1人を見たいとします。このClova Video Highlight技術は、特定のセグメントを選択でき、その人の見た目、そして動きに合わせて、特定の人を選択します。

また、その人が顔を見せていなくても、このClova Video Highlight技術は、その動画セグメントを正確に追跡することができます。その正確性は99パーセントで、このパフォーマンスビデオで実証されています。99パーセントという正確性は、人間では達成できません。

この3分間の動画を人間が見たとしても、すべてのメンバーを追い続けることは難しいです。しかしこの技術を使えば、一人ひとりのメンバーをきちんと追跡することができます。

このパフォーマンスは「V LIVE」を通じて実証されました。各メンバーがパフォーマンスしている元の動画は2年前にリリースされましたが、最近リリースされたこの動画は、たった5日間で、元の動画の視聴数の30パーセントも視聴されました。

ファンは、こうしたパーソナライズされた動画を待ち焦がれていたので、このような視聴数となりました。Clova Video Highlightは、Clova AIのVisionテクノロジーによって実現しました。

例えば、四角い箱での追跡だけではなく、こうしてダンサーの腕や足の関節もすべて追跡しています。関節の追跡が正確なので、四角い箱での追跡も正確です。

みんなのためのAIになるために

私からのプレゼンは以上です。Clova AIは「みんなのためのAI」をビジョンに掲げております。そして、世界No.1のAI技術を目指し、ユーザーのみなさまに意味のあるサービスを提供したいと考えております。

あらためまして、本日はこのようなプレゼンテーションの機会をいただき、ありがとうございました。Clova AIの成果を発表できてうれしいです。

「line.ai@linecorp.com」にメールをお送りいただければ、喜んで追加情報をお送りいたします。また、池邉さんからもお話しさせていただいたとおり、素敵なデモページもご用意しております。こちらからご覧ください。先ほどご紹介した動画が用意されています。

ありがとうございました。

(会場拍手)