自己紹介

井尻善久:本日はお集まりいただきまして、ありがとうございます。今から、AIに関わる機械学習エンジニアについて説明をしたいと思います。

まず自己紹介ですが、LINE株式会社のAIカンパニーというところのAI開発室副室長、および、Computer Vision Labのチームマネージャーを務めております、井尻と申します。本日はよろしくお願いします。

私の専門は、Computer Visionとロボティクス、およびその基本になる機械学習技術です。社会人になってから一貫して、機械学習およびその応用分野に関する研究開発に携わっています。最近LINEにジョインして、チームを率いてやっているというかたちになります。

本日は「世界トップのAI技術をつくる、一流にこだわる研究開発」というタイトルで、LINEがやっている内容を少しご紹介しようと思います。

AIカンパニーが開発する「LINE CLOVA」

LINEのAIカンパニーですが、AIという名前のとおり、人間がやっていた知的作業を機械で行う技術になります。人にやさしいAIが、生活やビジネスに潜む煩わしさを解消して、これからの当たり前を創ります、ということをスローガンに、いろいろな研究開発をしています。

そのモダリティはあとで示しますが、私のやっている画像認識のみならず、言語とか音声など、いろいろなところをやっているという話を今日はしようと思います。

LINEのAI技術の、このテクノロジーブランドは「LINE CLOVA」という名前で呼んでいます。もともと前身は、クラウドボイスアシスタントです。クラウドボイスアシスタントというと、なんとなくこのCLOVAという文字が略語として見えてくると思うのですが、こういった技術を開発していました。

それをAIスピーカーに応用してやっていたのですが、そこで培った技術プラスアルファをさらに応用して、さまざまなビジネスに展開しています。今では、AIスピーカーのみならず、他のさまざまなプロダクトに活かそうとしています。

どんなプロダクトやソリューションがあるかというと、ここにズラッと並べている技術で、どんどん広がっていることがおわかりいただけると思います。

AIカンパニーのAI技術者、エンジニア、リサーチャーは、日々このラインナップを広げて、一つひとつ精度を上げて、現状人間がやっている作業を機械でできるレベルにするために、日進月歩、精進しています。

AIカンパニーが提供する「LINE AiCall」「LINE eKYC」「CLOVA OCR」

主だったプロダクトは先ほど書いたのですが、「Chatbot」は何か発話をすると、それに対して自然な応答をするというものです。

あとは音声認識技術と音声合成技術です。Chatbotとこれらを組み合わせると、こちらから何かを話すと、何かを話し返してくれるといったことが実現できます。

ほかにはテキスト解析や文字の読み取り技術があります。ビジョン系の技術として、物体認識、画像認識系の技術、顔認識の技術なども開発しています。

それを通じて、さまざまなサービスを提供しています。今、ビジネスの大きな柱になっているのは「LINE AiCall」。これはコールセンターなどで活用されており、電話応答の自動化の話です。

ほかには、「LINE eKYC」。KYCが何の略なのかは、あとで調べてもらえればと思いますが、要は本人確認です。証券会社や銀行で口座を作るとなると、本人確認が必要になってきます。

従来は申込書を送って、1〜2週間をかけて、場合によっては書類不備で戻ってきたりしながら契約のプロセスに2週間ほどかかっていたものを一瞬でやってしまうというすごい技術です。そういったものをソリューションとして提供しています。

次は文字の読み取りの「CLOVA OCR」ですね。社内など、いろいろなところでまだまだ紙の文書は残っているかと思いますが、それをデジタル化する技術です。そんなところでビジネスをしています。

ビジネス文書を対象にしたLINE CLOVAのOCR技術

説明する順番がちょっと逆になってしまいますが、LINE CLOVAのOCRという技術を紹介いたします。これは主に、ビジネス文書を対象にしたOCR技術(文字の読み取り技術)です。

(スライドの)左上の図を見ると、けっこう普通の文書と違います。これは手書きもありますし、フィールドがあって、それぞれに対して整理したかたちで読まないといけません。このように、構造化されているという特徴がビジネスの文書にはあります。

文字の認識は昔からやっているからできているだろう、と思われるかもしれませんが、やっている人にはわかる難しさがあります。

なにかというと、この罫線の読み取りがけっこう難しいんですね。横に線が並ぶと、漢字の一が並んだように見えたり、縦に線が入っていると、スラッシュとか、1とか、lなど、いろいろなものと見間違える可能性があります。構造がわかっていないと、罫線なのか文字なのかがよくわからないということが起こります。

加えて、項目の内容がわからないといけない時もあります。(スライドを示して)このように名前という項目があって、その横に実際の名前に相当する中身が書いてあります。これ(項目)はkeyで、これ(内容)をvalueと呼びますが、場合によっては、項目がなく名前がドンと出てくる場合もあります。

そういった場合に、整理して、これを読み取ってリストを作ろうとすると、名前だか住所だかがわからないけれど分類しながら読み込む必要が出てきます。そのように考えると、単純に文字を読み取るということのみならず、言語的な理解も必要になってきます。

そのような理由で、自然言語と画像技術を組み合わせながら、文字認識をやっています。

このプロダクトはいろいろなお客さまに提供しています。有名なところでは、SAPのConcurなどです。会社の基幹システム、経費精算システム等を作っておられる企業です。パートナーとして一緒に開発をしています。

請求書に対して、それをエクセルのようなかたちに構造化するなどが考えられます。これはほんの一部ですが、ほかにもいろいろなお客さまと実用的なアプリケーションを開発しています。

このようなことが実現できると、いろいろな企業で使われて、間接的に私たちのサービスを使ってもらえます。そんなインフラを作ることができる楽しさがあります。

人間味あふれる自然な会話を実現する「LINE AiCall」

次に「LINE AiCall」を紹介します。これはコールセンターなどの電話応対の自動化です。みなさんも製品を買って、何かおかしいことがあったらサポートセンターなど、コールセンターに電話をかけることがあると思います。

その時に、「お待ちください」とずーっと音楽が流れて、その間にも電話代がかかってしまってイライラされたことがあるかもしれません。

実際に人間が対処していると、一定以上は受け入れられないということが当然起こります。それをこのAI技術で対応すると、少なくともAIで受けられるものについては、24時間365日問わずに瞬時にレスポンスを返すことができます。

これを実際にやっているのがAiCallです。ユーザーを待たせないだけでなく、聞き取りやすく、速いレスポンスをしてくれる中で、人間味あふれる自然な対応・自然な会話ができるようになります。

また、こちらが話し言葉でサッと返しても、きちんと聞き取ってくれるというところを目指してやっています。

ほかには既存システムやLINEとの連携ですね。全体の紹介のところでもありましたが、LINEはみなさんに使っていただいてる非常にいいインフラを持っています。そこと連携させることで、これをより簡単に使えるようにしていく、ということをやっています。

どういうところに導入されているかというと、例えば、ヤマト運輸さんですね。ヤマト運輸さんとはいろいろなビジネスをさせてもらっていますが、集荷の受付等にも導入されています。ほかには、コロナワクチン接種の窓口ですね。

また、飲食店向けの予約管理システムですね。お店の方にとっても、お店で働きながら予約の電話を取るというのは非常に大変ですが、それを自動でやってしまうシステムを作っています。

その延長線上で、飲食店のみならず他の業種でもそれを展開していて、どんどん広げていっています。

本人確認を完結するソリューション「LINE eKYC」

次はオンライン上における本人確認についての話です。大抵今の本人確認には免許証やマイナンバーカード、および顔画像が必要になります。

その両方を持っていないと本人確認ができないのですが、先ほど紹介したように、私たちは文字の読み取り機能と顔認識機能を持っているので、実現できます。

「LINE Pay」という決済のサービスがありますが、そこでは本人確認をして、すぐにサービスを使うことができます。ほかにも、「LINE eKYC」はいろいろなところのバックエンドとして動いています。

LINEは、一般的にはコンシューマー向けのコミュニケーションアプリケーションで有名ですが、B to Bと呼ばれる企業向けのソリューションとしても、いろいろ提供しています。

R&Dを推奨 技術と設備に対して積極的な大規模投資をしている

それだけでなく、もっとベースの技術、まだLINEのサービスになるかわからないけれども……という感じのR&Dもかなりやっています。

これはあとでもう1度説明しますが、例えば大規模汎用言語モデルの開発と、それに向けた大規模投資をやっています。これによりチャットボットなどのアプリケーションを作ったりしています。

LINEアプリのホーム画面を掘っていくと「CLOVA Labs」という機能があるのですが、そこの中では、自分で何文字か書くと、それと同じスタイルで、カスタムフォントを作り上げてくれて、メッセージを出すことができるというような、実験的な機能をリリースしたりもしています。

ほかにはボイスサーチ機能ですね。つい最近も、これに向けた機能をリリースをしました。これから、その他のところもどんどん出てくると思いますが、いろいろな技術を実験的に応用しています。

こんなふうに、私たちの持つAI技術は、品揃えが多いというのが1つの特徴なのですが、音声、画像、自然言語処理の応用技術と言われているところは全部保有していて、それがけっこう高い水準にあります。

それらの技術力と、みなさんにすごくサポートいただいているLINEアプリやそれ以外のプラットフォームを組み合わせて、おもしろいビジネス、ソリューションを展開するかたちでいろいろなビジネスをしています。

AIカンパニーのVision・Mission・Value

AIカンパニーはこんなビジネスをやっているわけですが、そのベースになっているのがこういうスローガンです。これは最初に紹介しましたが、「より自然なユーザー体験をLife on LINEにもたらすことで、これからのあたりまえをつくりだす」。

ミッションとしては、「生活や仕事に潜むわずらわしさを、高度なAI技術で解消する」。こんな行動ガイドラインを作って、いろいろやっています。

生活や仕事に潜むわずらわしさが1つの着想点になっていて、それを解決して自分たちの生活をよくするために、自分たちでがんばって働くというところが重要なことかなと思います。

ここまでのところで、AIカンパニーという組織で、AI技術者やリサーチャーがやっていることを紹介しました。

メンバーが総勢150人超えるAIカンパニーの組織体制

ここからは、具体的にどう働いているのかというところを、もう少し説明したいと思います。

AIカンパニーには、事業企画、事業推進のビジネスのところと、企画から実際に開発するところと全部そろっています。研究開発からセールスまで全部そろっていて、総勢150人を超えています。日進月歩、大きくなっている組織です。

私が所属しているのがこのAI開発室です。その下に、いろいろなラボやチームが入っています。

どんなものが入っているかというと、これだけの部署があります。けっこう大所帯です。上のほうが、プロダクトの開発に関わるところです。なにかの技術のベースが出来上がったら、それを実際のお客さまに向けたプロダクトに仕上げていくところです。

NLP開発より以下は、研究開発に近いところです。NLP開発が自然言語処理の開発で、Voiceが音声合成、Speechが音声認識で、Computer Vision Labが画像認識系ですね。あとTrustworthy AIは、AIの信頼性を担保する技術を開発する部署。AI Reseachは基礎研究を無心でやるところですね。あとは音声に関わる技術を極めてサービス化していくSpeech Convergence TFという部署や、それを教育向けに応用するなど技術開発をするEducation AI TFという部署があります。

参考までに私が今見ているチームが、Computer Vision Labです。私はこれら全体を薄く広く見ているというかたちになります。このあと、今年度の新人でバリバリ働いている3名に登壇してもらいますが、彼らは、NLPの開発チーム、Speechのチーム、Trustworthy AIのチームにいるメンバーになります。これらについては、彼らからもう少し紹介いたします。

研究開発・プロダクト開発・セールス・運用をワンチームでやっている

仕事の進め方についてお話しします。LINEが特徴的なのは、この出力にあると考えています。出力が何かというと、「WOW」を作り出すということ、これを目標にがんばっています。WOWは日本語で簡単に言うと、「驚き」と訳してもいいかもしれません。

驚きを作り出す。強調表示していますが、驚きの先にナンバーワンが見えてくる。驚きを生む価値の創出。そしてその先にあるナンバーワンを目指してやっています。

それをどうやって作るかというところですが、このために、日進月歩工夫しています。AI企画室というのが先ほど部署の並びであったとおり、事業の企画をして、事業の推進をする機能があります。それに向けて、この(スライドを示して)開発室がいろいろなこの技術を提供します。あるいはこちら(AI企画室・AI事業推進室)から注文がくるというかたちでやっています。

もう1つ、特徴的なNAVERのCLOVAチームを書いています。ご存じかもしれませんが、LINEは歴史的な経緯からNAVERと非常に密接な研究開発の関係を持っています。AI開発室とNAVERのCLOVAチームがほぼ一体になっていて、マネージャー陣になってくると1日に3回4回と、いろいろな部署と話をするくらいのレベルで仲良く、インターナショナルな研究開発をしています。

(スライドを示して)双方、こんなかたちでつながっています。その間を、このTech PMというのがうまくつなぐという感じの進め方をしています。

これもちょっとビジーな絵ですが、各技術開発というのは、この企画室がするプロジェクトマネジメントの下で、研究開発・プロダクト開発・セールス・運用をワンチームでやっています。そういう一体感のある運営というのが特徴になっています。

AI開発室は、その中で基礎研究、プロダクト開発、および実際に開発されたプロダクトのサービスの運用を担っています。

プロジェクトマネジメント機能があって、その中に研究開発、機械学習のアルゴリズムの構築訓練などがあって、それが出来上がってくるとフロントエンドやバックエンドの開発があって、それら全部を結合してテストをして、リリースします。実際に(スライドを示して)このあたりでお客さまに届くのですが、その運用をサポートするというかたちになります。

この研究開発のところは、先ほど言ったようにNAVERと一緒になってやっています。そのベースに、いろいろなインフラがありますという話です。

コミュニケーションロスを解決するツール・サポート

もう1つ、最もベーシックなインフラというのは、コミュニケーションですが、先ほど言ったようにインターナショナルなチームでやっています。そこはあとで使っているツールを簡単にご紹介しますが、主に「Confluence」や「Slack」などを使っています。

ただ、1つの特徴があって、LINEで使われてるConfluenceやSlackは非常におもしろいことになってます。というのも、インターナショナルなチームなので、日本語で書いても韓国の方はわからないとか、韓国語で書かれても日本人はわからないということがあります。

それを解消するために、Confluenceの各ページのボタンにはJP→KR、KR→JPというボタンがあります。それを押すと、自社製の自然言語のエンジンが作動して、瞬間に言語が切り替わってくれます。

ほかにも、Zoomでの会議ですね。しゃべるのはどうするんだ? というと、これも翻訳Botがいて……と言いたいところですが、まだそこまでのレベルにきていないので、そこは人間の同時通訳さんが専属で会社に所属しています。会社としてはそこにまったく投資を惜しまず、通訳さんを必要に応じて積極的にアサインして会議をやっています。

そうすると、英語力は伸びづらくなりますが、おもしろい現象が発生します。自国語だとしっかりと言い切ることができて、要は会議が終わったあとのモヤモヤ感がまったく無いんですね。言い切るべきことは全部言い切ったみたいな感じになっていて、ロスの無いコミュニケーションを実現する仕組みを構築しています。

インターナショナルな開発と言うと、英語力が……と思われる方もいるかもしれません。英語力は、論文を読み下したりするのにどうしても欲しいのですが、とはいえ、話す能力に関して不安を抱えていたとしても、そこのコミュニケーションは素晴らしいかたちでサポートされているので安心してもらえればと思います。

最新のツールを使っている開発現場

研究開発のプラットフォームです。有名なものがドバッと並んでいるだけといえばそうかもしれませんが、逆に潮流に乗って最新のツールを使っています。

(スライドを示して)これがConfluence、Slack、GitHub、Zoomです。深層学習のフレームワークもこういう有名どころを使っていますし、統計算機に関するオーケストレーションやコンテナもこういうものを使っています。なので、このスライドにあるようなものに慣れておくと非常にいいんじゃないかなと思っています。

AIカンパニーの仕事のやりがい

最後になってきましたが、仕事のやりがいについてご紹介します。これからの当たり前を創り出す。一流にこだわる。そしてそれをインターナショナルなチームでできるというところをお話しします。

先ほど韓国と言いましたが、韓国以外にも、台湾やヨーロッパに広がるNAVERやNAVER Labsとか、一流のR&Dチームがいて、一緒になって論文を書いたりすることもできる環境があります。

先ほど紹介がありましたが、各分野の最高峰の会議で認められるような実績も出しています。私の分野だと、このCVPR(Conference on Computer Vision and Pattern Recognition)があります。論文を1本出すのも非常に大変で、司法試験並みの難しさがありますが、こういうところに出していたりします。

今年度も、ICCV(International Conference on Computer Vision)に論文を2本出しています。そのほか、ICASSP(nternational Conference on Acoustics, Speech, and Signal Processing)も音声分野でトップレベルですね。INTERSPEECHもそうですし、あとはICRA( International Conference on Robotics and Automation)。これはロボティクスですね。あとはユーザーインターフェイス系など、非常にいろいろなところに出しています。

これはLINEだけの結果ですが、NAVERもとなると、ICCVは12本の論文を出しています。

AIモデルを組み合わせてビジネスに展開する「MiLAI(Mixed LINE AI)」

今開発している技術ですが、例えば音声認識で言うと、会議の発話を全部書き起こしてくれる「CLOVA note」というアプリケーションを作っています。

ほかにも抑揚をつけて、痛ましいニュースを読み上げる時にはちょっと暗く、明るいニュースを読み上げる時には明るく読み上げたり、何か同じことを読み上げるのにも、暗いトーン、明るいトーン、それぞれ自由に設定して読み上げることができるような感情音声合成と言われるものを開発しています。

井尻:これが暗い声ですね。

井尻:逆サイドをこうやると……。

井尻:というように、感情を交えて音声合成をできるというコンディショナルなAIアルゴリズムを作っていたりします。

ほかにも、特筆すべきというか、けっこう自慢なのですが、「HyperCLOVA」というプロジェクトがあります。これもあとで少し紹介があるかもしれませんが、大規模汎用言語モデルのことです。

そもそも、これぐらいのパラメーター数になってくると、それを学習しきるということすら、どこでもできることではなくなってくるのですが、そういう計算機リソースをNAVERと運営したうえで、言語モデルを開発しています。

今回はデモはしませんが、すごく自然な対話ができるという、ここの自然さですね。このクオリティのレベルがぜんぜん違います。そんなものを開発しています。

あと、これはニュースリリースに出ていますが、「国会図書館のデジタルアーカイブ化プロジェクト」というものがあります。2.23億ページという天文学的なページ数を書いていますが、全部OCRをかけていくというわけですね。

分量的な問題だけではなくて、かなり昔の文書・文献もあるので、字体が難しいとか、ルビや割中が1行に2段入るとか、そういうのが多かったりして、けっこう苦戦しています。そのあたりを研究開発でなんとかして、アーカイブ化する。そして検索できるようにするということをやっていたりもします。

というように、LINEではいろいろなAIモデルを持っていて、それを組み合わせて、さまざまなビジネスを展開しています。これを、Mixed LINE AIと書いてMiLAI(ミライ)と呼んでいて、そのような技術開発をしています。今後に関しても、いろいろなビジョンを作って、研究開発していこうと思っています。

ぜひ前向きに、私たちとこの素晴らしい環境で働くことを目指して、ご応募いただければと思っています。どうもありがとうございました。