AI開発室の組織体制とプロジェクト
戸上真人氏(以下、戸上):それではAI開発室の組織体制とプロジェクトについてということで、LINEのAI開発室で室長をしています私、戸上からお話ししようと思います。
私自身は東京にいますが、この後お話しするいろいろなプロジェクトは、東京と京都をまたがってやっているものになります。ということで、すべて京都も絡んでいるといったところで、認識してもらえければと思っています。
最初にちょっと簡単に自己紹介しようと思いますが、私自身は航空宇宙工学という観点で人工知能の研究や開発をやってきました。
LINEに入ったのは2018年6月なのですが、それまで日立の中央研究所や日立アメリカ、スタンフォードにもちょっと在籍していました。専門分野は音声認識で、雑音環境でも人の声を聞き取れる音声認識や、音源分離技術を研究開発してきました。ちょうど8月に、この『Pythonで学ぶ音源分離』という本も出しています。
AI開発室は、プロダクト開発、基礎研究など、いろいろな人がいるチームですが、私自身はAI開発室長をやりながらリサーチチームもマネージャーとして見ています。
今日はAI開発室とはどういうものかという紹介と、AI開発室で開発しているプロダクト、あとR&Dの活動に関して紹介しながら、そのようなAI開発室で今募集しているポジションを紹介したいなと思っています。
AI開発室が目指す「人にとって使いやすいAI」
先ほど御代田さんからもありましたが、私たちのAI開発室には、AIの基礎研究からプロダクト開発、運用管理までいろいろなメンバーが揃っていますが、1つのチーム、ワンチームとしてAIのプロダクトを世の中に出してこうといった思いで開発を進めています。拠点も東京と京都にまたがっていますが、同じゴールを目指して一緒に開発を進めています。
AIという言葉がだいぶ市民権を得てきたなと思っていますが、まだまだAIというと「人の仕事を奪っちゃうものなんじゃないか」「効率化のみを追求するんじゃないか」といった不安を抱いている方が多いのかなと思っています。
私たちはこういったものを目指すんじゃなくて、あくまでも人のためになる、人の生活や人の仕事の中に存在する煩わしいことを肩代わりするような、人に寄り添った、「ひとにやさしいAI」を実現していこうという思いで開発を進めています。
といったことで、「人」というのが1つのキーワードになっていまして、人を理解して、人にとって使いやすいAIを提供したいなと思っています。
そのために技術要素という観点では、人が普通に生活の中で使っている音声であったり、自然言語、あとは表情などの画像といった、いわゆるメディアコンテンツの認識や生成のAI開発にフォーカスをして、こういったAIに関するプロダクトを世の中に出してこうと今開発活動を進めています。
そういったことで、今注力しているAIの分野はこうなっていまして、スピーチ、音声認識、ビジョン、OCR、フェイス、こういった画像処理に関する技術や、音声合成、NLU、自然言語処理といったところを幅広く研究開発しています。
LINEのAI技術の歴史
もともと、LINEがAI技術を活用したプロダクトを手がけるようになったのは、2017年に発表したスマートスピーカーCLOVA WAVEがきっかけです。
日本語の展開においては、他社からもいろいろなAIスピーカーが出ていますが、他社よりも早く日本の市場に出せたと感じています。
その後、LINEのキャラクターをモチーフにしたCLOVA Friendsをリリースをして、スピーカーの事業展開してきましたが、このような音声対話の技術を開発するために必要な音声認識とか合成技術、自然言語処理といった技術を、スマートスピーカーだけじゃなくて、他の用途にもどんどん展開してこうと、研究開発を進めています。
なので2019年からは、このようなAI技術を外部向けに展開する、いわゆるBtoBの事業にかなりフォーカスして、今事業展開をしている状況です。
LINEのAIプロダクト
ちょっといくつかAIのプロダクトを紹介しようと思います。1つ目はLINE AiCallです。いわゆる電話で自動応答ができるもので、かなり曖昧性が高い発話でも、ちゃんと意図を汲み取れることを目指しています。
たとえばレストランでの電話予約対応はみなさんやられていますが、やっぱりそれって非常にコストがかかっていると。そこをなんとかAIで肩代わりができないかということで、飲食店の予約台帳を持つエビソル社などの企業と協業して、レストラン予約がAIで自動的に受け付けるようなサービスを展開しています。
またヤマト運輸さまとの協業では、集荷受付業務をLINE AiCallで、音声対話で自動的に受け付けるような事業も展開しています。このような音声認識、対話技術を使って、ユーザーのコストを削減するといったような観点であったり。
2つ目はeKYC。今銀行口座開くために本人確認が必要になり、本人確認資料を銀行に送り、それを銀行サイドでチェックをして、人でチェックをしてようやく口座開設できるようになりますが、そういう作業をいかに減らすのかにフォーカスしていまして、運転免許証みたいなものから自動的に本人確認情報を読み取って、その場で本人確認をして口座開設するようなサービスを展開していたり。
最後にOCR。請求書や領収書、こういったものから経費精算に必要な情報を読み取って、自動的にそれを機械的に読み取り可能なフォーマットに変換して、後の処理に回せるようなOCRに関する技術も展開しています。
こういったさまざまな人々の日々の仕事とか生活の中で生じる煩わしいことを取り除くようなプロダクト開発を進めています。
こういったところを短期的には今進めていて、事業化はどんどん広がっているような状況なのですが、我々としては中長期を見据えてこのように技術開発していきたい、プロダクト開発していきたいと思っていまして。
中長期的なプロダクト
2020年の11月に、LINE DEVELOPER DAYが開催されたんですが、そこで発表したのは、これから中長期的に起こるAIのテクノロジートレンドを予想して、それに基づいて技術開発、プロダクト開発をしてこうといったことを話しました。
これをトップダウンで作ったのではなくて、それぞれAIに関わっているエンジニアや企画者が入って、いろいろな案を出して、それをまとめあげて、こういうプランを作りました。
今まさにこういったプランに基づいて、例えばダークデータという軸だと、今まで使われてこなかったデータは世の中にいっぱいありますが、それが使えるようになると、超大規模な言語モデルが作れるんじゃないかと。そういったプランを導き出しまして、こういったものに基づいて、日本語初となると思っていますが、超大規模な言語モデルを今まさに開発中です。
そういったものが世の中に出てくと、どうしてもやっぱり人々の不安は「そのAIの出力結果って公平性が大丈夫なのかな」であったり「信頼性がどうかな」といったところが当然心配になると思いますが、そういうところを補填するTrustworthy AIも合わせて技術開発していこうとしています。
LINEが技術開発しているAI
いくつかちょっと技術開発しているものを紹介したいと思います。これはNeural End to end Speech Transcriber、NESTと呼んでいますが、いわゆるエンド・トゥ・エンドの音声認識技術です。
人の声をテキストに変換する音声認識技術、この技術をDNNを使ってさらにこう最適化してこうということで、いろいろなモデルがあるんですけれども、それを単一のDNNとして統合的に学習するような技術を開発しています。
これによって、人の話し言葉の認識性能が格段に向上すると考えていまして、議事録アプリといったところに展開して、世の中に出してこうと、今まさに進めているところになっています。
それに加えて議事録だと、テキストになったとしてもどうしても「これ誰の発言かわからない」というところが生じますので、これに関しても話者認識技術とうまく統合して、議事録アプリのペインポイント、誰の発言かわからない、こういったところも対応するものを世の中に出していこうとしています。この開発も京都のメンバーがかなり深く関与して開発を進めています。
もう1つは、これはリサーチの結果なのですが、音声を認識するだけじゃなくて、例えばドアの音や異常な音を検出しよう、環境音を識別しようといった先駆的な研究も取り組んでいまして。これはDCASE2020という、環境識別の分野で有名な国際会議の、task4で私たちは世界で1位を取れるようになってきました。
こういった研究開発も現在いろいろ取り組んでいまして、もう1つが音声合成で、これはParallel WaveGANという技術で、これまでよりも速くて、とても精度が高いようなものを開発いたしました。
これは2020年にICASSPというトップカンファレンスで発表したものですが、今引用数は250件を超えていて、注目を集めています。まさにこの技術を発表した、山本というエンジニアは、京都開発室に所属しているメンバーです。
またちょっと先ほど言った超大規模モデル、こういったところは、今絶賛開発中でして、1750億超パラメーターという、非常に多くのパラメーターを有する汎用言語モデルを開発していこうとしています。
これは非常に汎用的なので、1つの用途に対して1つのモデルを学習するのではなく、汎用的なモデルで質問応答、雑談、発想支援、こういったさまざまな用途に活用できるものになると考えています。こういったものをコンソーシアム化して、いろいろな方に使ってもらえるようにしてこうと今進めています。
まさにこの言語モデル、開発するために必要なコーパスをいかに生成するか。そういったところにかなり京都開発室のメンバーが深く関与していて進めているような状況になっています。
LINE AIの基礎研究
そして、基礎研究。ちょっとまとめますと、2019年からこういったところを始めていて、国際会議の論文数もかなり増えてきていて、現在音声関連では国内トップクラスになってきているかなと思っています。
こういったところも、京都の大学の方や、関西圏の大学の先生方とも深く連携しながらこういう成果を出している状況です。
最後にロケーションとポジションですが、先ほどお話ししたとおり、東京と京都の2拠点にまたがり、垣根なくワンチームとして開発活動を実施しています。AI基礎研究、サーバーサイド、フロントエンド、テクニカルプロジェクトマネージャー、それぞれのリサーチャー、エンジニアなど、かなり広範のポジションを募集しています。ただ、それぞれここは東京でここは京都だけ、ということを考えておらず、東京や京都関係なくこういったポジション募集していきたいなと思っています。ぜひ、ご応募いただければと思います。
ご清聴ありがとうございました。