LINEのAI OCR「CLOVA OCR」と本人認証デジタルの「LINE eKYC」

中島邦弘氏(以下、中島):本セッションでは「Life on LINEを実現する画像技術のパラダイムシフト」と題してお話しいたします。

本セッションのアジェンダは、こちらを用意しています。私からはまず、AI画像技術の中でも「OCR」と「eKYC」を取り上げて、お客さまとともに今私たちが解くべき課題についてお話しいたします。そして2番目に、私たちが直近数年間でどのような解決をしようとしているのか、具体的な対策をお話しいたします。3番目には、Life on LINEを実現するため、中長期的に目指しているビジョンについてお伝えいたします。

では本題に入る前に、簡単に自己紹介をいたします。私は2年前にLINEに入社して、現在ではAIカンパニーで、画像と動画のAIを担当している中島と申します。よろしくお願いいたします。

それでは、最初のパートに入りたいと思います。DXが推進され、紙や券面で行われていた業務から解放されるため、画像AIを活用するニーズが高まってきています。しかし、コンピュータービジョンに代表される「OCR」や「eKYC」で読み取りする中で、統一された条件下でも、画像AIが精度高く高効率に処理するためには、さまざまな工夫が求められます。

このパートでは、私たちがどのような課題に直面しているかをお話いたします。それではまず私たちのOCRとeKYCの製品について、簡単な概要から説明します。

「CLOVA OCR」とは、LINEが独自に開発した世界最高水準の認識精度を誇るAI OCRです。紙面や画像にあるアナログな文字・文章をデジタルのテキストデータに変換するサービスになります。これにより、労力を費やしていた入力作業を簡単にし、手入力の時間を大幅に削減できます。

「CLOVA OCR」でできることについても、説明いたします。まずさまざまなレイアウトの帳票をテキスト化できる「定型」、次に文書様式を問わず帳票すべての文字を抽出する「非定型」、そして読み取るだけで自動解析してテキスト化できる「特定帳票」、例えばレシートや領収証はこちらになります。

さらにイメージできるように、実際に私たちのAI OCRで文字を読み取っているデモをお見せいたします。最初は手書きの文字で斜めに撮影した場合の読み取り状況です。実際に利用する場合は、必ずしもきちんと縦にして読み取るわけではありません。このような場合でも、きちんと読み取ることができます。さらに悪条件にしてみましょう。紙をクシャクシャにして、読み取れるかを試してみます。これは、お客さまの事例で実際にあるケースと聞いています。このような条件下でも、私たちのAI OCRはしっかりと読み取れます。

続いて「LINE eKYC」です。LINEの文字認証技術と顔認証技術を組み合わせてオンライン上の本人確認を完結するソリューションです。

そして、LINE eKYCができることについても説明します。企業では業務負担の低減、ユーザーでは利便性の向上が求められます。これをeKYCを利用することにより、企業では業務効率化、手続きの簡略化が見込めます。ユーザーに対しては、手間を省くための手続きの簡略化、オンラインの即時申し込みが可能になります。

「OCR」と「eKYC」のジレンマ

ただ、これらの製品をサービス化する上で、抱えているジレンマがあります。

まずはOCRについてです。私たちは特化モデルを作るために、非常に多くのデータを必要としてきました。そしてさらに学習するためにも、多くのコストと時間をかけてきました。そのため、お客さまのスピード感に合わせるのがなかなか難しい状況でした。また、仮にデータの課題をクリアしても、精度が上限に来ているため、費用対効果が見出しにくくなっています。

次にeKYCについて。eKYCを利用する目的は、本人認証のデジタル化があります。その他にも、確認にかかっていた郵送や電話にかけるコスト、審査にかけるコストを低減する効果も見込めます。この全体の流れの効率化やコスト削減により、マイクロプロダクト化が促進され、新しいビジネス創出も考えられます。

ただ、これを実現するためには、多くのレイアウトが存在する身分証の読み取り精度の向上や、軽量で高速な顔認証技術の確立が必要になってきます。

これらのジレンマから、私たちが解くべき課題は、大きく4つに分けた工程の中に潜む課題でした。まず1つ目は学習データの確保の難しさ。今までは、非常に多くの正解データを必要としてきました。これを多くても数百枚程度に抑えたいと考えています。2つ目はアノテーション費用の増大。今までは多くの人員、日数をかけてきましたが、利用者側で直接設定できるようにしていきたいと考えています。

3つ目は、基本的な正確度の向上。処理過程で画像内の情報の欠落によって非効率だった部分がありましたが、少量で文書理解していきたいと考えています。最後に、総工程の長期化。今まで特化モデルを作るために6ヶ月以上かかっていました。これを1ヶ月に短縮できるようにしたいと考えています。

それでは次に、LINEではこの課題を具体的にどのように解決しているかを説明していきます。榮民さん、よろしくお願いいたします。

本人検証のための「OCR」と「eKYC」

白榮民氏(以下、白):こんにちは。私はNAVER株式会社でVisual AIチームのリーダーを担当している白榮民です。私からは約10分間、eKYCに関する技術について発表いたします。

まずeKYCとは何かを説明いたします。eKYCは、オンラインで本人確認することを意味します。例えばLINE Payを使用する場合は、本人確認プロセスが最初に行われます。身分証と顔写真を撮影してもらうことで、簡単に本人確認ができます。これがeKYCで、オンライン本人確認と言います。

ここで、重要な2つの技術コンポーネントがあります。まず身分証認識のためのOCR技術です。それから本人検証のための顔認識技術です。具体的にどのような技術が必要かを申し上げます。

OCR技術は、まず身分証の画像から文字の位置を検出し、その文字がどういった文字かを認識します。最後に得られたテキストは何を示すのか、意味を把握することが必要です。これはText Parsingと呼ばれます。一方、本人検証のための顔認識は、顔を検知し、特徴点を見つけ、顔認識のプロセスが必要になります。

これらの中で、本日はText ParsingとFace Detectionという2つのテーマについて紹介いたします。

Text Parsing技術

まずText Parsingから説明します。技術の説明の前に、どのような種類の身分証があるか調べてみましょう。

定型の身分証は、運転免許証やマイナンバーカードなどがあります。このような形態はレイアウトが固定されているので、文字認識後の意味を把握するのは比較的簡単です。しかしレイアウトが一定でない、学生証や社員証などの非定型の身分証もあります。このような非定型の身分証は、認識された文字の意味を把握することが困難です。

OCRでテキストの意味を解析する手法を、Parsingと呼びます。一般的な解析の手順は、イメージからOCRで文字を認識し、Serializerを通してテキストを一列に整列します。そして、BERTなどの言語モデルを通して、そのテキストが何を示すのかの分類を行います。

しかしこのような方法には、いくつかの限界があります。まず純粋な言語モデルを利用するため、二次元の画像データを一次元に変形するので、レイアウトの情報を失ってしまう問題があります。

次の問題は、言語モデルを学習するためには、大量のデータが必要であることです。これによって、認識モデルの作成にコストが高くなります。

これらの問題を解決するために、私たちは新しい方法を提案しました。まずレイアウト情報を失う問題について、言語モデルに追加して、レイアウトまでモデリングするようにしています。

例えばレシートを認識する時に、従来はテキストを一次元に変更しましたが、私たちが提案する方法では二次元のグラフでモデリングします。この方法を使用して、より複雑なレイアウトの微妙な解析が可能となります。概念的には、テーブルみたいな複雑なレイアウトのテキストでも、関係を定義できます。

第2の問題として申し上げたモデルの作成コストですが、言語とレイアウトを事前学習することで対応します。この方法は「BROS」と呼ばれ、以下の3つの特徴を持っています。

まず二次元のレイアウト情報をモデル化できます。また新たなマスキング方法を提案し、教師なし学習で事前学習を行えます。認識の段階ではグラフに基づいて情報をレコーディングするので、高精度で意味を解析できる特徴があります。

このような事前学習されたモデルは、トランスファーラーニングを通して実際のドキュメントを認識します。事前に言語やレイアウトをいろいろ認識しており、Downstream taskは、少量のデータでもさまざまな文書を認識できるようになります。

このような事前学習は、大きく2つの意味を持っています。まず認識モデルの学習に必要なデータ量を減少できます。私たちの実験では、従来よりも90パーセント程度にデータを減らすことを確認しました。

2番目には、広範囲の認識タスクを行うことができます。ご覧のように事前学習モデルベースで、4つのタスクで実験をした時に、もっとも高い認識率を見せました。

これらの技術は、今後非定型の身分証の認識技術にも活用できるものであり、より多様な文章を簡単にデジタル化ができるので、年内にサービス化できるように準備しています。

Face Detection(顔検出技術)

次に、顔検出技術について説明します。深層学習の発展とともに、過去には扱いにくかった顔認識の問題が解決されています。しかし、実際の顔検出をサービス化するためには軽量化、高速化、高精度の要件を満たす必要があります。これをどうやって実現したのかを説明します。

これは顔検出モデルの基本的な構造を表しています。このFPN構造のモデルでは、レイヤーごとに異なるConvolution APIを学習します。しかし私たちは、これを共有することで、軽量化する方法を提案しました。

2番目のアイデアでは、各レイヤーに存在するResidual Blockを軽くすることです。ブロックBのように最小限のConvolution演算でResidual Blockを構成することにより、高速化を実現しました。

最終的には提案した軽量化モデルで、追加の利点があることがわかりました。それはさまざまな顔のサイズに対応できることです。このスケールロバスト推論は、同じように影響を持つConvolution演算が繰り返されるので、いろいろなスケールの顔を学習できたためです。図に示すように上で共有した場合と共有していない場合を比較すると、activationの結果が類似しており、小さな顔の検出にも有利なことが確認できました。

この方法を定量的な仕様で見ると、ここにある表のとおりです。小さい数のパラメータで演算量を最小限に抑え、高い性能のモデルであるこの3つの要件を満たしていることが確認できます。

以上、私のパートではText ParsingとFace Detectionについて解説しました。次にまた機会があれば、今日説明できなかった他の技術についても紹介できればと思います。最後までお聞きいただきありがとうございました。次は井尻さん、よろしくお願いいたします。

毎回大量のデータを学習させなければならないのは大きな課題

井尻善久氏(以下、井尻):それではここからは、AIカンパニーに新たに誕生しました、Computer Vision Labのマネージャーを務める、井尻がお話しします。

実は私は、先日よりLINEにジョインしたばかりなのですが、今まで約20年間、製造業において最先端の機械学習技術や画像技術を応用した研究開発をしていました。また近年では、ラボの立ち上げなど、研究マネジメントにも携わっており、夢のある研究の世界と実用化の世界をできる限り近づけるための方法について探求しています。

これらの経験を活かして、LINEにおいて高度な画像技術により、私たちの生活を楽にし豊かにするためのサービスを見出すべく、これから活動していきたいと思っています。ですのでここからは、現状の私たちの開発成果というよりは、これから生み出すものについて、決意も含めて少し話たいと思います。

まず、これからのAIを考えていくという時に、今までのAI技術が何を成し遂げ、これから何を課題としていくのかを俯瞰しておくのは、重要なことだと思っています。機械学習が画像技術と融合して実用化されるようになって以来、約20年間、機械学習の1つである深層学習が、画像技術においてブレイクスルーを成し遂げたと認知されるようになってから、約10年間経とうとしています。

この間に機械が人の顔を認識したり、画像に写るさまざまな事象を理解できるようになってきて、いろいろな応用例も生まれています。機械学習や深層学習のメカニズムを少し考えると、大量の対象データに基づいてそれらに共通する統計的な特性をあらかじめモデル化しておくことによって、成り立っています。

ご存知のように、そのプロセスは学習と呼ばれ、それゆえ、あらかじめ大量のデータがあることが想定されています。しかし、新たなサービスの立ち上げなどにより、新たな対象を理解しなければならないという時に、毎回大量のデータを学習させなければならないのでは、スケーラビリティに欠けてしまいます。これを人間の知能と対比して比べて見てみると課題感はより明らかになります。

私たちは新たな環境に置かれた時に、その場所に順応し、新たなことを短期間に習得しようとします。人間にとっては、これは自然なことですが、現状応用されているAI技術は、そのようにはいきません。現状のAI技術は、何万回と対象を見ないと覚えられないとか、あるいは何万回も教示しないとできないのです。

このように考えると、現状のAI技術に明らかな問題があることがわかるかと思います。時間をかけて何かを習得する努力家であることも重要ですが、新しいことを素早く習得してしまうようなスマートさも知能の重要な側面の1つだと言えます。

今までのAI技術では、あらかじめ大量の画像をもとに、対象を覚え、理解できる能力そのものをどのよう獲得するかが焦点になっていました。しかし、今スライドでお見せしていますように、これからのAI技術は、より素早く、より少ないデータで対象を理解したり、変化に順応することが重要になっており、学術分野でもそのような問題意識で、さまざまな研究が繰り広げられています。

知能の本質とは何か

このように、私たちがAI技術を活用してさまざまな問題を解決しようとする時に、知能の本質とは何かという深い問題に直面せざるを得ない状況になっています。この問いに関しては、いろいろな考え方があり、いろいろな方がご意見をお持ちだと思います。しかしながら、私たちは今後AIがビジネスにどのように影響を与えていくかという観点から、ここに示した3つの側面が特に重要になっていくと考えています。

1つ目は、安心して任せられる十分な正確性を備えていること。2つ目は新たな環境や対象に素早く適応できること。3つ目は変化に適応し続けて現場で自律的に賢くなるということです。これをもう少し平たく、私たちのサービスに置き換えて言うならば、安心して人に置き換えられるような十分な精度を実現すること、現場やアプリケーションに合わせて簡単にカスタマイズできるようにすること、現場変化に応じて常に最高のパフォーマンスが発揮できるように調整できること、となります。

これを実現するための方法として、学術分野ではさまざまな方法が研究されており、答えは1つではありませんし、どのように実装するか、どこに実装するかでも最適化が異なるでしょう。しかしここでは、それぞれについて弊社が着目するポイントをもう少し説明したいと思います。

最初に、人を置き換える精度を実現する方法についてです。現状の画像認識では左の図に示したように当然画像認識なので、画像を入力として所望の結果が得られるように深層学習などのモデルを訓練します。十分訓練された深層学習モデルは、高い精度を実現できますが、それでも限られたヒント、限られた情報源だけでは精度は頭打ちになってしまい、人が見ると不自然な結果を出してしまうことも少なくありません。

人にとって自然と思える結果を実現するには、やはり人がやっているのと同じように、多様なヒントをもとに多面的・階層的に判断をしながら、推論をしたり類推をしたりすることが重要になってくると考えられます。

例えば先ほどの榮民さんが出したOCRの例で言うと、画像のパターンだけではなく、現場で利用される用語と照らし合わせて、その認識結果はあり得るのか。あるいは現場で扱っている文書のフォーマットからして、そこにその認識結果が出てくるのは適当なのか、文脈から考えてそれは意味が通じるのか。といったようなことを考えながら、もっともありえる認識結果を推定するということになります。

幸いLINEにおいては、本イベントの他の多くのセッションでも取り扱われているような、非常に多様なモダリティのAIを開発しています。これらを融合して、マルチモーダルな推論ができるようにしていくことで、私たちは高い精度を実現していきたいと思っています。

AIが新たな環境に適応するプロセスをスムーズにする

次に、重要な特性として、簡単にカスタマイズできるようにするということですが、一般的に言ってAIをタスクや環境が異なる現場に投入しますと、想定した環境やタスクとの違いに応じて、謳い文句である精度を実現するのは困難になっていきます。また左の図にあるように、ある特定の目的のために作られた巨大なネットワークは、目的が完全に変化してしまいますと、その目的に合わせて再学習が必要となって、簡単には現場に適用できないことになってしまいます。

このように、AIを新たな環境に適応するということは、私たちサービスプロバイダーにとってもお客さまにとっても、いつも胃が痛くなるようなドキドキのプロセスになってしまうわけです。このプロセスをスムーズに、安心してスケールさせるために、私たちは大きく分けて2つの部分に着目しています。1つは前処理の部分、もう1つはタスクに適合する処理をする後処理の部分です。

前処理については、新たな条件やタスクに対して私たちのエンジンの挙動を最適化するプロンプトチューニングと呼ばれる方法を開発してきています。今までは大規模なネットワーク全体を最適化する必要があったわけですが、このプロンプトチューニングにより、大規模なネットワークの部分は触ることなく、その前段にあたる前処理の比較的小規模なネットワークの部分の最適化のみで済むことになり、より簡単に現場適合が可能になります。

なお、この技術はまだ画像技術には応用されていないので、その画像応用が1つの解決策になるのではないかと考えています。

またもう一方の後処理についてですが、現状応用されているAI技術では、タスクと1対1のかたちで大規模なモデルを学習することが一般的です。一方で、さまざまなタスクを実現するためには、タスクに適合するために出力部を分離してしまって、モジュール化した上で想定されるさまざまなタスクに向けて、さまざまなモジュール群を取り揃えておくことが必要になってきます。

このような方法で、必要に応じてそのモジュールを取り換えることによって、さまざまなタスクニーズに素早くカスタマイズできるようにしていければと思っています。

知識の部分とロジックの部分がうまく切り離されている必要がある

次いで、このようにしてうまくサービスインできたとしても、何らかの変化が起こったり運用が始まってから、問題が発覚するということも多々あります。そのような時に、大量のデータをいつも整備して再学習するというのは、非効率になってしまいます。現状のAI技術においては、ロジックとそれに必要な知識の分離が十分ではないために、ロジックと一体化した知識に何らかの問題が出てきた場合には、全部を合わせて学習し直すということが必要になってしまいます。

一方で、知識の部分とロジックの部分がうまく切り離されていて、現場知識を参照して判断を下すことができるようになる方法が、提案されつつあります。このような技術が実用化できると、知識は現場データで与えることができるようになります。人間で言えば、現場のマニュアルや参考書を参照しながら答えを出すようなものです。

このように適切な結果を出力するためには、どのように現場データを参照すればいいのかという、より上位の知識を事前に学習しておくことができれば、データを入れ替えるだけで挙動を変更できるようになるというわけです。

こうした技術を開発できると、眠っていた大量のデータ資産を活かして現場適応させたりするといったことが簡単になるかもしれません。この手法も、まだ画像技術には応用されていませんが、そのような可能性も見えつつあると思っており、研究開発していきたいと思っています。

今まで3つのポイントについて説明してきましたが、これらによって私たちはさまざまな分野におけるDX、眠るデータの資産活用、高速なカスタマイズや適応改善といったことを可能としていきたいと思っています。こうした技術が可能になると、恐らく今よりも飛躍的にAIの適用範囲は広くなって、私たちもお客さまのビジネスを大きくスケールすることになると思います。

今後のLINE CLOVAの将来に期待してほしい

今までのところで、3つの観点に絞りながら、すなわち複数の階層的な知識モダリティを積極的に活用して自然かつ安心できる正確性を実現すること。簡単にカスタマイズできるフレームワークにすること。現場の眠れるデータを資産活用して持続的に改善し続けられるようにするフレームワークについて、述べました。

これらはいずれも、学術分野を含め現在研究が進む分野ですし、実用化に向けてはかなりの開発投資が求められています。これらについての具体的な要望をお客さまからもらえると、私たちにとってはそれが羅針盤になり、そこに資源集中していきたいと思っているので、ぜひ今後のLINE CLOVAの将来に期待して、お引き合いいただければと思います。本日はご清聴ありがとうございました。私からは、以上です。

中島:榮民さん、井尻さん、ありがとうございました。みなさまいかがでしたか?最後にLINEが画像AIで目指す、これからの当たり前についてお伝えしたいと思います。

AIで行うことは人間の五感に例えられることがあります。その中で、画像AIの技術は視覚に相当すると考えられます。私たちが目で見て判断するには、大量のデータでも長い処理時間を感じることはないはずです。これからの当たり前となるためには、お客さまがデータ量を少なくカスタマイズできて、軽量で高速に処理ができるAIモデル技術の向上を目指していくことが重要だと考えています。