ログイン

会員登録

検索

お知らせ

ログイン

メニュー

検索

お知らせ

ログイン

メニュー

LINE DEVELOPER DAY 2019

2019.11.20 - 2019.11.21

NAVER ClovaのOCR（光学的文字認識）（全2記事）

2020.04.07

Brand Topics

精度の高い日本語OCRを実現する技術　LINE BRAIN OCRのパイプラインを解説

コピーリンクをコピー

ブックマーク記事をブックマーク

画像・スライド一覧

2019年11月20、21日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2019」が開催されました。1日目は「Engineering」をテーマに、LINEの技術の深堀りを、2日目は「Production」をテーマに、Web開発技術やUI/UX、プロジェクトマネジメントなど、より実践的な内容についてたくさんのプレゼンテーションが行われました。「NAVER ClovaのOCR（光学的文字認識）」に登壇したのはNAVER OCR Team AI ResearcherのHwalsuk Lee氏。深層学習を用いたOCR技術の仕組みについて語りました。講演資料はこちら

日本語におけるOCR

Hwalsuk Lee氏：ここまでテキスト検出のお話をしてまいりました。これからは日本語におけるテキスト認識についてお話ししようと思います。

先ほど言いましたように、日本語というのはテキスト認識において、英語に比べると何百倍ものたくさんの文字を扱う必要があります。

そのため、たくさんのテキスト認識の論文を検証いたしました。

Scene Text Recognition（STR）とは何でしょうか？　STRというのは、文字列を画像パッチ入力から認識するタスクです。

この場合は「UNITED」という文字列を認識するということになります。

STRについてはこれまでいろいろな研究がされてきました。ですが我々がその評価内容を見たとき、たくさんの問題を発見しました。STR手法の比較においてどんな問題があるのでしょうか。

こちらは先行研究の手法のリストです。このリストをご覧いただくとわかるように、まず学習用のデータセットに一貫性がありません。2つ目に、評価用のデータセットにも一貫性がありません。

それからたくさんのダッシュがあります。ダッシュというのは論文の中で報告されていないものです。

そして、スピードとメモリは必ずしも評価の対象にはなっていません。

Unified STR評価

そこで、我々はUnified STR評価というものを行っています。

統一されたトレーニングのデータセットがあって、評価のデータセットもあります。そして、時間とメモリー消費も。それぞれのメソッドで我々は測定をしています。

ここに6つの関連性のある論文があります。

それぞれの論文は4つのモジュールの組み合わせと言ってもいいと思います。Transformation、Feature Extraction、Sequence Modeling、そしてPredictionです。ここでは時間の関係でそれぞれのモジュールの詳細は触れないでおきます。

ここからは、各モデルをモジュールの組み合わせとして扱っていきます。我々はそれぞれのモジュールを組み合わせて、評価を行いました。Accuracy、時間、それからパラメータの数で見ていきました。

これら6つの既存の手法での組み合わせは、モジュールの2×3×2×2のオプションからなる、取り得る全ての組み合わせの部分集合ということが言えます。

24通りの組み合わせを評価する

STRのモジュールについて、可能性のある24通りの組み合わせを考えました。そして性能としてAccuracyを時間とモデルサイズ（パラメータ数）に対してプロットしました。

最初に6つの既存手法でのモジュールの組み合わせを時間に対してプロットして比較しました。

それから、Accuracyに対してモデルサイズ（パラメータ数）についてもプロットして見ていきました。

それから、今度はすべての可能性のある組み合わせを先ほどのプロットの上にプロットしました。

これが最終的なトレードオフプロットです。

これらのプロットでもって、モデルを特定の性能要件で選択することができます。Accuracyとか時間、モデルのサイズといった具合です。

1つおもしろいことが観察されましたけれども、一番いいAccuracyのモデルというのが、既存の組み合わせではなくて、新しい組み合わせから生まれたものです。

驚いたのは、最もすばらしい性能は最も良いAccuracyのモデルからもたらされたものだったのです。このモデルを学習しました。キャラクタ数を増やしていき、日本語の言語に堪えるようにしたわけであります。

このモデルで、長い水平あるいは垂直、カーブした日本語のテキストも認識することができました。

LINE BRAIN OCRのフルパイプライン

さて、これでLINE BRAIN OCRのフルパイプラインについて説明できるようになりました。

与えられた入力画像に対して、テキスト検出というのはそれぞれのテキストの領域を検出することができます。

ボックスと、それからその向き、つまり角度の情報も含んでいます。それから、それぞれのボックスの回転を補正します。

テキスト領域はテキスト認識モデルの中に入力されます。

どの言語であろうと、どういった書かれ方であってもです。そして、認識結果が出力されます。

Single Recognition Modelというのが、水平・垂直のテキスト、日本語、韓国語、英語に対応できることがわかります。

ということで、私の話も終わりに近づいてまいりました。

Webデモサイトをシェアしたいと思います。Webデモでは、テキスト検出とテキスト認識を組み合わせたものを出しております。論文のモデルよりももっと進んだモデルも掲載してます。

ご清聴ありがとうございました。

（会場拍手）

続きを読むには会員登録
（無料）が必要です。

会員登録していただくと、すべての記事が制限なく閲覧でき、
スピーカーフォローや記事のブックマークなど、便利な機能がご利用いただけます。

無料会員登録

すでに会員の方はこちらからログイン

または

名刺アプリ「Eight」をご利用中の方は
こちらを読み込むだけで、すぐに記事が読めます！

スマホで読み込んで
ログインまたは登録作業をスキップ

名刺アプリ「Eight」をご利用中の方は

デジタル名刺で
ログインまたは会員登録

ボタンをタップするだけで

すぐに記事が読めます！

LINE株式会社

この記事のスピーカー

Hwalsuk Lee
NAVER OCR Team AI Researcher
プレゼンター

同じログの記事

この記事をブックマークすると、同じログの新着記事をマイページでお知らせします

コミュニティ情報

LINE DEVELOPER DAY

記事数: 161

Brand Topics

2026.04.07

若手社員の7割が「管理職になりたい」を選ばない　調査でわかった課題と打開策

2026.03.24

「成果より努力を評価してほしい」　Z世代新入社員に広がる“プロセス重視”の背景

2026.03.25

新人の配属1〜3ヶ月目は「自信がなくなるフェーズ」　部下のタイプ別育成アプローチ

2026.03.16

製造業の6割が警戒する自然災害　予期せぬリスクで事業を止めないための「BCP×保険」の現実解

2026.02.26

メール共有しても二重対応や漏れ･･･　コールセンターの悩みを解決する「楽楽自動応対」の4つの機能

2026.02.27

「印象評価」からの脱却　経営層や現場を巻き込む“タレントマネジメント”の正しい進め方

2026.02.27

人事と現場が抱える「3つのズレ」とは　組織の成長を加速させる「タレントマネジメント」活用術

2026.01.19

業務フローを変えずに、メール1通3分を削減　自動でAIにナレッジが貯まる問い合わせシステム「楽楽自動応対」

2026.01.26

新規開拓でBtoBマーケターが直面する2つの課題　アポ獲得コストを2分の1にする、楽楽メールマーケティング活用法

2026.01.08

入社4年目の社員が“暗黒のExcel時代”を改革　売上金額2倍、年間110万円のコストカットを実現した方法

Brand Topics

2026.04.07

若手社員の7割が「管理職になりたい」を選ばない　調査でわかった課題と打開策

2026.03.24

「成果より努力を評価してほしい」　Z世代新入社員に広がる“プロセス重視”の背景

2026.03.25

新人の配属1〜3ヶ月目は「自信がなくなるフェーズ」　部下のタイプ別育成アプローチ

2026.03.16

製造業の6割が警戒する自然災害　予期せぬリスクで事業を止めないための「BCP×保険」の現実解

2026.02.26

メール共有しても二重対応や漏れ･･･　コールセンターの悩みを解決する「楽楽自動応対」の4つの機能

2026.02.27

「印象評価」からの脱却　経営層や現場を巻き込む“タレントマネジメント”の正しい進め方

2026.02.27

人事と現場が抱える「3つのズレ」とは　組織の成長を加速させる「タレントマネジメント」活用術

2026.01.19

業務フローを変えずに、メール1通3分を削減　自動でAIにナレッジが貯まる問い合わせシステム「楽楽自動応対」

2026.01.26

新規開拓でBtoBマーケターが直面する2つの課題　アポ獲得コストを2分の1にする、楽楽メールマーケティング活用法

2026.01.08

入社4年目の社員が“暗黒のExcel時代”を改革　売上金額2倍、年間110万円のコストカットを実現した方法

精度の高い日本語OCRを実現する技術　LINE BRAIN OCRのパイプラインを解説

日本語におけるOCR

Unified STR評価

24通りの組み合わせを評価する

LINE BRAIN OCRのフルパイプライン

この記事のスピーカー

同じログの記事

コミュニティ情報

Brand Topics

Brand Topics

人気の記事

新着イベント

精度の高い日本語OCRを実現する技術 LINE BRAIN OCRのパイプラインを解説

日本語におけるOCR

Unified STR評価

24通りの組み合わせを評価する

LINE BRAIN OCRのフルパイプライン

この記事のスピーカー

同じログの記事

コミュニティ情報

Brand Topics

Brand Topics

人気の記事

新着イベント

精度の高い日本語OCRを実現する技術　LINE BRAIN OCRのパイプラインを解説