日本語におけるOCR
Hwalsuk Lee氏:ここまでテキスト検出のお話をしてまいりました。これからは日本語におけるテキスト認識についてお話ししようと思います。
先ほど言いましたように、日本語というのはテキスト認識において、英語に比べると何百倍ものたくさんの文字を扱う必要があります。
そのため、たくさんのテキスト認識の論文を検証いたしました。
Scene Text Recognition(STR)とは何でしょうか? STRというのは、文字列を画像パッチ入力から認識するタスクです。
この場合は「UNITED」という文字列を認識するということになります。
STRについてはこれまでいろいろな研究がされてきました。ですが我々がその評価内容を見たとき、たくさんの問題を発見しました。STR手法の比較においてどんな問題があるのでしょうか。
こちらは先行研究の手法のリストです。このリストをご覧いただくとわかるように、まず学習用のデータセットに一貫性がありません。2つ目に、評価用のデータセットにも一貫性がありません。
それからたくさんのダッシュがあります。ダッシュというのは論文の中で報告されていないものです。
そして、スピードとメモリは必ずしも評価の対象にはなっていません。
Unified STR評価
そこで、我々はUnified STR評価というものを行っています。
統一されたトレーニングのデータセットがあって、評価のデータセットもあります。そして、時間とメモリー消費も。それぞれのメソッドで我々は測定をしています。
ここに6つの関連性のある論文があります。
それぞれの論文は4つのモジュールの組み合わせと言ってもいいと思います。Transformation、Feature Extraction、Sequence Modeling、そしてPredictionです。ここでは時間の関係でそれぞれのモジュールの詳細は触れないでおきます。
ここからは、各モデルをモジュールの組み合わせとして扱っていきます。我々はそれぞれのモジュールを組み合わせて、評価を行いました。Accuracy、時間、それからパラメータの数で見ていきました。
これら6つの既存の手法での組み合わせは、モジュールの2×3×2×2のオプションからなる、取り得る全ての組み合わせの部分集合ということが言えます。
24通りの組み合わせを評価する
STRのモジュールについて、可能性のある24通りの組み合わせを考えました。そして性能としてAccuracyを時間とモデルサイズ(パラメータ数)に対してプロットしました。
最初に6つの既存手法でのモジュールの組み合わせを時間に対してプロットして比較しました。
それから、Accuracyに対してモデルサイズ(パラメータ数)についてもプロットして見ていきました。
それから、今度はすべての可能性のある組み合わせを先ほどのプロットの上にプロットしました。
これが最終的なトレードオフプロットです。
これらのプロットでもって、モデルを特定の性能要件で選択することができます。Accuracyとか時間、モデルのサイズといった具合です。
1つおもしろいことが観察されましたけれども、一番いいAccuracyのモデルというのが、既存の組み合わせではなくて、新しい組み合わせから生まれたものです。
驚いたのは、最もすばらしい性能は最も良いAccuracyのモデルからもたらされたものだったのです。このモデルを学習しました。キャラクタ数を増やしていき、日本語の言語に堪えるようにしたわけであります。
このモデルで、長い水平あるいは垂直、カーブした日本語のテキストも認識することができました。
LINE BRAIN OCRのフルパイプライン
さて、これでLINE BRAIN OCRのフルパイプラインについて説明できるようになりました。
与えられた入力画像に対して、テキスト検出というのはそれぞれのテキストの領域を検出することができます。
ボックスと、それからその向き、つまり角度の情報も含んでいます。それから、それぞれのボックスの回転を補正します。
テキスト領域はテキスト認識モデルの中に入力されます。
どの言語であろうと、どういった書かれ方であってもです。そして、認識結果が出力されます。
Single Recognition Modelというのが、水平・垂直のテキスト、日本語、韓国語、英語に対応できることがわかります。
ということで、私の話も終わりに近づいてまいりました。
Webデモサイトをシェアしたいと思います。Webデモでは、テキスト検出とテキスト認識を組み合わせたものを出しております。論文のモデルよりももっと進んだモデルも掲載してます。
ご清聴ありがとうございました。
(会場拍手)