PR2025.11.27
数理最適化のエキスパートが断言「AIブームで見落とされがちな重要技術」 1,300社が導入した「演繹的AI」が意思決定を変える
提供:LINE株式会社
コピーリンクをコピー
ブックマーク記事をブックマーク
Hwalsuk Lee氏:ここまでテキスト検出のお話をしてまいりました。これからは日本語におけるテキスト認識についてお話ししようと思います。
先ほど言いましたように、日本語というのはテキスト認識において、英語に比べると何百倍ものたくさんの文字を扱う必要があります。
そのため、たくさんのテキスト認識の論文を検証いたしました。
Scene Text Recognition(STR)とは何でしょうか? STRというのは、文字列を画像パッチ入力から認識するタスクです。
この場合は「UNITED」という文字列を認識するということになります。
STRについてはこれまでいろいろな研究がされてきました。ですが我々がその評価内容を見たとき、たくさんの問題を発見しました。STR手法の比較においてどんな問題があるのでしょうか。
こちらは先行研究の手法のリストです。このリストをご覧いただくとわかるように、まず学習用のデータセットに一貫性がありません。2つ目に、評価用のデータセットにも一貫性がありません。
それからたくさんのダッシュがあります。ダッシュというのは論文の中で報告されていないものです。
そして、スピードとメモリは必ずしも評価の対象にはなっていません。
そこで、我々はUnified STR評価というものを行っています。
統一されたトレーニングのデータセットがあって、評価のデータセットもあります。そして、時間とメモリー消費も。それぞれのメソッドで我々は測定をしています。
ここに6つの関連性のある論文があります。
それぞれの論文は4つのモジュールの組み合わせと言ってもいいと思います。Transformation、Feature Extraction、Sequence Modeling、そしてPredictionです。ここでは時間の関係でそれぞれのモジュールの詳細は触れないでおきます。
ここからは、各モデルをモジュールの組み合わせとして扱っていきます。我々はそれぞれのモジュールを組み合わせて、評価を行いました。Accuracy、時間、それからパラメータの数で見ていきました。
これら6つの既存の手法での組み合わせは、モジュールの2×3×2×2のオプションからなる、取り得る全ての組み合わせの部分集合ということが言えます。
STRのモジュールについて、可能性のある24通りの組み合わせを考えました。そして性能としてAccuracyを時間とモデルサイズ(パラメータ数)に対してプロットしました。
最初に6つの既存手法でのモジュールの組み合わせを時間に対してプロットして比較しました。
それから、Accuracyに対してモデルサイズ(パラメータ数)についてもプロットして見ていきました。
それから、今度はすべての可能性のある組み合わせを先ほどのプロットの上にプロットしました。
これが最終的なトレードオフプロットです。
これらのプロットでもって、モデルを特定の性能要件で選択することができます。Accuracyとか時間、モデルのサイズといった具合です。
1つおもしろいことが観察されましたけれども、一番いいAccuracyのモデルというのが、既存の組み合わせではなくて、新しい組み合わせから生まれたものです。
驚いたのは、最もすばらしい性能は最も良いAccuracyのモデルからもたらされたものだったのです。このモデルを学習しました。キャラクタ数を増やしていき、日本語の言語に堪えるようにしたわけであります。
このモデルで、長い水平あるいは垂直、カーブした日本語のテキストも認識することができました。
さて、これでLINE BRAIN OCRのフルパイプラインについて説明できるようになりました。
与えられた入力画像に対して、テキスト検出というのはそれぞれのテキストの領域を検出することができます。
ボックスと、それからその向き、つまり角度の情報も含んでいます。それから、それぞれのボックスの回転を補正します。
テキスト領域はテキスト認識モデルの中に入力されます。
どの言語であろうと、どういった書かれ方であってもです。そして、認識結果が出力されます。
Single Recognition Modelというのが、水平・垂直のテキスト、日本語、韓国語、英語に対応できることがわかります。
ということで、私の話も終わりに近づいてまいりました。
Webデモサイトをシェアしたいと思います。Webデモでは、テキスト検出とテキスト認識を組み合わせたものを出しております。論文のモデルよりももっと進んだモデルも掲載してます。
ご清聴ありがとうございました。
(会場拍手)
続きを読むには会員登録
(無料)が必要です。
会員登録していただくと、すべての記事が制限なく閲覧でき、
スピーカーフォローや記事のブックマークなど、便利な機能がご利用いただけます。
すでに会員の方はこちらからログイン
名刺アプリ「Eight」をご利用中の方は
こちらを読み込むだけで、すぐに記事が読めます!
スマホで読み込んで
ログインまたは登録作業をスキップ
LINE株式会社
この記事をブックマークすると、同じログの新着記事をマイページでお知らせします