
2025.02.06
ポンコツ期、孤独期、成果独り占め期を経て… サイボウズのプロマネが振り返る、マネージャーの成長の「4フェーズ」
提供:LINE株式会社
リンクをコピー
記事をブックマーク
Hwalsuk Lee氏:ここまでテキスト検出のお話をしてまいりました。これからは日本語におけるテキスト認識についてお話ししようと思います。
先ほど言いましたように、日本語というのはテキスト認識において、英語に比べると何百倍ものたくさんの文字を扱う必要があります。
そのため、たくさんのテキスト認識の論文を検証いたしました。
Scene Text Recognition(STR)とは何でしょうか? STRというのは、文字列を画像パッチ入力から認識するタスクです。
この場合は「UNITED」という文字列を認識するということになります。
STRについてはこれまでいろいろな研究がされてきました。ですが我々がその評価内容を見たとき、たくさんの問題を発見しました。STR手法の比較においてどんな問題があるのでしょうか。
こちらは先行研究の手法のリストです。このリストをご覧いただくとわかるように、まず学習用のデータセットに一貫性がありません。2つ目に、評価用のデータセットにも一貫性がありません。
それからたくさんのダッシュがあります。ダッシュというのは論文の中で報告されていないものです。
そして、スピードとメモリは必ずしも評価の対象にはなっていません。
そこで、我々はUnified STR評価というものを行っています。
統一されたトレーニングのデータセットがあって、評価のデータセットもあります。そして、時間とメモリー消費も。それぞれのメソッドで我々は測定をしています。
ここに6つの関連性のある論文があります。
それぞれの論文は4つのモジュールの組み合わせと言ってもいいと思います。Transformation、Feature Extraction、Sequence Modeling、そしてPredictionです。ここでは時間の関係でそれぞれのモジュールの詳細は触れないでおきます。
ここからは、各モデルをモジュールの組み合わせとして扱っていきます。我々はそれぞれのモジュールを組み合わせて、評価を行いました。Accuracy、時間、それからパラメータの数で見ていきました。
これら6つの既存の手法での組み合わせは、モジュールの2×3×2×2のオプションからなる、取り得る全ての組み合わせの部分集合ということが言えます。
STRのモジュールについて、可能性のある24通りの組み合わせを考えました。そして性能としてAccuracyを時間とモデルサイズ(パラメータ数)に対してプロットしました。
最初に6つの既存手法でのモジュールの組み合わせを時間に対してプロットして比較しました。
それから、Accuracyに対してモデルサイズ(パラメータ数)についてもプロットして見ていきました。
それから、今度はすべての可能性のある組み合わせを先ほどのプロットの上にプロットしました。
これが最終的なトレードオフプロットです。
これらのプロットでもって、モデルを特定の性能要件で選択することができます。Accuracyとか時間、モデルのサイズといった具合です。
1つおもしろいことが観察されましたけれども、一番いいAccuracyのモデルというのが、既存の組み合わせではなくて、新しい組み合わせから生まれたものです。
驚いたのは、最もすばらしい性能は最も良いAccuracyのモデルからもたらされたものだったのです。このモデルを学習しました。キャラクタ数を増やしていき、日本語の言語に堪えるようにしたわけであります。
このモデルで、長い水平あるいは垂直、カーブした日本語のテキストも認識することができました。
さて、これでLINE BRAIN OCRのフルパイプラインについて説明できるようになりました。
与えられた入力画像に対して、テキスト検出というのはそれぞれのテキストの領域を検出することができます。
ボックスと、それからその向き、つまり角度の情報も含んでいます。それから、それぞれのボックスの回転を補正します。
テキスト領域はテキスト認識モデルの中に入力されます。
どの言語であろうと、どういった書かれ方であってもです。そして、認識結果が出力されます。
Single Recognition Modelというのが、水平・垂直のテキスト、日本語、韓国語、英語に対応できることがわかります。
ということで、私の話も終わりに近づいてまいりました。
Webデモサイトをシェアしたいと思います。Webデモでは、テキスト検出とテキスト認識を組み合わせたものを出しております。論文のモデルよりももっと進んだモデルも掲載してます。
ご清聴ありがとうございました。
(会場拍手)
LINE株式会社
2025.01.30
2月の立春までにやっておきたい手帳術 「スケジュール管理」を超えた、理想や夢を現実にする手帳の使い方
2025.01.29
社内会議は「パワポ」よりも「ドキュメントの黙読」が良い理由 Amazon元本社PMが5つのポイントで教える、資料の書き方
2025.01.28
適応障害→ニート→起業して1年で年収1,000万円を達成できたわけ “統計のお姉さん”サトマイ氏が語る、予想外の成功をつかめたポイント
2025.02.03
「昔は富豪的プログラミングなんてできなかった」 21歳で「2ちゃんねる」を生んだひろゆき氏が語る開発の裏側
2025.01.31
古い手帳から新しい手帳への繰り越し方 手帳を買い換えたら最初に書き込むポイント
2025.02.03
手帳に書くだけで心が整うメンタルケアのコツ イライラ、モヤモヤ、落ち込んだ時の手帳の使い方
2025.01.30
若手が「長く働きたい」と思える職場の3つの要素 データから見る、部下を伸ばす関わり方
2025.01.30
とりあえず60点の資料で議論、不要な文章は「容赦なく削る」 Amazon元本社PMが語る、ドキュメント作成の7ステップ
2025.01.29
何でもできるはNG? CTOが語るエンジニアの成長戦略とキャリア展望
2025.01.07
1月から始めたい「日記」を書く習慣 ビジネスパーソンにおすすめな3つの理由