2024.10.10
将来は卵1パックの価格が2倍に? 多くの日本人が知らない世界の新潮流、「動物福祉」とは
提供:LINE株式会社
リンクをコピー
記事をブックマーク
Hwalsuk Lee氏:ここまでテキスト検出のお話をしてまいりました。これからは日本語におけるテキスト認識についてお話ししようと思います。
先ほど言いましたように、日本語というのはテキスト認識において、英語に比べると何百倍ものたくさんの文字を扱う必要があります。
そのため、たくさんのテキスト認識の論文を検証いたしました。
Scene Text Recognition(STR)とは何でしょうか? STRというのは、文字列を画像パッチ入力から認識するタスクです。
この場合は「UNITED」という文字列を認識するということになります。
STRについてはこれまでいろいろな研究がされてきました。ですが我々がその評価内容を見たとき、たくさんの問題を発見しました。STR手法の比較においてどんな問題があるのでしょうか。
こちらは先行研究の手法のリストです。このリストをご覧いただくとわかるように、まず学習用のデータセットに一貫性がありません。2つ目に、評価用のデータセットにも一貫性がありません。
それからたくさんのダッシュがあります。ダッシュというのは論文の中で報告されていないものです。
そして、スピードとメモリは必ずしも評価の対象にはなっていません。
そこで、我々はUnified STR評価というものを行っています。
統一されたトレーニングのデータセットがあって、評価のデータセットもあります。そして、時間とメモリー消費も。それぞれのメソッドで我々は測定をしています。
ここに6つの関連性のある論文があります。
それぞれの論文は4つのモジュールの組み合わせと言ってもいいと思います。Transformation、Feature Extraction、Sequence Modeling、そしてPredictionです。ここでは時間の関係でそれぞれのモジュールの詳細は触れないでおきます。
ここからは、各モデルをモジュールの組み合わせとして扱っていきます。我々はそれぞれのモジュールを組み合わせて、評価を行いました。Accuracy、時間、それからパラメータの数で見ていきました。
これら6つの既存の手法での組み合わせは、モジュールの2×3×2×2のオプションからなる、取り得る全ての組み合わせの部分集合ということが言えます。
STRのモジュールについて、可能性のある24通りの組み合わせを考えました。そして性能としてAccuracyを時間とモデルサイズ(パラメータ数)に対してプロットしました。
最初に6つの既存手法でのモジュールの組み合わせを時間に対してプロットして比較しました。
それから、Accuracyに対してモデルサイズ(パラメータ数)についてもプロットして見ていきました。
それから、今度はすべての可能性のある組み合わせを先ほどのプロットの上にプロットしました。
これが最終的なトレードオフプロットです。
これらのプロットでもって、モデルを特定の性能要件で選択することができます。Accuracyとか時間、モデルのサイズといった具合です。
1つおもしろいことが観察されましたけれども、一番いいAccuracyのモデルというのが、既存の組み合わせではなくて、新しい組み合わせから生まれたものです。
驚いたのは、最もすばらしい性能は最も良いAccuracyのモデルからもたらされたものだったのです。このモデルを学習しました。キャラクタ数を増やしていき、日本語の言語に堪えるようにしたわけであります。
このモデルで、長い水平あるいは垂直、カーブした日本語のテキストも認識することができました。
さて、これでLINE BRAIN OCRのフルパイプラインについて説明できるようになりました。
与えられた入力画像に対して、テキスト検出というのはそれぞれのテキストの領域を検出することができます。
ボックスと、それからその向き、つまり角度の情報も含んでいます。それから、それぞれのボックスの回転を補正します。
テキスト領域はテキスト認識モデルの中に入力されます。
どの言語であろうと、どういった書かれ方であってもです。そして、認識結果が出力されます。
Single Recognition Modelというのが、水平・垂直のテキスト、日本語、韓国語、英語に対応できることがわかります。
ということで、私の話も終わりに近づいてまいりました。
Webデモサイトをシェアしたいと思います。Webデモでは、テキスト検出とテキスト認識を組み合わせたものを出しております。論文のモデルよりももっと進んだモデルも掲載してます。
ご清聴ありがとうございました。
(会場拍手)
LINE株式会社
2024.11.13
週3日働いて年収2,000万稼ぐ元印刷屋のおじさん 好きなことだけして楽に稼ぐ3つのパターン
2024.11.11
自分の「本質的な才能」が見つかる一番簡単な質問 他者から「すごい」と思われても意外と気づかないのが才能
2024.11.13
“退職者が出た時の会社の対応”を従業員は見ている 離職防止策の前に見つめ直したい、部下との向き合い方
2024.11.12
自分の人生にプラスに働く「イライラ」は才能 自分の強みや才能につながる“良いイライラ”を見分けるポイント
2023.03.21
民間宇宙開発で高まる「飛行機とロケットの衝突」の危機...どうやって回避する?
2024.11.11
気づいたら借金、倒産して身ぐるみを剥がされる経営者 起業に「立派な動機」を求められる恐ろしさ
2024.11.11
「退職代行」を使われた管理職の本音と葛藤 メディアで話題、利用者が右肩上がり…企業が置かれている現状とは
2024.11.18
20名の会社でGoogleの採用を真似するのはもったいない 人手不足の時代における「脱能力主義」のヒント
2024.11.12
先週まで元気だったのに、突然辞める「びっくり退職」 退職代行サービスの影響も?上司と部下の“すれ違い”が起きる原因
2024.11.14
よってたかってハイリスクのビジネスモデルに仕立て上げるステークホルダー 「社会的理由」が求められる時代の起業戦略
2024.11.13
週3日働いて年収2,000万稼ぐ元印刷屋のおじさん 好きなことだけして楽に稼ぐ3つのパターン
2024.11.11
自分の「本質的な才能」が見つかる一番簡単な質問 他者から「すごい」と思われても意外と気づかないのが才能
2024.11.13
“退職者が出た時の会社の対応”を従業員は見ている 離職防止策の前に見つめ直したい、部下との向き合い方
2024.11.12
自分の人生にプラスに働く「イライラ」は才能 自分の強みや才能につながる“良いイライラ”を見分けるポイント
2023.03.21
民間宇宙開発で高まる「飛行機とロケットの衝突」の危機...どうやって回避する?
2024.11.11
気づいたら借金、倒産して身ぐるみを剥がされる経営者 起業に「立派な動機」を求められる恐ろしさ
2024.11.11
「退職代行」を使われた管理職の本音と葛藤 メディアで話題、利用者が右肩上がり…企業が置かれている現状とは
2024.11.18
20名の会社でGoogleの採用を真似するのはもったいない 人手不足の時代における「脱能力主義」のヒント
2024.11.12
先週まで元気だったのに、突然辞める「びっくり退職」 退職代行サービスの影響も?上司と部下の“すれ違い”が起きる原因
2024.11.14
よってたかってハイリスクのビジネスモデルに仕立て上げるステークホルダー 「社会的理由」が求められる時代の起業戦略