LINEのコンピュータビジョン技術の現状と将来

栄藤稔氏(以下、栄藤):ここからは、LINEのコンピュータビジョン技術の現状と将来について、パネルディスカッションのかたちでトークしたいと思います。みなさん40分間、どうぞお付き合いをよろしくお願いします。

まず自己紹介から始めます。私、大昔に実はコンピュータビジョンで学位を取りまして。今は大阪大学の教員やっていますが、LINEのAIカンパニーの技術アドバイザリーとして、いろいろとコンピュータビジョン関係、AIに関する技術についてのディスカッションをやっています。今日はモデレーターを務めますので、よろしくお願いいたします。

7月1日に、LINEではコンピュータビジョンラボ(Computer Vision Lab)という組織が、AIカンパニーの中で立ち上がりました。コンピュータビジョンを得意とする専門家が集まってこれからの技術開発をやっていこう、またそれに関する事業を展開していこう、ということをやっています。まずはそのマネージャーになりました、井尻善久さんを紹介します。

井尻さんは、私の古いコンピュータビジョン仲間の1人でして、オムロンでは「OKAO Vision」って呼ばれている顔認識の技術開発と事業展開を同時にやってきた人です。この7月にLINEに入社されて、コンピュータビジョンラボを立ち上げました。研究とビジネスの両方をやっていくというスーパーマンです。

次に紹介する藤原研人さんは、ワインが大好きですね。飲むのが大好きで、コンピュータビジョンで学位を取られた研究者です。この後説明しますが、幾何情報解析のエキスパートになります。

今日は、私でも簡単に理解できる幾何情報解析の話をしてもらいます。「最先端の研究を、ちゃんとやっているぞ」「その先に事業展開を見据えて、みんなでそれを見つめている」というところをわかっていただければと思います。

そして、岡本大和さんです。岡本さんは実は体育会系出身で、現在もラグビー部で背番号14のウィングをやっているラガーマンでして、一方で技術者でもあります。

やはり二刀流人材は、最近すごくニーズが高くて、彼はそういう意味で体育と技術ができることと、画像のパターン認識が得意分野なので、そこの技術開発と事業開発を同時にできることが売りです。この後ドキュメント解析を中心に、話をしてもらいます。

アジェンダは、まず前半部分がLINEのコンピュータビジョン技術の学会を中心とした、とがっている部分の仕事自慢です。後半がマルチモーダル技術の部分で、ドキュメントを中心とした話になります。

コンピュータビジョンはどういう技術か

ここでまず、LINEのコンピュータビジョンの話をする前に、コンピュータビジョンとはそもそもどういう技術かを、井尻さんから説明してもらいたいと思います。

井尻善久氏(以下、井尻):はい。この短い時間でコンピュータビジョンの技術が何かを正確に説明するのはなかなか難しいのですが、一言で言ってしまうと、ヒトの視覚認識処理を模倣しようという技術です。

我々が実際にやっている作業を考えてみますと、ほとんどの作業が視覚に頼ってやっていることがわかります。ということで、そのヒトの作業を代替したり、ヒトを補助したりする、非常に重要な技術になってくることがわかるかと思います。

ヒトの作業をどんどんと自動化していって、DXなどにも結びつけることもできる、非常にビジネスにとって将来性がある分野になります。

従来は、ジオメトリーやオプティクスなど、画像生成プロセスをモデル化するのが中心だったのですが、そこに加えて、パターン認識や深層学習技術などと結びついて、画像の認識・理解・生成技術全体を包含するようなかたちで、日進月歩、進化しています。

なので、LINEでもいろいろなアプリケーションを開発しています。例えばこのスライドの左に載せている顔認識、非常に正確な顔認識を保有していて、それを本人確認に使ったり、顔認識のゲートに使ったりして、さまざまなかたちでみなさんの手元に届けています。

真ん中がCLOVA OCR。これは文字認識技術です。近年では、さまざまな調書や請求書、レシートといったものを読み取って、デジタル化をどんどん進めていくニーズが広がっていて、そのようなかたちで活用しています。

一番右に示しているのが、CLOVA Visionという部分です。これは物体検出の技術、画像検索の技術に関わるところで、もしかしたらみなさんもご存じかもしれませんが、LINEショッピングにはSHOPPING LENSという機能があります。みなさんがスマホで画像撮ると、そこに写っている商品が一目瞭然にわかって、簡単に購入できるサービスです。

このように、スマホを中心として、我々はいろいろなアプリケーションを展開していて、近年ではDXのために、あるいは本人確認のために、かなりエンタープライズ向けにも用途が広がってきています。

そういった、国内のお客さんに対するレスポンス、サポートを良くしたりする目的で、先ほど冒頭に栄藤さんのほうから紹介してもらったように、コンピュータビジョンラボをこの7月に設立しました。

LINEのコンピュータビジョン研究

栄藤:すごいですね。CVL、コンピュータビジョンラボができたということですが、ではこれまでのLINEのコンピュータビジョン研究がどうだったか話をしてみたいです。

LINEというと、音声対話や自然言語だと思われるかもしれません。まさにそうなのですが、実はその横でちゃんとコンピュータビジョンをやっていたということをわかってもらいたいですね。

コンピュータビジョンは、最近けっこう人気が出てきていて、私が若かった頃、学位を取った頃に比べると、相当違っていると思います。そこらへんは井尻さん、どうですか。

井尻:はい、そうなんですね。ここのスライドに示しているのが、コンピュータビジョン技術がどれぐらい進展しているかということを示す1つの指標なのですが、Computer Vision and Pattern Recognitionという、この分野で最高峰といわれる学会における論文投稿数の遷移になります。これを見ますと、2017年ぐらいからググッと上がっていることが見てとれるかと思います。

この画像認識の分野で「深層学習がブレイクスルーを成し遂げた」といわれているのが2012年ぐらい。それからじわじわと研究が進んできた。その中で、いろいろな応用が考えられることがわかってきたし、実際さまざまな社会問題が解決できることがわかってきた。

そういう中で、非常に多くのエンジニアや研究者がこの業界に興味を持って、さまざまな研究を繰り広げています。

それに伴って、かなり競争も激化してきているし、変化のスピードも早くなっていて、我々にとっても非常に大きなチャレンジになっている分野です。

栄藤:なるほど。しかし私の若い時って、もっと楽だったんです。

井尻:私がこの業界に入ってきたのは、2002年とか2003年ですね。その頃を見てみますと1,000件ぐらい。それが今7,000件を超える勢いですから、7倍になっている。でも栄藤さんの時は、もっと昔ですよね。

栄藤:はい、私の自慢はこの後出てくる「ICCV」という学会のオーラル、いわゆる口頭発表にファーストオーサーで通ったのが自慢でした。ベルリンの壁崩壊直後の1993年なので、統計にもなっていないんですが。投稿数が数百件くらいです。

井尻:1996年で500件なので、それから14倍に伸びているということになりますね。

多くの研究者が注目している分野

栄藤:とはいえ、今はもっといい時代になっていると思うんです。これだけの投稿数が出ている学会って、すごいと思います。

井尻:そうですね。先ほど「競争が激化している」という話をしましたが、それに伴ってインパクトファクターと呼ばれる論文の引用件数を元にした学術誌や学会の重要度を示したものを、ここに示しています。

これはGoogleが出している統計ですが、上から順番に見ていくと、『Nature』や『Science』など、みなさんよくご存じの非常に著名なジャーナルがあります。

そして色付けしているところが、コンピュータサイエンスに関わるところです。AIあるいはコンピュータビジョンも含む分野になっています。これがかなり上位にランクインしてきているのがわかります。

特筆すべきはピンク色で示しているところです。これが、コンピュータビジョンに関わる学会ですが、4位に入っているのが「Computer Vision and Pattern Recognition」、先ほど統計で示したものです。

それが今や『Nature』や『Science』に匹敵するような重要度を持ってきているという、そんなところからも、非常に重要になってきていることがわかると思います。

その次に示すところは、31番に出ている「ICCV」という学会です。これは2年に1回なのでこれぐらいになっていますが、1年に1回開催した場合これの倍ぐらいだと考えると、やはり「CVPR」と同じぐらいのレベルになっていると考えられます。

栄藤:コンピュータビジョンの論文が、『Nature』や『Science』と同じインパクトを持つというのは、すごいですね。この会議に、藤原さんが2本論文通したのは、ちょっとすごいですね。

井尻:そうですね。

LINEから採択された2件の論文

栄藤:ということで、今からその自慢話を聞きたいと思うんですが、どうですか、藤原さん。

藤原研人氏(以下、藤原):ありがとうございます。今回の統計は、今ご覧のとおりの数だったのですが、去年(2020年)の「CVPR」に引き続き、今年(2021年)の「ICCV」には、我々のグループから2件の論文が採択されました。

大阪大学の松下研究室との共同研究で、1つは口頭発表が全体の3パーセントに選ばれて、もう1つはポスター発表で採択されました。双方とも3次元、あるいは空間情報の処理に焦点を置いた研究になっていて、複数の視点から撮影された映像解析に有効な手法です。

最初のオーラル論文、GSLR紹介をします。冒頭でありましたとおり、コンピュータビジョンは、視覚から得られる情報を解析して、そこから有益な情報を抽出するような分野です。

主な視覚情報のメディアとして最初に思いつくのが、みなさんもお持ちのカメラなどで得られる画像だと思います。

この類のデータは、座標系がしっかり決まっています。原点がどこであるか、右はどちらか、下はどちらかというのは、この左の図のとおり、わかると思います。かつ画素の並びも規則的であるため、さまざまなアルゴリズムが使えて、解析が容易です。

一方で、今回題材になっている空間情報を把握するためには、たいてい3次元の点群という情報を使うことが多いです。点の集合です。ただこの形式になると、先ほど述べた画像のような便利な性質がすべてなくなってしまいます。

例えば座標系などは、ものが回転するとすぐ変わってしまいますし、右の点が何番目にくるかなどの順序も任意になっていて、順番が変わっても、このようにウサギはウサギのママになっていて、扱うのが難しいデータになっています。

さらにさまざまな方向から観察した空間情報を解析するに当たって、複数の視点から撮られたものを、統一して1つの座標系に示すことが必須になってきます。通常、対応する点の間の空間的誤差を最小化するために変換を加えることで、これを実現します。

変換というのは、いわゆる移動です。例えば回したり、奥に動かしたり。しかし、先ほどのような点群の性質のために、これは難しい問題となってしまいます。

例えば、このようなノイズまみれの物体の対応関係を、どうやって取ったら良いのかは、人間だとなんとなくわかるのですが、なんとなくしかわからない。それを定式化しなきゃいけない問題があります。

一番簡単な問題として、理想の状態を考えます。ここでAとBがありますが、それぞれ点群だとして、先ほどの変換、移動をXとして求める問題を考えます。

理想的な場合だと、このようにまったく同じものを、まったく同じ位置で撮影したものは、姿勢だけが違うということになると思いますが、その場合は各行の差が最小になるような変換Xを求めれば良いことになり、これはこの式のように、一般的な線形回帰の問題として定義できます。教科書で見たことあるようなかたちですよね。

しかしここでは、点Aと点Bの対応関係が完璧にわかっている状態を仮定しているため、現実的にそんな状態はなかなかないですよね。コンピュータグラフィックスの世界ぐらいじゃないか? という感じです。

Shuffled Linear Regressionという問題設定

それを解決するために定義されたものが、このShuffled Linear Regressionという問題設定です。

先ほどの問題と同様、変換Xを求めていきますが、それと同時に置換行列Pを最適化に入れることで、AとBの順序がわかってなくても、置換行列Pでもっともらしい組み合わせを求めながら、最適な変換Xを求める、という問題設定です。このようにBの行列の、行の位置が変わりますね。

ただ、これにも穴があるんですけれども、お気づきでしょうか。

栄藤:え、なんだろう。

藤原:実は、順序は得られるのですが、AとBの行数が同じであることが暗に求められているんですね。なので、先ほどの絵にあったような、外れ値やノイズがあると、破綻するのが問題になっています。

今回の研究では、Shuffled Linear Regressionの問題をさらに一般化して、順序の違いも外れ値の存在にも対応した問題として、Generalized Shuffled Linear Regressionの定義をしました。

少しだけ詳しく説明すると、Shuffled Linear Regressionの制約を少し緩和して、K個の対応点に関しては、置換行列のPの性質を保ったまま組み替えることを新たな問題として定義しました。

栄藤:なるほど。だから動画用意しているんですね。

藤原:そうですね。対応するペア数Kと、置換行列P、または変換Xを徐々に更新していることで、最適な解に収束していくようなアルゴリズムを動画でお見せします。

(動画再生)

このように、異なる部分に欠損がある龍2つに対しても、先ほどのような手順で適切な処理を行いつつ、ペア数K、置換行列P、そして変換Xを徐々に求めていって、2つを最終的には同じ位置に合わせることが可能になりました。

また実験では主に点群を使っていますが、純粋な画像に対しても同じようなことができるので、さまざまな視点から撮った画像を合わせて、復元などに使えるようにもなっています。これが1本目の内容です。

栄藤:なるほど。すごいね。

姿勢の問題

藤原:ありがとうございます。そしてもう1つの問題が、冒頭で示した姿勢の問題です。

現在、深層学習の流れは、点群の解析にも及んでおり、目覚ましい発展が遂げられています。ただこれまでの研究では、姿勢は与えられていることと仮定しているものが多いです。

例えば、椅子は真正面を向いて、上に座るような姿勢に揃えられているものが多くて、姿勢の変化があると、うまくいかなくなることを確認してきました。

この椅子なんですが、我々はどんな向き、例えば上の右向きか、下の左向きのものであっても椅子だとわかるように、ある物体を示す点群は、どんな姿勢であっても同じだと解釈する学習をしなければいけない、ということがわかります。

これを実施するために、これまでの解析手法では、主に主成分分析から出てくる軸をそのまま使って合わせて、1つの位置に合わせて学習を施すなど、アドホックな方法で対応してきた流れがあります。

栄藤:なるほど。でも、ノイズには弱そうだよね。

藤原:そうですね。我々もいろいろ試みて、主に使われる主成分分析を細かく見た結果、慣例的にその重要度が高いもの、分散が大きい軸からどんどん並べる方法で3軸を決めていましたが、必ずしもそれが認識において最善じゃないことがわかりました。

例えば飛行機では、この羽の大きさで、たぶんその主軸の順番などが簡単に変わってしまうことは、容易に想像できると思います。

ところが蓋を開けてみると、なんと主成分分析から出てくる3軸の順序を、入れ替えたものすべて学習に使うだけで、既存の研究の精度を大幅に更新してしまいました。すごく複雑な、頭がいくつも生えているようなネットワークよりも、簡単に精度を更新してしまったので、こんなことがある? っていう驚きをまず発見してしまったのが、1つ目の貢献になっています。

これだけでも驚きだったのですが、どの姿勢が一番識別に適しているかを理解するのと、学習を効率的にするために、24の姿勢から最適な姿勢を選ぶためのモジュールを提案しました。

これはあらゆる深層学習のフレームワークに適応可能で、特に実データですごく有効に働いたことを示したのが、2本目の論文になっています。

栄藤:なるほど。聞いているとすごいですが、アプリケーションではどういったものが考えられますか?

藤原:先ほど画像にも適応可能だよと申し上げたとおり、複数のカメラなどが存在する環境で、より早くより正確に物体や人物を解析するうえで重要になってくると考えています。

例えば、上からの視点だと部分的にしか顔が見えなかったり、あるいは姿が見えなかったり、物の一部しか観察できなかったりすると思いますが、これなら情報をいかに整合・確認・統合して解析を行うかが、今後出てくるようなサーベイランスカメラなどを展開するうえで重要になってくるのではないかなと、信じています。

NAVERはかなり強力なロボット技術を持っている

栄藤:なるほど。井尻さんからもコメントありますよね。

井尻:私は製造業に近いところで働いていたので、そもそもこういう技術の直接的な応用としては、3次元データの検出とか位置合わせ、照合検索、こういったものがすぐ頭にくるわけです。

意外かもしれないですが、NAVERもかなり強力なロボット技術を持っているので、それらと組み合わせると、ロジスティック向けのオンデマンドなピッキングなどができます。

例えばどこかの会社の個別配送などを簡単にやってのけられる。こういった応用例も考えられるかもしれないと私は思います。

栄藤:なるほど。

井尻:今回開発した方法は、私が最初論文読んだ時に、かなりシンプルで高速に動くんじゃないかなと思っていて。その辺りの実用性も評価されたんじゃないかな、と思います。藤原さん、どうですか。

藤原:そのとおりだと思いますね。本当に僕らもびっくりするほどシンプルな方法でこれら2つが実現できたので、本当に実用に近い物だと信じています。

栄藤:この分野のいいところって、研究がそのまま事業につながるところですよね。昔は離れていたけど、今はいい研究すれば事業になる。事業のためにいい研究ができるという環境が揃ってきたなあと思っています。

後半につづく