CVLはどこへ向かうか

栄藤稔氏(以下、栄藤):さて、次のアジェンダにいきましょうか。つまり、コンピュータビジョンのこれまでの実績は盛り上がったところですが、じゃあ次に、7月1日に発足したコンピュータビジョンラボ、CVLがどういう方向でいくかっていう話。また、今後3Dの技術はどう進んでいくかという話について、もう少し聞いてみたいと思います。これは、藤原さんかな。

藤原研人氏(以下、藤原):先ほどまでの研究は、実はスチル画像やスチルの3次元情報だったのですが、止まっている情報ってかなり限られていますよね。我々も常に動いていますし。動作が伴う情報を見据えた研究もしなければいけないので、同時に進めています。

例えば3次元のCGの動きを生成することを可能にして、これまで障壁になっていたアニメーションを作るうえでの人手の足りなさや困難さを取り除くツールなどを作成して、より多くの人がコンテンツ生成などに携われるようなAIができるといいなと願っています。こんな感じの発表も、僕の分身ができて、やってくれると一番いいのですが。

あとは、コントロールするようなツールだけではなくて、例えば直感的にこの人形に「飛んで」って言ったら、我々が望むように飛んでくれるような、言葉という自然なもので、具体的に指示が与えられるとすごくいいなと思っているので、そういった方面にも働きかけていきたいと考えています。

栄藤:なるほど。

井尻善久氏(以下、井尻):これってかなりすごいことです。LINEが今まで培ってきたAIの技術、自然言語処理やそういったものと融合して、強みを出せることが考えられるんじゃないかなと思っています。

例えば、オンデマンドで3Dモデルなどを使って発信して、未来のCM作成やテレビ番組などのコンテンツ作成などがどんどん変わってくるんじゃないかと思っています。

他にも、アナウンサーがニュースを読み上げたり、あるいは手話通訳者がいつも立ってニュース発信していたのを、彼らのアバターを使ってオンデマンドで絶え間なくニュース発信ができるなど、そんなことをできるといろいろな人をサポートできるんじゃないかなと思いますし。

あと、LINEがデジタル芸能事務所を作るのも夢じゃない。そんな世界観も見えてくるわけで、自然言語処理や音声合成と3Dの技術を結びつけることで、非常におもしろいことができるなあと思って、私もワクワクしています。

栄藤:なるほど。3次元が昔は遠いと思っていましたが、扱いやすくなったというのは、すごく実感できました。

後半は、マルチモーダルという話をしたいと思います。複数の情報源を組み合わせると、いろいろな話が出てくると思います。でもここでは、3次元じゃなくって2次元の話も聞いてみたいんです。そうなると、やはり文字認識という古くて、でもいまだにタフな問題があると思うので、その話を聞いてみたいと思います。

ずっと昔から研究されているOCR

岡本大和氏(以下、岡本):ではここから岡本が、OCRについてお話しします。

先ほど栄藤さんがおっしゃったように、OCRって「古くて」というと語弊がありますが、ずっと昔から研究されている分野なので、もう確立しきった、できあがったものなのでは? という方もいます。しかし、OCRはまだまだ要望も高まっていますし、できることも増えてきています。

例えばスライドの左側を見て欲しいのですが、こういったクシャクシャな状態でも、文字をいかに正確に読み取るかであったり、右半分に映してあるように、ちょっと気の利いたかたち、構造化した状態で情報を抽出するといったことが現在研究開発をされています。

これができると何がうれしいのというと、最近の例でいうと、身分証をスキャンして確認したり、ワクチンの接種券を見て確認したり、そんなサービスが期待できるわけです。

栄藤:とはいえ、やはりその精度がある閾値を超えないと、なかなか実用化されないという偏見が、まだ私にはありまして。そこはどう突破するのか聞いてみたいです。

岡本:おっしゃるとおり、グサッとくる鋭い質問だと思います。それこそ、先ほど申し上げたような身分証の確認だと、1回の誤りが大きな問題になりかねないわけです。やはり、限りなく100パーセントに近い性能を追求する状況にあります。

私はここであらためて強調したいのですが、アプリケーションによっては100パーセントに近い性能を追求しないといけないので、高性能を追求するOCRの戦いは、まだまだ決着がついてない、もっともっとがんばらないといけない、今、そんな状態にあるんです。

岡本:ではどうやって性能を追求していくのか、その戦略について、お話しいたします。 どうやって戦っていくのかが、まさに今キーワードにしておるマルチモーダルですね。先ほど申し上げたように、気の利いたかたち、構造化した状態で情報抽出するには、Key Information Extractionという技術が重要になってきます。

これは学会でもよく見かける、最近ポピュラーな技術です。どんな技術かは、今動いているアニメーションをご覧いただければだいたい想像つくと思います。

これをビジョン、つまり見た目だけでがんばろうと思えば、実現できなくはないのですが、性能100パーセントを追求していくうえでは、どこかで頭打ち、限界がくるんじゃないかなと私は考えています。

そこで今日のキーワード、マルチモーダルの登場です。ビジョンだけではなくて、言語の知識を加える。そういった戦略を描いています。

言語が入って何か良いことがあるのか? というところですが、例えばドキュメントを見ていく時に、「プライス」というキーワードを見つけました。それに対応する値を探す時に、「プライス」ってことは価格なので、ドルや円などの数字などがくるはずだよな、というふうに言語の知識を利用して、事前にヒントを使って予測しながら探索する。これで性能を高めていく。

また他にも、見つけてきた単語が、例えば「トーファル」みたいな存在しない意味不明な単語だった時は、「ちょっとそれ『トーファル』じゃなくて『トータル』の見間違いなんじゃないの?」っていうふうに後から補足・修正を加えてやるといった、そういったビジョンと言語、2つのマルチモーダルな組み合わせで、お互い補完しながら性能を高めていく、こんなことを今考えている次第です。

栄藤:なるほど。画像認識が、今後マルチモーダルという言葉で自然言語と統一されていくという話ですね。

岡本:はい。

栄藤:それって、大きな方向感としてまとめると、この図になるんですかね。

岡本:はい、そのとおりです。この画面で何を示しているかといいますと、OCRに使えそうな知識をリストアップしたものなんです。

実は先ほど申し上げた文字を認識したり、言語の知識を加えるのは、このスライドの上半分にあるCommon Knowledge、つまり汎用的な知識に該当します。

ですので、下半分のCustomer specificな知識は、まだまだ使いきれてない、そんな状態にあるんです。「Customer specificな知識ってなんなの?」といいますと、例えば製造番号だったり、商品コードといった物の記載ルールであったり、ドキュメントそれぞれが持つフォーマットのルールであったりが該当します。

このように1つずつ挙げていけば「確かにそれヒントになりそうだな」というものが多くあるわけなので、これをどんどんマルチモーダルに取り入れていって、性能を向上させていこうと考えているわけですね。

ただ1つだけ注意したいのは、いろいろな知識を使いたくなりますが、これをし出すと開発の時間が遅くなってしまう。お客さまのニーズに素早く応えるために、スピーディに現場で簡単に知識を教えるであったり、いっそのことAIを導入して「あ、なるほど」と勝手にAIが自分で賢くなるようなものであったり、もしくはすぐにチューニングできる強いベースのモデルを作ったり、そういった戦略を我々は描いています。

私は、そういった戦略を実現していくためのアセットが、LINEには揃っていると考えていますので「これは絶対に実現できるぞ」と考えている次第です。

栄藤:確かに、マルチモーダルないろいろ情報統合した文字認識は、やってそうでやってこなかったという意味では、すごくおもしろい分野になっていくと感じました。

岡本:ありがとうございます。

OCRの性能をどこで活かすか

栄藤:ここで井尻さんに聞いてみたいんですが、たぶんOCRで文字認識の性能を上げていくことじゃなくって、その先にいっぱいいろいろなサービス、アプリケーションが考えられると思うんですね。井尻さんにもう少し詳しく説明してもらいたいと思います。

井尻:そうですね。我々の目指している、見ている将来という話なんですが。大きくいうと、DXということにまとめられてしまうのかもしれないですけれども、さまざまな分野で革新が必要だと思っています。

例えばこの図に載せているのは、契約書を送る。そうするとですね、即座にそれに対してフィードバックを入れてくれる。こういったシステムになります。

例えば何かの申し込みをする時に、間違って記載をしてしまった。そして書類不備で、返送されて返ってくる。今だと1週間〜2週間かかっているわけなんですが、それが即座にできるようになるとかですね。そんな将来は非常に近いかもしれないです。

あるいは個人がさまざまな契約書にサインしたりする。あるいは企業でいろいろな契約を取り交わしたりする。こういった時に、瞬間に法務チェックをAIが入れてくれるというようなことが、撮り溜めた今までのその契約情報から、できちゃったりするかもしれない。

将来には、このようないろいろな文書のデジタル化が、容易に考えられるわけですね。

さらにその延長線上なのですが、企業内で、または個人であっても、さまざまなドキュメントのデジタル文書を持っていると思います。

テキストだけでできあがったものもあるかと思いますが、パワーポイントやエクセルなど、そういう図表、画像が入っているような文書も非常にたくさんあります。

「どこかに作ったぞ」っと思うんだけれども、検索できないことはよくあるかと思います。

それはやはり、画像の中に情報が含まれているが、その画像が読み取れているわけじゃないので、そこまでは検索が及ばない、なんてことがあるわけです。

ここで、マルチモーダルな、モダリティを超えて検索できるような、例えばパワーポイントに入った画像の中の文字まで読み取ってくれて、テキストを紐づけてくれるようなものが見つかるとですね、我々の持っている知識、今まで蓄積してきたいろいろなデータを最大限に生かせる時代がくるんじゃないかなあとに思っていて。そういう中から、素晴らしいアイデアとか問題解決ができてくるんじゃないかなあと思っています。

栄藤:なるほど。聞いていると、結局文字認識を理解するっていうことは、文書を理解することと同じだっていうことです。だから文書を理解することを考えれば、文字認識もできるようになるし、その先の自動化も見えてくるっていう話で、非常に一貫性のある技術開発のストーリーに聞こえました。

決意表明

栄藤:このスライドを最後に出しますが、今日は『Nature』とか『Science』にインパクトファクターが匹敵する「ICCV」に論文が通ったという話から始まって、その後マルチモーダルの話、文書理解の話まできましたけれど、やはりLINEの強みはAIに関する総合力が発揮できるところなので、画像認識がどんどん発展していくし、マルチモーダルの世界も広がっていくと思いました。

あとは結果で出してもらおうと思いますが、ここで3人の決意表明を聞いて締めたいと思います。井尻さんからお願いします。

井尻:はい。プレッシャーありがとうございます。あまり良いワーディングが見つからなかったのですが、我々のやりたいことをスライドにまとめてみました。

Mixed LINE AI、略してMiLAIと書いてあります。マルチモーダルの話を、今日は延々としてきました。マルチモーダルな入力、マルチモーダルな出力、多面的にDXを実現していく。そういった世界観。

具体的には、NLP、スピーチ、ボイス、コンピュータビジョン、そういった我々の持つAIのアセットを融合して、おもしろい世界を作るべく、アイデアを振り絞っていきたいなと思います。

また、優れた研究チームを組織して、その結果として最初藤原さんがお話ししてくれたようなトップ会議に、仲間と一緒に発信していって、求心力のあるLINEのコンピュータビジョンラボおよびAI研究を花開かせていきたいなと思っています。

栄藤:すばらしい。じゃあ藤原さん。決意表明をお願いします。

藤原:ありがとうございます。僕はもう単純に、一緒に論文書いて、通して、祝杯をあげましょう。

栄藤:悩みのない決意表明。いい論文を書いて、いい事業になると思いました。はい。岡本さん、最後締め、お願いします。

岡本:今日はありがとうございました。私の決意表明としては、もっともっとLINEというプラットフォームを、人々の生活の一部にもっとしていきたい、そういったことを考えています。

マルチモーダルな戦略も掲げましたが、限りなく100パーセントに近い性能を達成して、「あれば便利」というレベルを超越して「ないとか考えられない」といった、それほどの利便性を実現していこうと思っています。これからも、LINEをどうぞみなさん、よろしくお願いします。

栄藤:そうですね。確かにマルチモーダルが扱える研究機会は、なかなかないと思いますね。なかなかいい締めでした。すばらしかったです。これでこのパネルを終わりたいと思います。ここまでお付き合い、どうもありがとうございました。

一同:ありがとうございました。