2024.12.19
システムの穴を運用でカバーしようとしてミス多発… バグが大量発生、決算が合わない状態から業務効率化を実現するまで
提供:LINE株式会社
リンクをコピー
記事をブックマーク
栄藤稔氏(以下、栄藤):さて、次のアジェンダにいきましょうか。つまり、コンピュータビジョンのこれまでの実績は盛り上がったところですが、じゃあ次に、7月1日に発足したコンピュータビジョンラボ、CVLがどういう方向でいくかっていう話。また、今後3Dの技術はどう進んでいくかという話について、もう少し聞いてみたいと思います。これは、藤原さんかな。
藤原研人氏(以下、藤原):先ほどまでの研究は、実はスチル画像やスチルの3次元情報だったのですが、止まっている情報ってかなり限られていますよね。我々も常に動いていますし。動作が伴う情報を見据えた研究もしなければいけないので、同時に進めています。
例えば3次元のCGの動きを生成することを可能にして、これまで障壁になっていたアニメーションを作るうえでの人手の足りなさや困難さを取り除くツールなどを作成して、より多くの人がコンテンツ生成などに携われるようなAIができるといいなと願っています。こんな感じの発表も、僕の分身ができて、やってくれると一番いいのですが。
あとは、コントロールするようなツールだけではなくて、例えば直感的にこの人形に「飛んで」って言ったら、我々が望むように飛んでくれるような、言葉という自然なもので、具体的に指示が与えられるとすごくいいなと思っているので、そういった方面にも働きかけていきたいと考えています。
栄藤:なるほど。
井尻善久氏(以下、井尻):これってかなりすごいことです。LINEが今まで培ってきたAIの技術、自然言語処理やそういったものと融合して、強みを出せることが考えられるんじゃないかなと思っています。
例えば、オンデマンドで3Dモデルなどを使って発信して、未来のCM作成やテレビ番組などのコンテンツ作成などがどんどん変わってくるんじゃないかと思っています。
他にも、アナウンサーがニュースを読み上げたり、あるいは手話通訳者がいつも立ってニュース発信していたのを、彼らのアバターを使ってオンデマンドで絶え間なくニュース発信ができるなど、そんなことをできるといろいろな人をサポートできるんじゃないかなと思いますし。
あと、LINEがデジタル芸能事務所を作るのも夢じゃない。そんな世界観も見えてくるわけで、自然言語処理や音声合成と3Dの技術を結びつけることで、非常におもしろいことができるなあと思って、私もワクワクしています。
栄藤:なるほど。3次元が昔は遠いと思っていましたが、扱いやすくなったというのは、すごく実感できました。
後半は、マルチモーダルという話をしたいと思います。複数の情報源を組み合わせると、いろいろな話が出てくると思います。でもここでは、3次元じゃなくって2次元の話も聞いてみたいんです。そうなると、やはり文字認識という古くて、でもいまだにタフな問題があると思うので、その話を聞いてみたいと思います。
岡本大和氏(以下、岡本):ではここから岡本が、OCRについてお話しします。
先ほど栄藤さんがおっしゃったように、OCRって「古くて」というと語弊がありますが、ずっと昔から研究されている分野なので、もう確立しきった、できあがったものなのでは? という方もいます。しかし、OCRはまだまだ要望も高まっていますし、できることも増えてきています。
例えばスライドの左側を見て欲しいのですが、こういったクシャクシャな状態でも、文字をいかに正確に読み取るかであったり、右半分に映してあるように、ちょっと気の利いたかたち、構造化した状態で情報を抽出するといったことが現在研究開発をされています。
これができると何がうれしいのというと、最近の例でいうと、身分証をスキャンして確認したり、ワクチンの接種券を見て確認したり、そんなサービスが期待できるわけです。
栄藤:とはいえ、やはりその精度がある閾値を超えないと、なかなか実用化されないという偏見が、まだ私にはありまして。そこはどう突破するのか聞いてみたいです。
岡本:おっしゃるとおり、グサッとくる鋭い質問だと思います。それこそ、先ほど申し上げたような身分証の確認だと、1回の誤りが大きな問題になりかねないわけです。やはり、限りなく100パーセントに近い性能を追求する状況にあります。
私はここであらためて強調したいのですが、アプリケーションによっては100パーセントに近い性能を追求しないといけないので、高性能を追求するOCRの戦いは、まだまだ決着がついてない、もっともっとがんばらないといけない、今、そんな状態にあるんです。
岡本:ではどうやって性能を追求していくのか、その戦略について、お話しいたします。どうやって戦っていくのかが、まさに今キーワードにしておるマルチモーダルですね。先ほど申し上げたように、気の利いたかたち、構造化した状態で情報抽出するには、Key Information Extractionという技術が重要になってきます。
これは学会でもよく見かける、最近ポピュラーな技術です。どんな技術かは、今動いているアニメーションをご覧いただければだいたい想像つくと思います。
これをビジョン、つまり見た目だけでがんばろうと思えば、実現できなくはないのですが、性能100パーセントを追求していくうえでは、どこかで頭打ち、限界がくるんじゃないかなと私は考えています。
そこで今日のキーワード、マルチモーダルの登場です。ビジョンだけではなくて、言語の知識を加える。そういった戦略を描いています。
言語が入って何か良いことがあるのか? というところですが、例えばドキュメントを見ていく時に、「プライス」というキーワードを見つけました。それに対応する値を探す時に、「プライス」ってことは価格なので、ドルや円などの数字などがくるはずだよな、というふうに言語の知識を利用して、事前にヒントを使って予測しながら探索する。これで性能を高めていく。
また他にも、見つけてきた単語が、例えば「トーファル」みたいな存在しない意味不明な単語だった時は、「ちょっとそれ『トーファル』じゃなくて『トータル』の見間違いなんじゃないの?」っていうふうに後から補足・修正を加えてやるといった、そういったビジョンと言語、2つのマルチモーダルな組み合わせで、お互い補完しながら性能を高めていく、こんなことを今考えている次第です。
栄藤:なるほど。画像認識が、今後マルチモーダルという言葉で自然言語と統一されていくという話ですね。
岡本:はい。
栄藤:それって、大きな方向感としてまとめると、この図になるんですかね。
岡本:はい、そのとおりです。この画面で何を示しているかといいますと、OCRに使えそうな知識をリストアップしたものなんです。
実は先ほど申し上げた文字を認識したり、言語の知識を加えるのは、このスライドの上半分にあるCommon Knowledge、つまり汎用的な知識に該当します。
ですので、下半分のCustomer specificな知識は、まだまだ使いきれてない、そんな状態にあるんです。「Customer specificな知識ってなんなの?」といいますと、例えば製造番号だったり、商品コードといった物の記載ルールであったり、ドキュメントそれぞれが持つフォーマットのルールであったりが該当します。
このように1つずつ挙げていけば「確かにそれヒントになりそうだな」というものが多くあるわけなので、これをどんどんマルチモーダルに取り入れていって、性能を向上させていこうと考えているわけですね。
ただ1つだけ注意したいのは、いろいろな知識を使いたくなりますが、これをし出すと開発の時間が遅くなってしまう。お客さまのニーズに素早く応えるために、スピーディに現場で簡単に知識を教えるであったり、いっそのことAIを導入して「あ、なるほど」と勝手にAIが自分で賢くなるようなものであったり、もしくはすぐにチューニングできる強いベースのモデルを作ったり、そういった戦略を我々は描いています。
私は、そういった戦略を実現していくためのアセットが、LINEには揃っていると考えていますので「これは絶対に実現できるぞ」と考えている次第です。
栄藤:確かに、マルチモーダルないろいろ情報統合した文字認識は、やってそうでやってこなかったという意味では、すごくおもしろい分野になっていくと感じました。
岡本:ありがとうございます。
栄藤:ここで井尻さんに聞いてみたいんですが、たぶんOCRで文字認識の性能を上げていくことじゃなくって、その先にいっぱいいろいろなサービス、アプリケーションが考えられると思うんですね。井尻さんにもう少し詳しく説明してもらいたいと思います。
井尻:そうですね。我々の目指している、見ている将来という話なんですが。大きくいうと、DXということにまとめられてしまうのかもしれないですけれども、さまざまな分野で革新が必要だと思っています。
例えばこの図に載せているのは、契約書を送る。そうするとですね、即座にそれに対してフィードバックを入れてくれる。こういったシステムになります。
例えば何かの申し込みをする時に、間違って記載をしてしまった。そして書類不備で、返送されて返ってくる。今だと1週間〜2週間かかっているわけなんですが、それが即座にできるようになるとかですね。そんな将来は非常に近いかもしれないです。
あるいは個人がさまざまな契約書にサインしたりする。あるいは企業でいろいろな契約を取り交わしたりする。こういった時に、瞬間に法務チェックをAIが入れてくれるというようなことが、撮り溜めた今までのその契約情報から、できちゃったりするかもしれない。
将来には、このようないろいろな文書のデジタル化が、容易に考えられるわけですね。
さらにその延長線上なのですが、企業内で、または個人であっても、さまざまなドキュメントのデジタル文書を持っていると思います。
テキストだけでできあがったものもあるかと思いますが、パワーポイントやエクセルなど、そういう図表、画像が入っているような文書も非常にたくさんあります。
「どこかに作ったぞ」っと思うんだけれども、検索できないことはよくあるかと思います。
それはやはり、画像の中に情報が含まれているが、その画像が読み取れているわけじゃないので、そこまでは検索が及ばない、なんてことがあるわけです。
ここで、マルチモーダルな、モダリティを超えて検索できるような、例えばパワーポイントに入った画像の中の文字まで読み取ってくれて、テキストを紐づけてくれるようなものが見つかるとですね、我々の持っている知識、今まで蓄積してきたいろいろなデータを最大限に生かせる時代がくるんじゃないかなあとに思っていて。そういう中から、素晴らしいアイデアとか問題解決ができてくるんじゃないかなあと思っています。
栄藤:なるほど。聞いていると、結局文字認識を理解するっていうことは、文書を理解することと同じだっていうことです。だから文書を理解することを考えれば、文字認識もできるようになるし、その先の自動化も見えてくるっていう話で、非常に一貫性のある技術開発のストーリーに聞こえました。
栄藤:このスライドを最後に出しますが、今日は『Nature』とか『Science』にインパクトファクターが匹敵する「ICCV」に論文が通ったという話から始まって、その後マルチモーダルの話、文書理解の話まできましたけれど、やはりLINEの強みはAIに関する総合力が発揮できるところなので、画像認識がどんどん発展していくし、マルチモーダルの世界も広がっていくと思いました。
あとは結果で出してもらおうと思いますが、ここで3人の決意表明を聞いて締めたいと思います。井尻さんからお願いします。
井尻:はい。プレッシャーありがとうございます。あまり良いワーディングが見つからなかったのですが、我々のやりたいことをスライドにまとめてみました。
Mixed LINE AI、略してMiLAIと書いてあります。マルチモーダルの話を、今日は延々としてきました。マルチモーダルな入力、マルチモーダルな出力、多面的にDXを実現していく。そういった世界観。
具体的には、NLP、スピーチ、ボイス、コンピュータビジョン、そういった我々の持つAIのアセットを融合して、おもしろい世界を作るべく、アイデアを振り絞っていきたいなと思います。
また、優れた研究チームを組織して、その結果として最初藤原さんがお話ししてくれたようなトップ会議に、仲間と一緒に発信していって、求心力のあるLINEのコンピュータビジョンラボおよびAI研究を花開かせていきたいなと思っています。
栄藤:すばらしい。じゃあ藤原さん。決意表明をお願いします。
藤原:ありがとうございます。僕はもう単純に、一緒に論文書いて、通して、祝杯をあげましょう。
栄藤:悩みのない決意表明。いい論文を書いて、いい事業になると思いました。はい。岡本さん、最後締め、お願いします。
岡本:今日はありがとうございました。私の決意表明としては、もっともっとLINEというプラットフォームを、人々の生活の一部にもっとしていきたい、そういったことを考えています。
マルチモーダルな戦略も掲げましたが、限りなく100パーセントに近い性能を達成して、「あれば便利」というレベルを超越して「ないとか考えられない」といった、それほどの利便性を実現していこうと思っています。これからも、LINEをどうぞみなさん、よろしくお願いします。
栄藤:そうですね。確かにマルチモーダルが扱える研究機会は、なかなかないと思いますね。なかなかいい締めでした。すばらしかったです。これでこのパネルを終わりたいと思います。ここまでお付き合い、どうもありがとうございました。
一同:ありがとうございました。
LINE株式会社
2024.12.12
会議で発言しやすくなる「心理的安全性」を高めるには ファシリテーションがうまい人の3つの条件
2024.12.19
12万通りの「資格の組み合わせ」の中で厳選された60の項目 532の資格を持つ林雄次氏の新刊『資格のかけ算』の見所
2024.12.16
32歳で成績最下位から1年でトップ営業になれた理由 売るテクニックよりも大事な「あり方」
2023.03.21
民間宇宙開発で高まる「飛行機とロケットの衝突」の危機...どうやって回避する?
2024.12.10
メールのラリー回数でわかる「評価されない人」の特徴 職場での評価を下げる行動5選
2024.12.13
ファシリテーターは「しゃべらないほうがいい」理由 入山章栄氏が語る、心理的安全性の高い場を作るポイント
PR | 2024.12.20
モンスター化したExcelが、ある日突然崩壊 昭和のガス工事会社を生まれ変わらせた、起死回生のノーコード活用術
2024.12.18
「社長以外みんな儲かる給与設計」にした理由 経営者たちが語る、優秀な人材集め・会社を発展させるためのヒント
2024.12.12
今までとこれからで、エンジニアに求められる「スキル」の違い AI時代のエンジニアの未来と生存戦略のカギとは
PR | 2024.11.26
なぜ電話営業はなくならない?その要因は「属人化」 通話内容をデータ化するZoomのクラウドサービス活用術
Climbers Startup JAPAN EXPO 2024 - 秋 -
2024.11.20 - 2024.11.21
『主体的なキャリア形成』を考える~資格のかけ算について〜
2024.12.07 - 2024.12.07
Startup CTO of the year 2024
2024.11.19 - 2024.11.19
社員の力を引き出す経営戦略〜ひとり一人が自ら成長する組織づくり〜
2024.11.20 - 2024.11.20
「確率思考」で未来を見通す 事業を成功に導く意思決定 ~エビデンス・ベースド・マーケティング思考の調査分析で事業に有効な予測手法とは~
2024.11.05 - 2024.11.05