CVPR2019速報

片岡裕雄氏:本日は、先々週(2019年6月20日)まで行われていました毎年アメリカである国際会議「CVPR2019」の速報をご紹介致します。

全体の傾向としましては、現地でも研究者と話していましたが、最近は「これがまったく新しい」みたいな論文が失われてしまったような感じになっています。というのも、1,294本の論文が1会議に通っているんですね。なので、「これが流行ってるよね」といっても、どの分野も流行っているように見えてしまう本数に到達しております。

実は査読には学生が確か30パーセント弱ぐらい含まれているので、「初めてCVPRの査読をするよ」みたいなみなさまもいらっしゃったので、実は査読で落ちているんじゃないかという噂も立つぐらいの数になってしまいました。

個別の単純問題設定と呼んでいるのは、画像識別、物体検出、領域分割(セマンティックセグメンテーション)と動画像認識という問題設定ですね。これらは「技術の深化」、深くするのと同時に、こんなところに応用できるという「応用の多様化」、もう1回立ち止まって考えてみようという「再考」に分かれたのかなと思います。

画像識別と動画認識においては、より巨大なデータベースを構築したり応用分野を考えていこうということですね。

物体検出と領域分割に関しては、だいたいベースの手法、例えば物体検出ですと、Faster R-CNNだとかYOLOとかSSDみたいなものをベースにしてRetinaNetとか Mask R-CNNが、そんな応用が繰り広げられているんですが、このベース手法に対して一部モジュールを変更したり、学習戦略を改良したり、データ使用法を改善したりといったことが繰り広げられておりました。

それぞれの応用の多様化/再考というのは、この上の単純な問題設定においてそれぞれもう1回考え直そうということで、網羅的に調査を行って新たな知見を生み出したり、そういうものが提案されておりました。

技術統合による複雑化

また、複雑化も少なからずあります。

ここにキーワード集を挙げているんですが、「今年このワードがなかったから、何か1つ加えて来年のトップ会議を目指そう」みたいなことも容易に想像できてしまうわけですし、思いついたことは世界的にも同時多発的に行われるので、簡単に思いつく問題設定はもう今年やるべきという感じになってきてしまいました。

データベースを提案するというものもございまして、量とともにラベルの質や、新しい意味を考えてラベルの種類を変えるといった領域にも踏み込んでいたように思います。

超大規模と呼んでいるのは、ビリオンオーダー、数十億の画像や数千万の動画像を取り扱うような問題設定も某巨大IT企業に多かったですね。みなさんの頭にはもう浮かんでいると思いますが、こういうものが超大規模というものですね。

ラベルの質の向上というものも、論文に1行書いてあるわけですね。「データベースのラベルを全部つけ直しました」って一言怖いことが書いてあるんですけれども、こういったことも力業で人海戦術も使いながら繰り広げられているわけです。これも巨大IT企業に、多いというほど論文はありませんが、こういう傾向がありますね。

大学ですとかベンチャー企業に多いのは、特定の問題を取り扱うので、もうその分野のドメイン知識を使ったようなラベル付けがデータベースに反映されているものが多かったように思います。

物体検出や画像識別においても、研究としてはやり尽くしたように見せてるんですけれども、置いてきた問題も非常に多いと思いますので、そういう問題を解決すべくデータベースをもう1回構築し直すこともまだまだできるかなと思っております。

CV分野のトップはどこか?

CV分野トップの座というので、あくまでも印象ですね。

さきほどの巨大IT企業といえばこのあたりが挙がるのではないかと思っております。あくまでも印象なので、これで決定というわけではございません。GとかFとかNさんとか、中国だとSさんが有名になってきているかなと思います。

あとは、ここ(大学の研究室)が相対的に目立たなくなっているかな思います。もちろんすごい研究をするグループはありますが、あまりにもこの企業やベンチャー企業が目立っているせいで、有名ラボのいい論文は目立ちづらくなっている雰囲気が出てきています。

認識系だとFAIRが強いです。

「Facebook AI Research」の頭文字を取ってFAIRと呼ばれています。これ、Facebookによる人工知能研究所のことですね。

これ認識系というともうほぼすべてみたいな感じになってしまっていて、プリミティブなビジョンといわれているObject Detection、Semantic Segmentation、Instance Segmentationもそうですね。Video Recognition、Image Captioning、Language and Visionなんかも非常に強いところですね。

なんで強いかというと、これも噂なんですが、1人100GPU以上使えると言われております。この数の暴力があるわけですね。論文にも「300GPUを使いました」ってさらって書いてくるので、再現性がなくなってきてしまっている感じがしております。

このあたりは非常に参考になるんですが、DNNのフレームワーク開発という意味でPyTorchとCaffe2を自前で開発していますし、これは自社のオープンソースなんですが、完全にオープンにして、世界的に一緒に開発を進めようと、少なからずここで目立った人は「Facebookにおいでよ」みたいなことが繰り広げられているのかなと想像できます。

最近の国際会議という意味でアワードを総ナメにするぐらいの実力もありますし、インターン生を採用して3〜4ヶ月の業績をまた国際会議に投稿してくるということも、毎年繰り返しています。

さらにLow-Level Visionでは、物体検出、Semantic Segmentationあたりがとくに強いところですね。すでにトレンドを創った研究者が固まっていますし、昔のトレンドを創った手法をさらにアップデートして、さらに強い手法をつくってくるということを繰り広げています。

また、データ基盤という意味でも、Instagramも自社のサービスとしては持っているはずなので、ここからデータ収集を行って、これがビリオンオーダーといっております。

Instagram-3.5Bというのが、これはそのまま35億枚のデータセットとラベルがペアになっているものがFacebookの中で使えるようです。最近はPyTorchからこのモデルが公開されたという話を聞いたので、一般レベルでも使えるようになってきてしまっているんだなと感じています。

GANに強い研究機関、NVIDIA

生成モデル、Generative Adversarial Networkに強い研究機関ということで、ここはtop-1ではありませんが、とくに強い企業としましてはNVIDIAさんが挙げられると思います。

圧倒的な計算量はもうご存じのとおり、みなさんお使いの方も多いと思いますが、グラフィックボードの世界的企業です。

このGenerative Model、生成モデルは最初の探索が一番肝心だということを、実際にこのGANの研究をやっている方からうかがいました。やはり最初の探索を行って、その周りを埋めていく。パラメータを探索して、さらにパラメータを調整していくということを行っております。そのGANに強い研究者が集まって作ったのがStyleGANです。

最近、「ThisPersonDoesNotExist.com」だったかな、というサイトがあるように、リアルな顔と見間違うぐらいの生成が実際に起こってしまっていますし、倫理的問題として取り上げられています。

この研究に関しましては、先ほども冒頭にありましたように、調査研究、もう1回再考し直すというものですね。「Do Better ImageNet Models Transfer Better?」という論文で、ImageNetの事前学習した特徴量はやっぱりfine-tuningしても強いということと、そのアーキテクチャはだいたい強いよという調査研究ですね。これは非常に計算リソースを使っていますし、この洞察力も非常に優れていると私も感じました。

SenseTimeはなぜ大量の論文を通せるのか?

最近、日本にも支社があるようなんですけれども、SenseTimeさんですね。もともとは香港のベンチャー企業として始まったんですけれども、いまやCVPRでも、Goldの上のDiamondだったかな、Diamondスポンサーというところで、一番高いところのスポンサーになられているのがこのSenseTimeですね。

去年44本出したことで話題になったんですけれども、今年なんと62本も出しているというところです。採択率が低下したなかで採択数が増えるという、非常にもうなんかよくわからないぐらいすごくなってしまっているというのがSenseTimeですね。

このSenseTime、最近論文を見ていると、CUHKのMultimedia LabとSenseTimeの連携研究室みたいな感じで所属は書いてあります。

そんな感じで、大学の研究室を育てて、会社も育てて、連携するというところで潤沢な資金を獲得されていますし、豊富な研究設備も自由にやりとりをしようという意気込みが感じられます。研究が進むとか人材が成長するエコシステムが整っているのではないかなと感じております。

最初のほうにありました、トレンドを創る研究室が固まってきたというところについても、まず、そうなのかなと思います。

ポスターで混む聴衆の関心が高いところは、だいたい傾向があって、有名研究室か有名企業かという感じになってしまったと感じております。

それだけではありませんが、事前にarXivやGitHub、SNSなどを通して宣伝した研究や論文は聴衆の関心が高い傾向にあるんですけれども、やはりそういうのを追いかけてみると、有名研究室とか有名企業が多い感じになってきてしまいました。

これは深層学習の時代に入ってから1回シャッフルされたように思うのですが、やっぱり強い研究室は、資金力と研究者の実力の両方があるのかというところで、最近は固定化されてきたなと感じております。