5年後のCVはどうなるか?

片岡裕雄氏:そんなところで「5年後どうなるんだ?」とやはりみんな思うわけですね。本会議の前の日にワークショップが2日間設営されているんですが、ここで「Computer Vision After 5 Years」というワークショップが開かれていました。

「5年後のCVはどうなっている?」というのがテーマのワークショップで、ご覧のような大御所の先生方がトークを繰り広げられていました。

最初はINRIAとGoogleでご活躍のCordelia Schmid先生ですね。

「動画認識の未来」というテーマでお話しされていました。私も動画認識とか人の行動を認識する研究は博士課程の頃から行ってきて、このSchmid先生の論文を非常に参考にしてきたのですが、その先生のご講演ですね。まずはラベル付け、アノテーションと弱教師学習による行動認識と予測が必要だということをお話しされていました。

最近、Google社からOpen Images、ICCVでもバージョン5のコンペが行われたり、こちらもGoogleの方なので、これを紹介するのは当然かなと思います。AVAという、動画像に対して1秒に1回、Bounding Boxがついてたりとか行動のラベルがついてるようなデータベースについてお話しされていました。

ですが、これは数千万画像とか数万とか数十万動画とか集めても、カテゴリの中でインスタンスが少ない、動画数や画像数が少ないものは必然的に出てしまいます。そういうロングテール問題はどこにいても起こりうるということなので、ここでSURREAL datasetというものが提案されております。

数年前に出たんですけれども、人のモーションキャプチャーと3DのCGによってアノテーションを完全に自動化してコントロールできるようにしようということで、Domain Adaptationが最近すごく流行っています。このようにシミュレーションでアノテーションを作ってそれをDomain Adaptationするということも、最近のトレンドの1つだということをお話しされていました。

5年後に向けた議論としましては、実環境とインタラクションしようということと、あとは、オーディオ、音声とテキストの情報を使おうということをお話しされていました。

cvpaper.challengeとnlpaper.challengeみたいな感じですね。そんな感じでマルチモデルにしようということをお話しされていますね。

VideoBERTなるものも登場してきています。これはビデオの先の予測を検索ベースで行うものです。詳しくは論文をご覧くださいというところで。

将来の方向性としては、Imitation Learningだったり強化学習、模倣学習といったものがあって、これらを統合的、総合的、階層的に組み合わせたり、もちろんほかの学習手法が確立される可能性も十分あるので、そういうものをフォローして動画認識に結びつけていけたらというところだと理解しております。

5年後に後悔のない研究活動をするために

一番おもしろかったのと一番リスキーなご講演をされていたのが、UC BerkeleyのAlexei Efros先生ですね。Pix2Pix、CycleGANとかImage to Imageのtranslation(変換)も提案されている先生ですね。

冒頭から飛ばしていて、「学生がなんか最近聞いてきたんだ」「CVで最も重要なトピックは何ですか?」と。「もう取り組んでいるではないか!?」という。もちろん研究者なので、一番ここが熱いというところの研究を取り組んでいるものということで始まっています。

「5年後のCVを考えよう」なんですけれども、いきなり「タイトルを変更します」と言い出して。悪い意味じゃないですよ(笑)。「Next 5 years without regrets」なので、後悔のない5年後、「5年後、後悔のないような研究活動を繰り広げよう」ということだと理解しております。

ここで、どの論文もうそをつく可能性があることを去年のCVPRでお話しされた先生がいるようですね。論文はずっと残り続けてしまうので、自分がそのときはうそついてないと思っても、あとあとの研究でその結果が違うとなったときに、うそをつき続けることになりかねません。こんな感じで、研究することはリスクを伴う活動だということです。

ここで、Efros先生の後悔としてGraphical Model。

5年ぐらい前までは「Latent SVMとかGraphical Modelがあればなんもいらねえぜ」みたいに言ってたんですが、もうイケイケでConvNetsを使っているわけですね。なので、もうそこには戻らないというところと、あとCNNをもっと早くやっておけばよかったという2つの後悔をお話しされていました。

ここでFace Detectionのパイオニアとしては、聴衆に聞いていました。やっぱりみんなViola & Jones。これは2001年に登場して2005年にはもう顔検出がデジカメに載るぐらい流行った技術ですね。なんですけれども、本質的には日本の金出先生、今なおCMUにいらっしゃるんですけれども、その当時CMUで顔認識の研究をされていて、本質的にはこの研究が顔認識を流行らせたということをおっしゃっていました。

なので、そんな感じで研究を繰り広げようぜという感じですね。

未来に後悔してしまうような最近の4つのトレンドとして、もうここで言っちゃっているわけですね。研究者が大勢いる前で最新のトピックをバッサリ切っていました。

1つはAdversarial Examples。Adversarial AttacksとかRobustnessというものですね。もう1つは、ここで言うのもあれなんですが、「Vision & Languageは後悔するからやんねー」みたいな感じで言ってました。そうなんですよね(笑)。

あとは、Explanabilityは、主観的になりがちだからやらないということ。あと、Datasetsも、「同じ画像は二度と見ないからそんなにケアしてもしょうがないよね」みたいな話をされていました。

後悔を少なく、あとから良かったと感じるような研究活動をしたいということをお話しされていましたし、まさにそうだと思います。これは4つやっていても後悔しなければいいんじゃないかな、という私の解釈です。

あとはちょっと時間がないので飛ばしますね。

論文の過剰増加により、ネタ予測が可能に

やはり有名な大学教員や研究者は、大学や研究所の肩書と産業界の肩書を持ちます。

例えばMITとGoogleの両方の所属を持っているという感じで書いてきます。こんな感じで、学生さんやインターン生といったように、実働メンバーを獲得するチャンス、チャンネルを複数持っているということが最近のトレンドなのかなと思います。

あとは、データにもアクセス可能はずなので、実学を解くためのヒントがそんな感じで転がっているところに身を置くことができているということを感じております。

みなさんも感じられているかもしれませんが、やはり論文は激増傾向ですね。もう過剰と言われるぐらい激増していると感じております。なので、こんな感じでネタ予測をしてみたらどうでしょうということですね。こういうトピックがあったら、+アテンションというのが来年起こるんじゃないかなと。

実際、今年の論文を調べ……あるかどうかは調べてないですよ。

でも、実際今年がなかったら来年はこんな感じでネタを予測することが容易にできてしまっているので、やはり研究者としては、5年後の研究を考えて、それを今年やるぐらいの意気込みを見せる必要があるのかなと思います。それがかなり真新しいと言われる研究につながると思っておりますが、やっぱりやるのは難しいですね。

2つの研究スタイル

相変わらず研究の速度は非常に速くて、私の考える研究スタイルは大きく2パターンだと思います。

1つは、computer visionで非常に多いんですが、精度向上しただけでは論文は通らなくて、その方法論や理論がないと通らないんですけれども、精度向上とその理論とかアイデアを議論するような論文が1つあります。これは制限時間は短いですが、アイデアは思いつきやすいです。なので、計算リソースを持っていたり人が非常に多くいる研究室は、こういうことを得意とするようです。

あとは、普遍的に重要な研究を行い続けることが非常に大事なことだと思います。やはり分野が抱えるオープンクエスチョンみたいなものを常日頃考えていないといけないですし、洞察力が必要だと思います。

我々は論文を大量に読む。もちろん精読する論文もありますが、幅広く網羅的にサーベイしているのは、ここにアプローチしたいという意気込みがあるわけです。ですが、そうやっていたとしてもなかなか研究テーマを考えるのは大変だし、問題がすぐに解けるとは限らないということで、やっぱり長い目で見る必要があるのかなとも思います。

ここらへんもみなさんの関心があるところと信じておりまして、海外の計算機事情をComputer Vision業界の研究者に直接うかがってまいりました。

これは大学や企業に限らず、強い研究チームはAWSやクラウドサービスを使用しています。インスタンスが使い放題という場合も非常に多くあります。お金を気にしないでジョブを投入するってすごいことですよね。どういうからくりかと思ったら、研究室や企業はもちろんですが、例えば研究室にスポンサーがついて、そこから資金提供を受けている例もあるようです。

一方で、グラフィックボードが1人3枚ぐらいしか手に入らない研究グループもありますが、それでも世界トップクラスの研究をしているところもあるわけです。計算リソースと研究成果の相関はある程度はありますが、必ずしも計算リソースが大量にあるからといって強い研究をするとか、そういうわけではないということを感じました。

CVPRの通し方について

このあたりもSNSで物議を醸したんですが(笑)。やっぱりCVPRの通し方ってなんとなくあるわけですね。

State of the Artは最も性能が優れているものに対して称号が与えられるわけです。これでAcceptということもなくはないんですが、でも、レビュアーは精度が高いからといって通すわけではありません。

やはり途中でも議論したように、その方法論やアイデアがないと、精度が高いだけの論文は落とされます。なので、分野にどういう貢献があったのか、その論文で書く必要があるということですね。

あとは、自然発生的というか同時多発的にアーキテクチャを考えました、というものがあるなかで、一度立ち止まってそういうものを緻密に比較してみようよ、という論文も通っていますし、評価されているのも事実です。

これは論文にはなってはません(注:現在、著者HPでICCV’19に採択されていることを確認)が、「Rethinking ImageNet Pre-Training」というものが去年の11月ぐらいに出ています。ImageNetのPre-Trainingが必ずしも精度を出すわけじゃない。ちゃんと問題に合わせたPre-Trainingをしようとか、学習回数を回していけば同じぐらいの精度になるということも実証しているわけです。

こんな感じで、十分な実験とか考察から結論を導いている論文は非常におもしろいですし、こういうものをつくりたいですし、読みたいなと思っております。

あとは、データベース提案論文ですね。近視眼的になんでもいいから集めて、ラベルを振りました、終わり……ではなくて「将来にこういうデータがあるべき」というものを提案するようなデータベース提案論文が通ると感じております。

ただし、上だけでは論文を通せなくて、やっぱりちゃんと伝わる文章とか……プレゼンテーションと言い換えたほうがいいですね。そういうものをオーラル発表だけでなく論文でもやる必要があるわけです。

これは松尾先生の有名なリンクなんですけれども、「最低3周、できれば7回以上は校正しよう」みたいな感じで書かれています。私も非常に痛い目を何度も見てきているんですけれども、やはり体裁だけ間に合わせたような論文はTop Tierの会議では絶対通らないです。すぐ見抜かれます。なので、こういう努力が必要なのかなと感じております。

これも世界的なラボの人に聞いてきましたが、世界的ラボはPI、要するにその研究室の代表がRejectを出すわけですね。ラボ内でまずプレゼンテーションがあって、レビューをくぐり抜けないと通らないところもあるようです。こんな感じで世界的にも改善活動を繰り返しています。

プレゼンテーションの場合「No!」と言われたらその場で2ヶ月あるんですけれども、CVPRに投稿できないみたいな状況も実際にあるようですし、「No!」に対して「No!」と言う強い学生もいて。それで通してすごいcitationされるような論文を書いている人も実際にいるという感じですね。

これも事実ですが、必勝テンプレはなんとなく存在してしまいます。1ページ目には論文を最も説明するような図1を置いたり、「論文の貢献はこれだ!」というのを2つ3つ書いたりとか。不必要に書くと減点されますが、contributionをちゃんと正しく書くことが必要だそうです。ここらへんはCVPRの速報にも書いてあるので、ご覧になってください。

USC ICTの研究の進め方

これも、もう1つ物議を醸した研究の進め方なんですけれども、「MUST WORK HARDER, SUBMIT OR DIE」という(笑)。

一番目についたのが「1週間前から研究室でご飯が提供される」というところみたいですね。研究だけに集中できる環境を作っているということです。ご飯の用意されている部屋にみんなで行くと、「最近の進捗どう?」みたいな感じで話が始まって、そこで論文を通すための秘策を一緒に議論するとおっしゃっていました。

これは私が実際にドイツの訪問研究へ行ったり実際に研究室に行って聞いてきた情報も含みます。

ドイツでは、今はどうかわかりませんが、私がいた当時は2週間ぐらい前からチームリーダーが全部見直して赤を入れるわけです。直前はチーム全員でクロスチェックをしていて、私もチームリーダーにイントロダクションを真っ赤に染められて返ってきました。でも、その仕組み自体が論文の採択率を上げるような仕組みなのかなと感じております。

あとは、1ヶ月前からチーム内のミーティングで論文を提出して、その場でみんなで「ここがダメだ」というダメ出しし合い大会がある研究室があったり。

アメリカでは、2ヶ月前からアイデアを発表して叩き上げていきます。2週間前に必ず全部仕上げて提出して、3人のレビュアーがいて、これもう査読の仕組みそのままですね。3人のレビュアーに対して反論できないと、投稿できないところまでやっているようです。

こんな感じで世界的には論文の質を上げる仕組みが整っているということでした。

中国の成長について

アジア勢は非常に伸びています。中国、韓国、日本。日本も世界で4位の参加者数だったようですね。309人だったかな。

参加したら、参加するだけにならずに論文を投稿したいですし、通したいなと感じております。やはり聴講したら投稿する。投稿したら採択されるよう努力する。そうしたらインパクトのある論文を書く努力をするという感じになってくると思います。

一方中国では、CV技術を高めるためのエコシステムが着々と整っているようですね。これはCVPRではなく、CCCVというのがどうやら去年中国でありました。どうやら3,000人ぐらい参加されたようで、今年はCCCVとCCPRがくっついて、PRCVという、どこかで聞いたことがあるような名前ですね(笑)。

これってChinese CVPRなのかな、という意気込みを感じます。3,000人+3,000人で年々参加者が増えるので、「本家のCVPRを食ってやろう」という勢いでエコシステムを整えているのかなと思います。こんな感じで中国の国内でCV分野を強くするような仕組みが完成しているのかなと、このページを見て思いました。

それだけでなく、やはり次のトレンドを創るような枠組みがワークショップといわれております。ワークショップも本会議同様におもしろいので、参加される場合はぜひ前後のワークショップにも参加してみてください。

こういうワークショップが実はICCVで開催されることになっておりまして、これ、実は私もオーガナイザーとして携わっております。このワークショップは絶対に投稿すべきなので、ここにいるみなさんはぜひご検討をお願いいたします。2ページのAbstractレベルでも投稿が可能なので、ぜひご検討ください(注:締め切りは2019年8月26日です)。

今後の方針について

時間も少なくなってきましたので、そろそろまとめに入らせていただきます。

やはりここで説明しきれないことも非常に多くありますので、絶対現地に行くべきだと感じています。参加して知識を増やしたら、論文を投稿して通すところまでやりたいなと感じておりますし、毎年チャレンジを行っております。

やはり採択ラインギリギリよりもPerfectな1本を出したいなと感じております。問題設定や手法や新規データベースなど、なんでもいいんですが、強いコンセプトが必要なのかなと思いますし、モデルに対しても、認識のモデルとか、そういうモデル・手法に対してもクオリティが求められる時代になったと感じております。

そのクオリティのためには、1人のパワーでは不十分だと感じております。私もそうでしたが、学生時代、学部とMasterで3年間同じテーマに取り組むことが非常に多いんですよね。

ただ、今はそうじゃないかもしれませんが、私はぜひ複数人で1テーマ、もちろん学部と修士の卒論とか修論はちゃんとクリアに分けるべきなんですけれども、クオリティの高い研究には1テーマ半年〜1年ぐらいで複数人でやるべきだと私は感じておりますし、常にテーマを拡張するように変更するべきだと感じております。

このように研究の質を高めるような仕組みも我々で考えておりますし、これは我々だけではなくて、日本でもそうですし、世界的にも考えられているところです。

なので、論文をご覧になるときに、論文の内容だけでなく、所属とかやAcknowledgementに誰がどんなコメントをくれたかが書いてあるので、そういった部分を見ると参考になるかなと思っています。

私のフィロソフィーはここかもしれないですけれども、「楽しもう!」ということです。cvpaper.challengeに関しては、知的生産、研究自体を楽しめるようなコミュニティにしたいと感じております。

最後にCVPRなんですが、こんな感じで揶揄されてしますこともあります。「Computer Vision and Precision Recall」。なんか「精度重視の国際会議になっていないか?」というのを周りの人から揶揄されているわけですね。

それに関して、これは実際に論文で出している内容なんですが、事前学習や特徴表現はより多様になるべきということで、「ImageNetを置き換えよう」みたいなモチベーションでやっていたりとか。

これはLanguage & Visionの研究なんですけれども、より高次な画像表現・文章表現とその評価方法を考えるということだったり、私も博士課程から取り組んでいるVideo Recognition。普遍的な、刻一刻と変わるような実世界を捉えるような問題設定を解いております。そんな感じで研究を繰り広げられているわけです。

モチベーションとしては、「CVPRはこうあるべき」というそんな大きな話ではなく、小さなところから考えていきたいなと感じていますが、Computer Vision and Philosophy,Reliabilityを打ち出すべきだなと感じております。「哲学」(Philosophy)から新しい問題設定を作ったり、データセットを1個に特化するわけではなく、普遍的に汎用的に信頼できる(Reliability)技術を提供するべきだと感じております。

このように人数も増えてきました。309人中の7パーセントぐらいがここにいるわけです。こんな感じで現在は270人、研究メンバーは57人いるわけです。このメンバーで、Computer Vision業界を少しでも変えていけるような取り組みができたらなと思います。

これで私の講演は終わりです。どうもありがとうございました。

(会場拍手)