橋本敦史氏の自己紹介

橋本敦史氏:皆さんこんにちは。京都大学の橋本といいます。「コンピュータビジョンとイメージメディア」分野の最新動向ということで、発表というかいろいろな研究を紹介させていただきます。

まず簡単に自己紹介です。私はここの近くの京都大学で研究者をしています。出身は札幌なんですけれども、研究分野としては画像処理とか、パターン認識とか、ヒューマン=コンピューター・インタラクションです。

あとちょっと変わっているんですけど、僕の主戦場は食メディアという分野で、いろいろな食に関することを情報学で扱うというような分野で研究をしています。それとだいぶ前なんですけど2006年、ドイツに8ヶ月ぐらいVulcanus in Europeというプログラムでインターンをしていたりしています。

今日の発表についてなんですが、基本的に技術的な詳細っていうのは、あまり細かく話しても30分で紹介できるトピックに限りがあるので、あまり難しいところには踏み込みません。資料にできるだけリンクを提供しようと思いますので、皆さん気になったものがあれば、あとで勉強できるようにと考えています。

今日はいろいろな話をしたいと思います。皆さんたぶん、いろいろなバックグラウンドの研究をしていると思うんですけれども、皆さんがコンピュータビジョンとイメージメディアという分野の中のいろいろな技術に出会って、何か新しいイノベーションを起こしてもらえたらなというふうに期待しています。

それから技術的限界。今の時点でできないことはたくさんあるんですけれど、どんどんこれから良くなっていくと思いますので、今回はあまりしゃべらずに、どんどん新しいトピックを紹介していけたらというふうに思います。

コンピュータビジョン(CVIM)とは

まず「コンピュータビジョンとイメージメディア」について、そもそもコンピュータビジョン(CVIM)って何だろうというのがよくわからない。実は僕もよくわからないところがありまして、いろいろな研究があります。

公式な見解があるわけではなくて、ここに書いてあるのは僕の考えなんですけれども。イメージングデバイスって書いてあるのは、カメラとかいろいろなもの。ぶっちゃけマイクとかでもいいんですけども、とにかく実世界っていうものを何かで観測した値ですね。

信号っていうのは、そのままでは全然コンピュータは扱えないんです。そこから何かを実世界で観測して、全然よくわからない信号っていうものからコンピュータが検索したりいろいろなことができるように、推定値xっていう計算機で取扱い可能な記号とか数値に変換すると。

こういうふうにコンピュータビジョンの問題は、たぶんどんな問題でもこういう枠組みに収まると思っています。皆さんはこういうふうに数式を書くと、ちょっと研究が進んだ気分になるんですけれども。この問題を数式で書くと、何か関数があってこういう推定値だった時に、この観測が出てくるだろうと。

どれぐらいのスコアで出てきますか? というのを、確率でもいいんですがそういう関数を用意して、これが最大になるようなxを求めると、この推定値っていうのが出てくると。これが、すごくラフにコンピュータビジョンの問題を一般化して、数式に落としたものです。

コンピュータビジョンの基礎「画像処理」の重要性

今カメラの話をしたんですけど、じゃあコンピュータビジョンって、画像処理ですか? というと、よくわからない。おそらく画像処理っていうのはコンピュータビジョンの一部です。サブセットだと思います。ただ、最も重要な分野です。

画像処理というのはコンピュータビジョンにとって1番基礎になっている分野なので、まずは画像処理についてちょっとずつ範囲を絞って、紹介していきたいと思います。

いろいろな問題があって、ノイズの除去とか、カメラがぶれてたりするものの動きを推定するとか前処理があるんですけど、コンピュータビジョンと他の分野が情報を統合して何か新しいことをやろうと思うと、たぶん画像の中の物体認識というのが1番おもしろいんじゃないかなと思います。

いろいろなやり方があるので、一概にこれが唯一のアプローチとも言えないんですけれども、「画像中のどの領域に何があるか?」っていうことです。

これは数年前に実家のほうで食べたウニイクラ丼なんですけど、まずこれをウニとかイクラとか大葉とかの領域、どれがどれっていうのがわかっていない状態でも、何か同じっぽいものとか、新しく画像に出てきたものとか、いろいろな分け方があります。

何か注目したい領域っていうのを見つけてあげて、それぞれがどういう物体なのかっていうのを認識してあげると。すごい大雑把に言うと、こういうふうに領域を特定して、そこの物体が何なのかっていうのを当てるというのが、物体認識の考え方になります。

さっきの無理矢理一般化したものに当てはめれば、観測っていうのはそのままなんですけど、出したいxっていうのは物体の場所と、人とかそういうのはわかっていないんだけど、とにかく物体a物体bみたいな、こういうラベルの割り振りっていうのが物体領域の推定の問題になります。

やり方はいろいろあって、事前に何もない状態の画像を撮っておいて、今そこに新しく入ってきたものはないかっていうのを比較する「背景差分」とか、あと動いているものをとにかく見つけるっていう、動き抽出とか。

あとは先に人とかのサンプルを大量に集めておいて、人検出器みたいなものを作ってしまって、画像の中からその人を検索してしまうようなアプローチ。そういうものが考えられます。

画像処理の歴史

歴史とかについても語ってくださいって言われたんで、歴史を一応用意してきたんですが、こういうのやるとたぶん、僕聞いてたら寝てしまうと思うので、あまり深くは喋らないですけど。あとこのおおよその時期というのも僕何も調べないで適当に書いたので、ちょっと嘘が入ってるかもしれませんが(笑)。

すごい簡単な「RGB値を比較しましょう」とか、あと「2つの連続するフレームで違う画素になったら、そこは動いているものがあります」とか、ここら辺はだいたい70年代ぐらいにやられているんです。

それからずっといろいろな手法が出てきて、今はかなり難しい手法もたくさん出てきています。あまりここをしゃべっていると本当に寝てしまうと思うので、サクッと次に行きます。

物体領域が抽出できたら、今度はその領域の中の画素値とかっていうのを見てあげて、商品名とか人の名前とか、写っているものは何なのかという物体名を当てましょうというものが、物体認識の問題になります。

これも一応歴史順に並べてみたんですけれども、これもちょっと時期は適当ですが。1番最初は、画素値そのものを特徴に使いましょうと。位置合わせはできている。同じ場所に同じものが写っていると仮定して、画素値の相関みたいなものを使って、テンプレートマッチングをしましょうというのが、1番最初の方法です。

画像処理分野でおもしろいのは、この最初の手法っていうのはもう使われていないのかというと、ガンガン使われています。工場環境みたいな、工場とかだと、撮影環境というのがすごく統制できるので、そういう状況ではこの手法が1番強い。

バカ正直にやるのが1番確実であるというような感じで、テンプレートマッチングを使う手法というのが今でもたくさんあります。

「物体の特徴抽出」と「識別器」の共同研究

ただ、例えば皆さんが持っているようなスマートフォンとか、ああいうもので写真を撮影して似たようなことをしようとした瞬間に、すごく問題が難しくなっていろいろな手法が、いろいろな物体の特徴とか識別器とかが研究されてきました。

物体の特徴抽出と識別器っていうのは長らく別々に研究されてきたんですが、最近よく聞くDeep Learningっていうやつです。あれが画像処理の分野でも、Convolutional Neural Networkっていう、ちょっと音声とか最近出てきたディープボルツマンマシンとか聞いたことありますか?

最近学会に行くとだいたい1件ぐらいは、認識系の学会だったら発表があると思うんですけど、そういう手法っていうのが出てきています。これは大量にサンプルを集めてきて、そこから物体特徴も撮ってくるし、それにマッチした識別器も作っちゃうっていう、両方やるという手法になってきて。

長らく分かれていたものが、また1つに返って来たなというふうに感じています。

かなりいろいろな手法やツールがあるので、皆さんここに書いてあるようなものは、だいたいパッとライブラリを入れれば、すぐ試せるような状況になっています。

Deep Learningの画像処理版なんですけれども、このConvolutional Neural Network、これもちゃんと説明すると30分を超えてしまうので30秒ぐらいで説明しますが。多層にいろいろあるんですけど、たまにpoolingっていう処理が入っているのが、1番の特徴かなと思っています。

画像っていうのは音声とかと違って、同じ時刻に観測された情報に、地理的・位置的なズレとか、スケールの違いとかそういうものがあるので、そういうのをpoolingっていう処理で吸収しながらやっているっていうのが、他のものとちょっと違うかなと思っています。

Facebookの顔認識・検出技術

1番有名な応用がDeep Faceっていうやつで、Facebook皆さん使ってますか? 最近の若者はあまり使ってないとか聞くんですけど。Facebookでちょっと前までは、人の顔が検出されなくて自分で付け足したりしてましたよね?

それをFacebookの人たちはちゃんと世界中からかき集めて、学習サンプルをたくさん集めて、それを使って顔認識器と顔検出器、検出と認識を両方やるんですけど、それを作っちゃったのがDeep Faceです。

人の名前に僕はあまり興味がないんですが、Yann LeCanという方が有名で、この人はニューヨーク大学の教授なんですけど、FacebookのAIリサーチのヘッドをやっているというような人たちが有名な分野になります。

ローマを1日で作れる!? Structure from Motionとは

認識の話はここまでにして、話をガラッと変えます。もうちょっとCV(コンピュータビジョン)っぽい話としては、Structure from Motionというのが5、6年ぐらい前からかなり発展してきて、使えるようになってきています。

Structure from Motionというものは何かというと、カメラがたくさんあると。いろいろな方向から、どこにカメラがあるかわからないんだけど、とにかくたくさん集めてくる観測です。

そこからBundle Adjustmentっていう手法を使って、このカメラに撮られた各画素っていうのが3次元空間中でどこなのかっていうのを当てるというような問題になります。

ローマを1日で作っちゃいましょうというようなサイトとか、あとPTAMっていうのが結構有名です。パッと出るかわからないんですけど……これがBuilding Rome in a Dayという……ちょっと出ないですね。すいません。

この黒い点が何かというと、これは全部カメラです。こういうたくさんのカメラから撮った画像で、こういうふうに3次元の空間っていうのを、ローマのコロッセオを復元するというものが、このBuilding Rome in a Dayというプロジェクトです。これは結構前からあってちょっと有名なんですけれども、さらに発展してきています。

仮想物体をマーカーレスで出現可能に

PTAMっていうのは、ARの分野とかだと結構出てくる手法になります。これは何をやっているかっていうと、さっきは多数のカメラだったんですが、今度1個のカメラなんだけど、そのカメラが動くよと。カメラが動いて、画像中の特徴的な点っていうものを追跡して、そこから映しているシーンの3次元空間っていうのを出しちゃうんです。

そうするとマーカーレスで、こういうふうに仮想物体をカメラに映してるところに、しかもこれ実時間で投影できるというような手法になっています。

これはカメラが動いても、この座標計は動かないっていうのは、カメラが動いても3次元空間上の座標というのは出せているからです。これで、昔はARToolKitとかで、マーカーありきでやっていたことが、マーカーレスでもできるようになってきていますと。

これもPTAMって有名な手法で、たぶんライブラリとかでもすぐ使えるようなものになっているはずなので、興味があればちょっと動かしてみてもおもしろいかなと思います。

研究資源とツールの共有

画像処理に絞って言えば、かなりいろいろな話がありますけど、この『コンピュータビジョン―アルゴリズムと応用―』っていう本はたぶん、日本語でアクセスできてまとまった資料が載っているものの、1番新しいものになるかなと思います。

ちょっと高いので個人では買えないと思いますから、学校の図書館とか、研究室でおねだりするとかして買ってもらったらいいんじゃないかなというふうに思います。

あと、『Convolutional Neural Network』のほうは、オムロンから中部大学に何年か前に移られた、山下先生という方がやった講演の資料とかが、結構わかりやすいかなというふうに思います。

あと今はビッグデータ時代なので、画像処理の分野は特に画像がたくさんないと研究にならないという状況になっていて、いろいろな人がいろいろなデータセットを作っています。そのデータセットを集めた、データセットへのリンクがたくさん集まっているようなページっていうのもあります。

WordNetっていう、自然言語処理系やっている方はWordNetとか知っていますか? WordNetっていうのに、対応した画像をとにかくたくさん集めたImageNetっていうものとかがありますので、使ってください。

あと手前味噌なんですけど、私は食メディアということで、キッチンの人の活動っていうのを認識するとか、そういう研究もやってるんですけど、そのキッチンでひたすら調理しているところを上から撮ったようなデータセットとかを、私が公開しています。

それからさっきチラッと出てきましたけど、Toolboxとしてはかなりいろいろなものがあるんですけれども、OpenCVとか、あとさっきのConvolutional Neural Networkを使う時はCaffeとかが有名になってきます。あとPTAMみたいなものも。

Kinectとかで撮った3次元の点群データっていうのを使う時は、Point Cloud Libraryとかが有名になってきます。

様々なイメージングデバイス

結構時間が経ってしまったんですが、観測できる世界っていうのは、デバイスで変わります。画像処理の話をようやくちょっと抜けてくるんですが、イメージングデバイスについてです。

カメラっていうのは、いろいろなものがあります。電子顕微鏡からビデオカメラ、ハイスピードカメラとかあって、最近だとフェムト秒単位でシャッターが切れる。フェムト秒ってどのくらいか、僕ちょっとよくわかってないんですけど、誰か知ってますか?

人が動いてる時、奥行きによって、届く光が距離によって違うぐらいの速さでシャッターを切るんです。だから僕らが普段見ているような世界とは全然違うものが撮れるような、そういう世界で画像処理するカメラまで出てきています。あと3次元を撮るものとか、可視光じゃなくて、赤外光とか紫外光とかを撮るカメラとかいうものもあります。

あとハイパースペクトルといって、衛星とかに積んでて地表とかを撮ったりするんですけど、RGBだけじゃなくて、その光の周波数帯域、いろいろな帯域が同時に撮れるようなカメラもあります。あと医療関係で言えばMRIとかX線とか、そういうもので撮ったものというのも画像処理の範囲内になります。

さらにそういう考え方が発展してきて、最近はComputational Photographyというのが流行っています。これは何かというと、撮影対象は、「人が見る」っていうのをあまり考えていなくて、あとで計算機が処理しやすいように撮影するように工夫しておく。こういうようなものが流行っています。

これ市販されてるんですけど、有名なのがLytroというカメラです。ちょっと古い論文を適当に引っ張ってきました。小さいカメラみたいなマイクロレンズアレイっていうんですけど、こういったものがたくさん並んでいると。そうすると、こういう画像が撮れるんです。

これ何かというと、1個1個の解像度は低いんですけど、視点がちょっとずつずれていくようなカメラになっています。それをあとで、超解像という技術を使って統合してあげると、1枚1枚は低解像度なんですけど、すごい画質がいい画像が撮れるんです。

しかもその画質のいい画像というのは、自由に焦点をあとから変えられる。そういうようなものになっています。実際にLytroのページに行くと、ギャラリーというのがあって、それが見れたりするんですけど……パッと出てこないですね。

ちょっと出てくるまでに先にしゃべりますけども、自由に焦点を合わせる位置が変えられるということは、ある距離に焦点を合わせた時に、ピントが合っているか合ってないかっていうのは、画像の解像度みたいな、周波数が高ければピントが合っている。

低ければぼやけているということで、ピントをここに合わせた時に解像度が高いか低いかっていうので、3次元情報が撮れるんです。何かネット接続が死にましたね。ちょっとすいません。これが終わったあとに、向こうの部屋の僕のところに来てくれたら、たぶん見せることができると思います。

ちょっと話が戻りますが、自由に焦点が合っているところを変えられるので、焦点が合っている時に解像度が高くなっているよっていうのをチェックすると、奥行き方向の情報も撮れるというようなカメラになっています。

新たな3次元映像技術

CVIMというか、コンピュータビジョンの分野ではよくあるんですけれども、撮像系を、つまり、レンズというかCCDセンサーをプロジェクタに入れ替えてあげると、逆のことができるということがあります。

これはLight Field Displayっていう、NVIDIAの人が2013年に発表したものです。さっきはここに全部、細かく1個1個カメラが付いていたんですけど、今度は1個1個プロジェクタが付いているようなものになっています。これは3次元視にするためのものなんですけど、従来の3次元視と決定的に違うことがあります。

それは何かというと、皆さん今映画館へ行って、メガネをかけたりして3次元映像を見ますよね? あれは両眼の視差っていうのを使って3次元を見せているんですね。片眼で近くのものを見た時と、遠くのものを見た時で、ピントが全然違いますよね。自分の目で見た時にです。

実は片目でも結構人間は、ピントを合わせる時に距離っていうのを計っているんです。でも従来の普通のやり方だと、ピントはスクリーンに合っていると。なのに両眼視差だけが実際の物体の奥行きにあるということで、そこがずれていたんです。

実は僕、全然3次元視できないんです。ずれていたせいであのカメラを見ても全然見れないんですけど、そういうことがこれだとない。実際にものがある位置に、ここの目もピントを合わせるというような感じで、かなりリアルに近い感じで、3次元を出せるようなカメラになっていると。

僕は実際に覗いたことがないので、どれぐらい解像度が高いかとかはちょっと知らないんですけど、そういったものになっています。

こういうふうにCVIMの分野では、このセンサーじゃなくてプロジェクタっていうのを入れ替えると、似たようなことができるよっていう話が結構あるんですけど。もっと激しい人たちもたくさんいまして、両方使っちゃえと。プロジェクタで何か投影して、その環境でカメラでも観測しましょうというような話も結構たくさんあります。

古くからあるのは、このshape from shading、照度差ステレオ法というんですけども。Shape from Xといって、Xにはいろいろなものがあたります。Xをいろいろ変えて、3次元形状をとりましょうっていうものの、これは照明の位置を変えてあげると。照明の位置を変えてあげて、各点の平面の法線方向というのが出るんです。

これが面だとしたら、これが法線方向です。それぞれの画素値で法線方向が出れば、一応それをずらーっと並べてあげれば3次元形状になりますよね。というようなものです。これがshape from shadingです。

これはかなり昔からある話になりますけど、もっと激しいのもあって、これプロジェクタでパターン光っていうのを投影しちゃって、3次元空間中に行動を埋め込んじゃう。

カメラでそれを撮ったら、このパターンと色がいろいろデブルーイン系列というんですけど、その色のパターンで、これがこっちのプロジェクターの、どのxy画像に投影されたのかみたいなものが出せる。

そういうことをしてあげると、こんなふうに照明をパシャパシャと切り替えた場合だと、止まっててくださいということになります。時間がしばらくかかっちゃうんですけど、これだと一瞬で撮れるというような手法になっています。

RGB値で表せない金色の反射特性

撮るのは形状ばかりではなくて、色っていうのも。最近はかなり詳細に撮る動きっていうのが、これ奈良先端大学院大学の向川先生っていう先生がやっている有名な研究なんですけど、金色って皆さんRGB値で表せますか? 一応HTMLとかでゴールドって見ると、それっぽい色が出てくるんですが、あれを金色とは言えないですよね?

何でかっていうと、色っていうのは照明があって、物体の表面があって、反射したこの角度によって、ちょっとずつ違うんです。金属だったら光が来てるところがすごく強く反射するだろうし、もっとマットな物体だったら、全体的に均一な色になる。そういう反射特性っていうのを観測してあげるといいですよねっていう研究です。

これCGの龍なんです。CGにこの古いペニーから取った表面反射特性みたいなものをペタッと貼り付けてあげると、こんな見た目になるし、新品だとこんなふうになるよっていうものです。

これは回っている動画があれば、もっとわかりやすかったんですけど、ちょっとWeb上で見つからなかったのですみません、静止画なんですけど。これクルッと回る時に、この光沢とかが回転と一緒に動いていくと、すごく質感がよく出ると。

こういうふうな計測をしようと思ったら、楕円鏡っていうのを付けて、プロジェクタから1点に光を照射して、それがここの楕円鏡で反射して、物体の1ヶ所に当たって、当たったものがまた反射して、この楕円鏡を介して、もう1回こっちに戻って、実はここハーフミラーになっているので、返って来た光が、ここのカメラに落ちると。

このすごい大がかりな撮像装置を使って、撮影されたものになります。

こんなふうに観測対象に働きかけるんですけど、実はかなり有名なKinectっていうやつが、ここを赤外光にしてるんです。赤外線にすると実世界に何を投影しているか、人間には見えなくなるんです。

そうするとCVの問題って数学的には解けないっていう問題がたくさんあるんですけど、それを拘束条件を実世界に投影してあげて、解けるようにするよというようなアプローチっていうのも、CVの分野ではかなりメジャーです。

さっきチラッと言いましたが、これはKinectです。これは赤外線カメラで撮ったやつなので今見えていますけど、こういうドットパターンが、ここからビヨーンと観測空間中に投影されていて、それを赤外光カメラでここを撮ってあげると、ここを三角測量できるので、距離計測ができるよというようなものになっています。

これもいろいろなおもしろいものが出ているデモとかもあるので、興味があればあとで見ておいてください。

機械翻訳+コンピュータビジョン

ここまでCV分野の話っていうのはたくさんしてきたんですけど、CV分野単体だけじゃなくて、他の分野と組み合わせることで、いろいろなイノベーションというのが考えられます。

このデモも見せたかったんですけど、プロジェクタとの接続が上手くいかなかったので、皆さんの前でお見せできないんですけど、あとでまた向こうのところで来てくれれば、見せることができます。

機械翻訳とCVっていうのもあります。一応ここにドイチェ・バーンっていうドイツの鉄道会社のホームページなんですけど、これをカメラで写すと、勝手に文字があるところを認識してくれて、そこを翻訳していくと。

これは「Mac Book Air」を「Mac Book空気」って訳されちゃったりしているシーンですけど。これ結構おもしろくて、技術的にはCVとしては文字っぽいところを探して、それを塊ごとに分けて、その塊ごとに文認識をする。そして機械翻訳をかけるというような段階があるんですけど。

たぶんここで自然言語処理の自動翻訳とかやってる方はわかると思うんですけど、こんなふうに文字がバラバラで文章になってないと、コンテキストが使えないので、すごく精度が下がってしまう。

ここら辺をCVのほうで、もっと正確にちゃんと文字を認識しましょうっていうのと、機械翻訳のほうで、もっとちゃんと翻訳しましょうっていうところで結構チャレンジングな話題として今扱われています。

キッチン+CVインターフェイス

それからこれも、半分宣伝みたいな感じですけど、キッチンにもCVを持ち込むと、いろいろ話があります。僕がやっているのは、こういうふうに切っているところを認識してあげて、自動でレシピが切り替わると。

やっていることに合わせて切り替われば、慣れている人っていうのは、勝手にどんどんやっていっても、今やっていることっていうのが常に出ているので、困った時に顔を上げれば、すぐにそこに情報が出てるよっていうような話です。そういうインターフェイスを作ろうとして、いろいろと研究をしています。

これをやろうと思うと、まず物体っていうのを認識しなきゃいけないし、それで取ったものを検証すると。何を取ったかっていうのにしたがって次を予測するんですけど、キッチンに限らずワークフローで表せるような作業っていうものの中の、終わったやつっていうのをどんどん見つけていって。

次はどれをやりそうかな? っていう候補を出してあげて、その中で撮った物体から、これをやるんだっていうのを当てるというようなことをしてあげれば、そういうことができるというふうに考えています。

実際にこれ画像処理で物体を取ったり置いたりっていうのを、これは背景差分ベースです。かなり最初の時に話したんですけど、背景差分ベースで、置いたり取ったりしたものっていうのを出しているようなものになります。

先に行きます。キッチンとCVというのを足すと、僕がやっているのはCV系の研究+インターフェイスにしようとしているんですけど、自然言語処理分野でもレシピとかレシピブログとかっていうのを解析したりしているような研究があります。

香りと見た目でクッキーの味が変わる!?

VRでは、五感の錯覚っていうのを使って食感提示をしましょうっていうのがあって、鼻のところに臭いを出しながら、ヘッドマウントディスプレイで、エアーマーカーを焼き付けたクッキーを食べると、エアーマーカーを認識してチョコになったり、レモンになったり。いろいろな味付けになっちゃいます。

糖尿病とかの人は、そういうのが食べられないので、香りと見た目とで提示してあげることで、ちょっと満足度が上がるんじゃないか? とか、食べられないものを食べた気分になれるんじゃないか? とかいう研究とか。

あとは噛んだ時の音を変えてあげると、食感が変わるんじゃないか? とか、そういう結構おもしろい研究がVRにもあって、meta cookie++―ちょっと+1個多いかもしれないですけど―meta cookieで検索すると、たぶんすぐ出てくると思うんですけど、東大でやっている研究部門です。

あとは医療関係もかなりの研究があるんですけど、認知症の患者の方のリハビリとか、調理ってかなりいろいろなことをやるので、脳のすごいいいトレーニングになるということで、リハビリに使えないか? とか。

ただ火とか包丁とかを使うので結構危なくて、いろいろな人が見守ってあげないといけないのが、ちょっと課題ってところがあります。あとFood Logというアプリもあったりします。

ここら辺も研究資源あって、自然言語処理とCVの足し算という意味ではPascal-sentenceっていうのがあります。これもさっき言った、手前味噌なデータセットになります。

あと一応、明日から始まる情報処理学会の方の、この分野に関連するセッションをパーッと並べてみたんですが、画像処理系が多いんですけど、こんな感じでいろいろセッションがあるよということで、研究盛んな分野になっています。ということになります。以上になります。

制作協力:VoXT