3ヶ月かかった分析が、自動化で100分の1に　動画解析を効率化する、LIXILのAI活用の舞台裏

「今朝どちらの靴から履いたか」、私たちは無意識に行動している

森梓氏：それでは「LIXILが取り組むAIを活用した行動観察」ということで、株式会社LIXILの森と原田よりお話させていただきます。本講演は2部構成となっており、第1部が「行動観察」について、第2部が「AIを活用した調理動画解析」という内容でお話させていただきます。

まず第1部「行動観察」について始めさせていただきます。

改めまして、私は株式会社LIXIL人間科学研究所の森と申します。

本日はこのような場でお話させていただく機会をいただきまして、大変うれしく思っております。ありがとうございます。

私はこれから、「行動観察とは何か？」「行動観察とAIをなぜ組み合わせたのか？」といったことをお話していくつもりですが、このテーマを実際に始めたのは2年前になります。それまではまったく関係のなかった化学分析や「健康と住宅設備機器を組み合わせてなにかできないか？」といったことを考えていました。

その中でユーザー視点でのものづくりの必要性を強く感じたため、現在はユーザー調査、新価値提案に軸足を置いて、研究を進めております。

AIという言葉も、ITという言葉も出てこないような、まったく素人の私がどうやってこの研究を進めてきたのか。そこには弊社IT部門の原田の協力はもちろんのこと、ABEJA社のプラットフォームの活用によって実現できた部分が大きいです。

今日のお話を聞いていただく中で、前向きな可能性やヒントを感じていただけましたら幸いです。それでは、進めさせていただきます。

ここでみなさんにご質問させていただきます。今朝、家を出る時に、どちらの足から靴を履かれましたか？　利き足でしょうか？　そもそも利き足というのはどちらでしょうか？

今はオリンピックも盛り上がっておりますが、スケートリンクや陸上のトラックが左回りであるように、左軸足・右利き足の人が多いと言われています。その右利き足ですと、右足から履く場合が多いそうです。稀に「右利き足であっても左から履く」方もいらっしゃるようですが、そのような方の場合、「面倒くさいことは先にやって、後で楽をしたい」という心理的な癖が現れているそうですね。

このように、私たちは普段あまり意識して行動していないということを、お気づきいただけたかと思います。私たちは日々、時間やタスクに追われて生活しています。そういった現実世界での行動と、机上で想像するような理路整然とした行動には、大きなギャップがあります。

私たち人間科学研究所は、その現実の行動をつぶさに観察することで、商品につながるような価値を見出し、新しいソリューションを提案していきたい、と考えております。

キッチンの上から物体認識をかける

これまでの行動観察では、調理動画から人やアイテムの動きを目視と手作業を使って、分析してまいりました。

調理はだいたい1時間かかりますが、この例では「1時間14分50秒」かかっており、そこには調理道具や食材といったものが「162アイテム」も登場します。それらのアイテムを使って、「973回」のタスクが発生しています。これらの位置関係や、さらにアイテムの状態といったものもかけ合わせて記録・分析していくため、1件あたり約3ヶ月という膨大な工数がかかっておりました。

そのため、複数件での比較・統計分析が困難であったり、分析粒度がバラついてしまったり、スポット動作にのみ着目したり、分析の深掘りに限界がございました。これを一部でも自動化することができれば、私たちが本来取り組みたいこと、すなわち、仮説抽出や仮説検証といったフェーズに注力することができます。

自動化の効果を数字で計算してみますと、3ヶ月かかっていたものが数時間、ほぼ5時間であると計算でき、100分の1の短縮になります。これは泥くさく地道に分析してきた分析者にとっては、非常にありがたい数字でございます。

こういった背景をもとに、私たちはABEJAさまのプラットフォームを活用させていただいて、AIを活用した行動観察を実現してまいりました。詳しくは2部に譲りますが、私たちは調理動画を対象としておりましたので、食材の色や形が変化することに対応できるディープラーニング、AIを採用しました。

今ご覧いただいているものは、キッチンを上から見た画像に物体認識をかけたものです。調理道具や食材を認識し、追跡している様子をご覧いただけるかと思います。こうして得られた物体認識データから、どのような課題を発見し、どのような仮説を立ててアイデアに昇華させるかが私たち人間科学研究所、LIXILとしての勝負のしどころです。

（データの提示は割愛）

このようなデータ分析にかけ合わせ、これまでどおりの目視観察、あるいは、アンケート・インタビューといった知見も重ね合わせながら、私たちはユーザー特性にフィットした住宅設備機器を提案していきたい、というふうに考えております。

以上が第1部の内容となります。それでは第2部、実際にAI技術を導入した原田よりお話させていただきます。

ABEJAとの最初の出会い

原田篤氏（以下、原田）：みなさま、こんにちは。LIXILの原田と申します。第2部の「AIを活用した調理動画解析」の部分を、私から発表させていただきます。

まず、私の自己紹介からスタートさせていただきます。私はLIXILに入社する前は大学で自動運転、あるいはシミュレーションをやっておりました。入社した時も、材料の研究所で射出成型をしたり、3Dプリンターいじったり、画像処理をしたり、分析系の業務なんかをやっておりました。材料の研究所においても、デジタルの技術を活用していたので、気付いたら安井の下でエンジニアをしていました。

今回、ABEJAさんのイベントで登壇させていただくことになったのですが、そもそもABEJAさんとの出会いは、ABEJAさんが定期的に開催している「ディープラーニング・トレーニングコース」ですね。グループワークでいろいろな会社の人が来て、ディープラーニングの基本的なところをハンズオンで学ぶイベントになっていて、ABEJAさんのリサーチャー、エンジニアの方と、ディープラーニングの基本を学んでいく中で、ABEJAさんのことを知りました。

当時、1年半前ですが「すごく今風の会社だなあ」と思っていて、いざ自社に帰ってみて調理動画の課題を考えていくと、「あれ、そういやABEJAさんっていう会社があったな」と思い出して、連絡を取ってみて、そうこうしているうちに「ABEJA Platform」を使うことになっていましたね。

本日語ろうと思っていたのは、「LIXILがどのようにして調理動画解析を実現したのか」です。例えば、「キッチンとAI」という話ならキッチンロボットをご想像される方も多いかと思います。僕も実はキッチンテックに興味がありまして、エンジニアとしてだけでなくて、単純に生活者として、キッチンテックのイベントにも行くことが多いです。

先日、海外のフォーラムで、ドリップコーヒーにうまくお湯を回しながら注いでくれる腕、ロボットアームを展示している人がいて、「いろいろ考える人がいるんだなあ」と思いました。今後、そういった技術がどんどん進んでいくのかなと最近は感じているところです。ただ今日は、こういう話ではないんですね。

それと「AI」というと、スマートスピーカーが出てくると思いますが、もちろんスマートスピーカーの話でもありません。

「では何の話なのか」というと、LIXIL、キッチン、こういうキッチンをたくさんつくっていますが、つくっていく中で「ユーザーエクスペリエンスを上げるためにキッチンをどうデザインすればいいのか」を真剣に考えています。そのロジックの部分を、AIを使ってアシストできるものを、つくってあげるといいんじゃないかということで、今回の考えたテーマになります。

画像認識で要件定義できるようにしたところが始まり

「調理行動観察に画像認識を使うメリットってなんかあるのかな？」と考えた時に、従来の取り組みでは人手でやっているので、分析をする前の解析をする段階で労力を使ってしまうんです。人によってバラつくという問題もありました。

僕も最初「行動観察」を、LIXILは合併した会社なんですが、合併する前の最後の時からずっとやっています。ただとにかく時間がかかるということで「自分でやろう」とはまったく思わなかったんですね。

先のグラフの形にするために3ヶ月かかるというのは、「かなりヤバい業務だな」と最初は思いました。エンジニアとしてはもうちょっと楽をしたいというか、「なんとかしてあげたいなあ」と思ったところがあります。

手作業でずっとやっていたということで、何をどう追えばいいのかはっきりしていました。そういうことで、今回、画像認識でしっかり要件定義してみようかなと思ったのが始まりでした。

クッキング系、調理系の画像認識界隈では、スタンフォード大学のフェイフェイ・リー先生がいて、TED Talkで有名なプレゼンがあります。その方が調理関連で非常にたくさん研究をされていて、画像認識の界隈に関しても調理に関する研究が増えています。そういうこともあるので「たぶんできそうだな」と取り組み始めたことになります。

実はLIXILが自社でやり始めたんですが、GoogleさんのTensorFlow、AmazonさんのMXNetなどいろいろディープラーニングのライブラリが出ていると思います。もともと機械学習のライブラリは、scikit-learnとか、いろいろ使いやすいものがたくさん出てきているので、そういった意味で人工知能の民主化、誰にでも使えるレベルになってきているんじゃないかと感じているところです。

ABEJAさんも人工知能の民主化という感じで、プロジェクトマネージャーを募集しております。今、この写真は一緒に取り組んでいるプロジェクトマネージャーの書上さんという方です。

今回はかっこよくて引用させてもらいました。僕も真似してみようかなと思いまして、人工知能の民主化の流れに乗って、自分たちでやってみようということになりました。紹介をします。

ディープラーニングの技術発展に驚き

原田：やろうとなった時に「まずどうやってやろうかな？」と考えました。今回の調理動画の解析、画像認識という部分は、何を見るのか明らかになっているという話でした。例えばトマトの画像があったときに「トマトがどこにあるのか」ということ。トマトの画像っぽいものがあったときに「それはトマトだよ」ということ。あるいは、間違えたら「キュウリだよ」という感じになりますが、そういう分類をする、あるいは、座標を取ってくる、そういう2つのタスクを内包していました。

最初はディープラーニングについてあんまり知らなかったんですけど、自動運転を研究していたので、背景差分でちょっと動いたところだけ取ってきて、分類のところだけディープラーニングを使ったらいいんじゃないかなどと考えていたんですね。

昔の経験から言うと、背景差分でそういう動くようなもの、例えばトマトもブロッコリーも切ったら分裂していきますが、そういうものを取っていくのは大変だなと思っていました。もう少し汎用的に使えるソリューションがないかと考えました。

その時に、ディープラーニング系でR-CNNという、領域とその物体の識別が同時にできるような手法があったので、「これ、けっこういいんじゃないか」ということでサーベイを進めてみました。

いろいろ手法はありますが、SSD、Single Shot Detectorという手法がいろいろなところで使われていそうで、精度もよさそうということで、「これを使ってみよう」という話になりました。

これは余談なんですけど、「ディープラーニングは技術進展が早い」という話をよく聞きます。このR-CNNはその最たるものかな、と思っております。この表の上のところですね。

Faster R-CNNと表示されていますが、もともとR-CNNが出た後に、Fast R-CNNが出て、そのすぐ後にFaster R-CNNが立て続けに論文で出ているんですね。

「すごい名前のセンス、適当だなあ」と思いました。研究者の方って、そういうユーモアがあるのかなと思いますが。年明けにIntelのCPUの脆弱性で、SpectreやMeltdownといった名前のやつがありましたからね。もうすでに次のやつが出ていまして、Meltdown Prime、Spectre Prime、Amazon Primeみたいなのがたくさん出ている感じです。

（会場笑）

なので、もし自分たちでこういう論文を出すんだとしたら、なになにPrime、例えばLIXIL Primeみたいなのにしたいなと考えています。

最も肝心なデータセットでいきなり苦労した

原田：話は戻ります。当時出ていた手法の中で「Single Shot Detector」が、一番「FPSも出そうだし、精度もよさそうで、けっこういいんじゃないか」ということで採用し、今も使っております。

「よし、じゃあ、手法が決まりました」となり、GitHubからクローンしてきて、AWSで環境を立てて、「じゃあ、実際に動かしてみましょう」となります。ただですね、ここで直面した問題がありまして、それがデータセットの部分です。

ディープラーニングというのは、このイベントで何回もいろいろな方がおっしゃっていると思いますが、もちろん手法のところも大事なんですけど、データの部分が一番大事なんですね。そのデータに関して、今回のタスクについて考えてみると、例えば一般物体であればそこそこデータセットがあるんですね。車がその最たるものかなと思います。車業界は力というか経済的な影響が大きいので、車関連のデータセットはたくさんあるんですね。

一方で食材というのはデータセットがないんですね。そのなかでも「調理中の食材・調理道具」のデータセットはほとんどないんですね。

公開のデータセットもありますが、MicrosoftのMS COCOというデータセットで、この中でもカテゴリーが10個ぐらいしかない。そもそもこういうデータセットが少ないというのが調査してわかったことの1つでした。

Microsoftということで、海外で生活している人が生活の中で撮った写真が多いんです。日本特有の物体というのは少ないなと感じました。あとは調理途中の画像が少ないこともそうです。そもそも「ぜんぜん種類足りないよね」ということで、「どうしようかな？」と考えます。もちろんクックパッドさんがレシピに載っている画像を公開してくれていて、それはありがたいなと思いながら、今回は活用していないところになります。

そこで「データがない」「じゃあ、つくろう」という話になりました。つくるにしても、まずそのデータをそろえる必要があります。そろえたデータに対してタグ付けをします。いわゆるアノテーションという作業ですね。

アノテーションをするためには、アノテーションをする人を確保しないといけない。人海戦術なので人を確保する必要があります。このあたりが苦労したところになります。

まずアノテーション周りでABEJA Platformが活躍する

石原：アノテーションツールを用意する、アノテーションする人を用意するところに関して登場するのがABEJAさんになります。ABEJA Platformはこういったアノテーションツールも提供しているんですね。

私たち、最初はオープンソースのアノテーションツールを取ってきて、自分たち用にカスタマイズして使っていましたが、非常にイマイチな感じで、作業性も悪いし、センスもよくなかったんですね。そこで「もうちょっといいソリューションないかな？」とずっと探していました。

そんな中で「ディープラーニング・トレーニングコース」でABEJAさんに会ったなと、自分の頭の中で想起して、連絡を取って、「こういう問題を抱えているんですけど、なんかいいソリューションないですか？」という話をうかがったのが最初です。

そしてついでに使わせていただけることになりました。そもそもアノテーションをする人を用意するという話もありましたが、そこもABEJAさんのいいところで、BPOとして業務委託も可能なんです。これが大きなところです。

1回、僕の友人でまだ大学にいる人がいるんですけど、そういう人をアルバイトとして雇って、アノテーションしてもらったことがあるんですね。アノテーションというのは気が狂いそうな作業で、こういう調理動画の同じようなやつをバーッて見ながら、「これはキャベツ」「これはキュウリ」「これはトマト」「これはお鍋」という感じでひたすらやるんです。当然「気が狂いそう」と苦情が来たので、さすがにやめようと思いました。

システマティックにやらないと精度もよくないし、自分たちの工数もどんどんどんどん増えていくので、そこをABEJAさんがBPOとしてアノテーションをマネジメントしてくると言ってくれたのが、非常に助かりました。

そのデータができてくるわけですが、次は学習させるプラットフォーム、あるいは、つくったモデルを実際の環境に適用する、推論のところ、この環境をつくることになります。

とくに今回のケースだと、開発の現場で使いたいということなので、自分みたいなエンジニアがつきっきりで動かすようなシステムというのは向いていないと思ったんですね。できるだけ簡単なシステムにしたいという思いがありました。

まず1から自分たちでAWSをつくって組んでみました。先ほどの例ですと、調理モニターの動画をS3にアップロードしますと、アップロードしたタイミングでLambda叩いて、EC2のインスタンスをつくります。

あらかじめ用意しておいたGitHubのコードをどこかの環境をロードして、使い捨てのインスタンスをつくって、解析や推論、あるいは、学習をする。その結果をS3に格納する。森のような非エンジニアユーザーに、非開発の方からTableauで見てもらって分析をするということを考えております。

ただ、実際やってみてわかったことですが、単体でやるんならいいんですけど、例えばモデルを再学習させるとバージョンが変わります。バージョンが変わるとモデルの精度も変わってくるので、ずっと運用するなかで「その品質をどうやって見るのか？」という話にもなります。

ABEJA Platformを利用するきっかけ、そのメリットについて

石原：モデルの再学習のところで、全部にエンジニアが入ってやりましょうというのは現実的じゃないなと思います。なので、「これをもうちょっと簡単に運用できるような仕組みにできないか？」ということで考えたのが、ABEJA Platformの利用でした。

ABEJA Platformを利用した場合、非エンジニアユーザーがABEJA Platformに、データリークというものを生かして動画をアップロードできます。そうすると自動で学習します。この学習の部分もABEJAさんのエンジニアの方がサポートしてくれますので、そういう意味でも自分としては「けっこう心強いな」と感じたところです。

つくったモデルをデプロイして推論してみましょうというとき、推論したものも推論してでてきた解析結果みたいなものも直接Tableauで見にいくことができるので、今のフローとあんまり変わらず「けっこういいんじゃないか」と考えているところです。

モデルの再学習をする時に、その品質管理の話もしたんですけど、ABEJAさんの場合は、「学習済みモデル、何を使ったら精度がこうなりますよ」という詳細なレポートを出してくれます。そういう意味でも、開発プロセスに使うという用途を考えた時に、「けっこう相性がいいんじゃないかな」と思ったのが1つのきっかけになります。

というわけで、ABEJA Platformの優位性ですが、「運用を見据えた学習・推論環境が手軽に構築できる」というのがいいところかなと思っています。とくにこういった環境がない会社さんが「これから環境を構築しようかな」という時に、ABEJA Platformを使って、自社のエンジニアを活用して、こういうのを組んでみるというのは、1つありかなと思っております。

それと細かい部分ですね。例えば、ディープラーニングのパッケージのバージョン、モデルのバージョン、あるいはいろいろなインフラ周りの保守管理を考えなくていいので、そこも非常にイケてるところかなと考えております。

まとめになりますが、私たちは「現場で画像認識を活用して、現場の業務をすごい効率化しましょう」という話だったんですね。こういう事例は他の会社さんにもたくさんあるんじゃないかなと思っています。

事例としてはシンプルですので、自分たちのような同じような課題を持っている会社さんが、同じようなアプローチでやっていて悩むことがなくなればいいなと思って、今回発表させていただきました。

というわけで、自分たちのデータセットを自分たちでつくることができて、運用を見据えた動画解析システムをつくりました。もともと3ヶ月かかっていた作業が、AIを使って100分の1になりました。

以上になります。ありがとうございました。

（会場拍手）