誰でも機械学習を活用できるプラットフォーム

シバタアキラ氏(以下、シバタ):おはようございます。朝早くからどうもありがとうございます。

今日はDataRobotのお話をさせていただきます。DataRobotを聞いたことある方はどれくらいいらっしゃいますか? 

(会場挙手)

ちらほら。あまり手が高くない方はもしかしたら自信がないかもしれません。DataRobotは機械学習をやっていくためのプラットフォームです。今日はこれをどうやって製造業、とくにセミコンダクターの製造現場などで使っていけるのか、というお話を思います。

データの活用が我々のテーマです。もちろん今はいろいろなところでデータを活用したい方がいらっしゃいます。みなさんもそういったモチベーションで来ていると思います。

「データの活用」というと、今まではデータの収集や、IoTのようにセンサーをどうやって付けてデータを取るか、など。あとは、そういったデータをどこに入れるのか? ハードディスクに入れるのか、データベースに入れるのか? そういった収集の部分。

そして、分析ですね。分析と言ってもこれまでよくあるのは、統計解析をしてレポートを作ったり、BIツールで可視化してダッシュボードにしたり。そういった話が今までのデータ活用の主流であったと思っています。

当然、こういった活用は非常に価値があり、過去のことがデータをもとによくわかるようになりました。それをもとに未来になにが起こるのかを自分の頭で考えて想定して、それに基づいてアクションをしていく活用であると思います。

これを1つ進めて、今AIと言われる時代の中で、データ活用にAIを入れるとどうなるのかというお話です。

今まで通り、データの収集は非常に重要で、これからもやっていく必要があります。分析の過程でレポートやダッシュボードを作るのではなくて、今度はモデルと言われるものです。予測モデルとも言われますが、こういったものを作っていただいて、それが将来なにが起こるのかを予測してくれる。かつ、どうして起こるのかを説明してくれる。

いままでよりも1歩踏み込んだデータ活用が可能になることで、過去だけでなく未来を理解することでもデータを活用していただけるようになっていきます。

機械学習はそもそもは簡単に使える技術ではない

そのキーワードとなるのが、機械学習です。機械学習は過去のデータを使ってアルゴリズムが自動的に学習を行い、モデルを生成してくれます。そのモデルが未来の予測を作ってくれます。

実際には未来の予測だけではありません。未来の予測、例えば売上が将来どうなるのか? 未来に事故は発生するのか? ということもありますが、仮の未来というものもあります。「もしこういうことをやったらどうなるのか?」。例えばこの物質と物質をくっつけたらどんなものができるのか、など。

例えば全く違う分野の話ですが、「この応募者を採用したらこの人は会社で活躍するのか?」など。そういった仮の未来のこともあります。

より現在に近いこともあります。壊れているのかどうかを判断する故障検知や、この人が不正をしているのかどうがを見つける不正の検知。

それにちょっと似てはいますが、判別難という問題もあります。不良品なのか、スパムメールなのかの判別など、いろいろな種類の問題を解いてくれるということです。

問題点としては、この機械学習というアルゴリズムは非常に進んでいて、いろいろなところで使えるんですが、多種多様で非常に複雑なものが多いです。この中でいくつか、決定木や線形モデル、ランダムフォレストなどいろいろなものをあげました。

最近話題になっているニューラルネットワークはここには書きませんでしたが、それも機械学習アルゴリズムの一種ですね。

どれも非常に専門性が高く、理論がわかっても明日使えるかわからない。そもそも理論もものすごく難しいので、普通の人が簡単に明日使える技術にはまだなっていないのが現状だと思います。しかもこのアルゴリズムは全体のごく一部で、アルゴリズムにデータを入れる前に、もちろんデータの収集もあります。

収集したデータのクリーニング、欠損値があるかもしれない。値を変換して標準化しないといけない。そんなこともあります。一般的に前処理と言われています。

それをもとにデータをアルゴリズムに入れてできたモデルでも、すぐに使えるかというとそうではないので、その精度はどれくらいなのか、チューニングしてもっと良くしようとか、モデルの周りにはいろいろとやらなければいけないことがあります。それぞれに専門性が必要とされる分野になっています。

なぜ、データサイエンティストが不足しているのか?

こういうことができる人たちが「データサイエンティスト」と言われています。私もデータサイエンティストを名乗っていますが、非常に希少で需要に追いついていかないだろうと少し前から言われ始めています。みなさんもご存じだと思います。

なので今、データサイエンティストの方がいればもちろんそれに越したことはありませんが、いないのがほとんどです。

そうだった場合、データサイエンティストではないけれども自社のデータのことは知っているというエンジニアの方がいらっしゃったり、データの専門家ではないけれど、ビジネスのことはよくわかっていて、かつ地頭がすごくいいのでエクセルやアクセス、SQLなどを今も使ってるという、それくらいのレベルの人もたくさんいます。

こういった方々まで機械学習を使った予測モデルを使えるようにしたいと思ってらっしゃる方が、いろいろな会社さんとお話させていただく中で見えてきていることです。

データサイエンティストがなぜそんなにいないのかというと、ある専門的な知識、例えば先ほどもあったような数学的・統計的な理論的なことや、それを実際に実装していくためのプログラミングなどのITの知識が必要になるからです。かつ、問題を解くための専門知識が必要です。

先ほどもお話したように、ビジネスパーソンであれば自分の事業に関してはよくわかっていますし、エンジニアの方もそうだと思います。ですが、機械学習に必要な専門的な技術を持っていません。

そこでDataRobotをお使いいただくことによって、業務のことはちゃんとわかっていれば、複雑なアルゴリズムを使った課題解決を実現できます。

今日はみなさんに我々の製品を実際にご覧いただき、どのようなことができるのかを体感していただきたいと思います。

ブラックボックスではなく「グレーボックス」なモデルを提供

それでは、DataRobotという製品の話を始めたいと思います。DataRobotは、機械学習を行うためのソフトウェアのプラットフォームです。特徴的なのは、先ほどからお話させていただいたように、「じゃあ、やろう」と思ったときに、やれプログラミングだ、やれ統計だという課題が出てきます。

DataRobotでは、そういったものなしに簡単なUIを使っていただくことでモデルが作れるようになります。簡単だからと言ってもおもちゃみたいなものではなく、非常に精度の高い予測モデルを簡単に作ることができます。

なぜそんなことができるのかと言うと、裏側で作っているデータサイエンティストには、Kaggleという誰が1番精度の高いモデルが作れるかを競う場がありまして、そういったところで活躍してきた人材が集まってできたスタートアップだからです。彼らのベストプラクティスのノウハウを製品の中に存分に入れました。

モデルを作る製品はほかにもありますが、実際にモデルを作るだけではダメです。ちゃんと工場の機械の中にそのモデルを入れて、予測値は人が見ているのか? そころまでいかないといけません。

そういった事業への導入の部分まで自動化するところを、我々は最も重要視していて、かつ差別化ポイントとして考えています。

導入する上でよく問題になるのは、なにが起こっているかわからないことです。複雑なアルゴリズムから出たモデルがなぜこういう予測を出しているのか、どんなときにはその予測が良くて、どんなときは良くないのかがわからないと「ブラックボックスだ」と言われてしまいます。

ブラックボックスという言葉は弊社では使っていません。ブラックボックスではなくグレーボックスをご提供しようということで、できるだけ中が見えるインサイトを手にしていただけるようなかたちで、モデルをご提供することに努めております。

計画の予測からR&Dまで

会社はボストンに本社があります。2012年に創設して、まだ5年くらいの会社です。非常に成長が激しくて、シリーズCまでに百数十億円の調達をしております。日本では2015年、ちょうど2年前から展開を開始しています。お客様の数は共有できませんが、日本では製造業のお客様が多い印象です。

実際になにをするのかというと、非常に適応範囲が広いです。製造業のパイプラインを見たときに、計画の段階での売上や需要を予測みたいな話もあれば、R&Dで物を作っているタイミングで、どれを組み合わせればいいのか? 性能や特性の予測ができます。

実際に作っていく段階では、製造技術においては非常に適応範囲が広く、「不良品を減らしたい」や「品質を良くしたい」ということが日本のお客様からは多い事例です。

その中でとくにR&D、品質管理のところは、実際に私もいろいろな会社さんとやらせていただいている中で対象テーマが多い印象がありますし、実際にやったときに非常に大きいインパクトが出るケースが多いので、少しここを見ていきたいと思います。

例えば材料の配合ですね。セメントでもいいです。「セメントと水といろんなものを組み合わせたときにどれくらいの固さになるのか?」ということを、より正確にシミュレーションをしながら予測ができるようになります。

シミュレーションができるので、「こういう配合にしたらどうだろう?」というのを実際に作らなくても予測をしてくれるので、R&Dの効率が飛躍的に伸びました。もちろんセメントでなくてもかまいません。インクを作っている会社さんでもいいですし、なんでも大丈夫です。