データ分析はお金に変えないといけない

本橋智光氏(以下、本橋):それではよろしくお願いします。私は自社のデータ分析ではなく、お客様のデータ分析をコンサルタントとしてやっています。

データ分析はやると楽しいのですが、目的を見失うと、アクションに結びつかなくなってしまいます。ビジネスとしてやるならばお金に変えないといけない。というメッセージを込めて、今回は錬金術師という言葉をタイトルに入れさせていただきました。なので、今日はデータ分析のビジネス活用の実態を話していきたいと思います。

とはいえ、私はあまり名前も売れてないので、知らない方も多いと思いますので、簡単に自己紹介をさせてください。

私は本橋智光といいまして、今はデータ分析のコンサルと研究員を兼任しております。学生時代は、機械工学科で力学とかをやっていたのですけど、修士ぐらいから数理最適化を取り組みはじめて、最適化問題やメタヒューリスティックスについての応用研究をしていました。

企業の研究員になった当初は、アプリ開発やHadoop基盤の研究を主に行っていたのですが、Hadoop基盤上でデータ分析処理の高速化をやっていたら、お客様から「データ分析もできるよね」と言われて、データ分析のコンサルティングも行うことになり、気づいたらデータ分析者になっていました。そのため、データ分析者として過ごした期間はここ2~3年で、キャリアとしては浅いです。

そんな中で、仲間に恵まれた部分も多分にあって、KDD CUPというデータ分析の世界大会で2位に食い込むことができました。そのおかげで、最近は記事の執筆や、今日のように講演をさせてもらう機会が増えました。

あと趣味でマリオAIモドキを開発しています。これは、マリオが自分で考えて進んでいき、何度も死にながら学習していき、クリアしていくAIモドキです。最近やっと1-2までクリアできました(笑)。

とまあ最近は、個人でも会社でもいろいろとデータ分析に関わっています。ですが、外からはうちの会社の人はデータ分析してなさそうだよねって思われがちです。でも、本当にそんなことはないです。しかも、かなり昔からやっています。その分析のフィールドとして、製鉄業があります。

温度って皆さんにとっては、簡単に取得できる情報だと捉えている人がほとんどだと思うのですが、高炉の中の鉄の温度って計れないんですよ。計ろうとすると温度計が溶けちゃうので。そのため鉄鋼業は温度1つ把握するためにも、温度分布などを使って、温度を分析によって予測する必要があります。

なので、ニューラルネットワークとかもかなり古くから取り組んでいますし、今ならばディープラーニングといった手法も取り扱っています。

KDD CUPで2位になったスペシャリスト集団

データ分析に関わる組織は、会社内に3つあって、その1つが弊社の子会社のFEG(金融エンジニアリング・グループ)という会社です。

この会社は、昔からデータ分析でビジネスをされてきた中林さんという有名な方が作った会社で、データ分析のスペシャリスト集団です。金融系を中心に他の業界含めてデータ分析ビジネスを行っています。

あと弊社のシステム研究開発センターという組織には、IT技術と分析技術の詳しいメンバーがいますし、私の本務であるソリューション企画コンサルティングセンターには、データ分析とビジネス活用をコンサルできるメンバーがいます。この3つの組織が三位一体となって、データ分析に関するビジネスを行っております。

この3組織で前回のKDDCUPに参加したのですが、最終的には2位という好成績を収めることができました。でも本当は、2位というのがすごく悔しくて。なぜなら、実は最終日に抜かれてしまって(笑)。

最終日前までは1位だったので、祝勝会ムードだったのですけど、それがいけなかったかなと。ただかなりいい勝負ができました。そんな勝負の中、簡単にKDD CUPでどんなことをやったのか、紹介します。

KDD CUPですが、KDDという学会で毎年主催されているデータ分析大会で、古くからやっている権威ある大会です。今回の問題はMOOC(オンライン学習サービス)の離脱予測でした。問題の設定が非常にリアルで、30日間のアクセスログを見て、次の10日間アクセスがあるかどうかを予測するといった問題でした。

我々もビジネスで離脱予測に取り組んだことがあるのでわかるのですが、離脱予測は直前に予測が当たってもビジネス的には意味がないです。なぜなら、直前でわかって、「お客さんにやめないで」と電話でお願いすると、「丁度いい」と思ってだいたい逆にやめるので(笑)。

たぶん、KDD CUPの主催者も、離脱予測ってそういうものだとわかっていて、ビジネスに近い問題設定にしたのだと思います。

分析に使うデータは、ユーザのアクセスログで、ビッグデータという程のデータ量ではなく、トータルで2000万件ぐらいでした。また、データ構造もかなりシンプルでした。

我々が他のチームと比べて優秀だった点は、多分特徴量作りでした。シンプルなデータから、メンバーそれぞれがいろいろな特徴量を作って、最終的に2000ぐらいの特徴量を作りました。

最後はxgboostを中心にアンサンブル(複数の分析モデルを合成する方法)して予測結果を出しました。我々にはアンサンブルの経験はあまりなかったので、アンサンブルによるスコア上昇はほとんどありませんでした。

イベントを通じて学んだことをビジネスに取り入れていく

それでは、どんな特徴量を作ったのか簡単に説明します。私が作ったのは、問題などのコースごとの情報を用いた特徴量でした。

最終的には、いろいろなコースが混ざったデータに対して離脱予測をしないといけないので、コースごとの情報(問題など)はそのままだと有効に使えません。

そこで、各コースの問題のみを説明変数に使ってコースごとに離脱予測モデルを作成し、予測値を出しました。この予測値を全コースまとめて、1個の説明変数として、全体のモデルで使うことで、コースごとの情報を考慮した予測を実現しました。

さらに詳細を説明すると、この説明変数がリークしないように、コースごとのモデルにおいて交差検定を使って、自分の答え以外を知っている予測値を作るというややテクニカルなことをしました。

このような、若干黒魔術的なことをやって精度を上げました。ビジネスでここまでやるかっていうと、運用を考えるとあまりやらないです。ですが、こういうところで限界に挑戦して技術を取得することで、将来その一部をビジネス取り入れていくことができるようになるのだと信じています。F1と一般の自動車の関係のイメージですかね。

その他にも、いろいろな特殊なことをやっていますが、その結果KDD CUPで上位に入ることができ、データ分析者として分析力がありますよ、というアピールができたかなと思っております。

分析のテーマを一緒に考えるところから仕事が始まる

じゃあ分析作業だけやるのかというと、それ以外のいろいろなフェーズももちろんやっています。データ取得もやりますし、加工もやりますし、分析もやりますし、システム構築も、ビジネス展開もやります。

唯一やらないのはデバイスを1から作るところですね。あと特徴として、数理最適化もできるというのは強みかなと思っております。

実際にデータ分析の仕事ってどんな感じなのかですけど、お客さんから分析テーマが決まっていて、「これをどうにか解いてくれ」みたいな話から始まるのはだいたい3割ぐらいですね。

残りは、一緒にテーマを考えるところから仕事が始まります。「上司からデータ分析、AIの活用を考えろと言われたから、何ができそうか一緒に考えて」とか「とりあえずデータ渡すから、提案して」みたいな感じですね。

日本の企業でも、先進的な企業はどんどんデータ分析に取り組み始めてきていると思うのですが、これからより本格的にいろいろな業種でデータ分析に力を入れはじめてくるのかなと思います。ただデータ分析自体は昔から存在していていたので、じゃあ何が変わってきたのか、というところなのですけども。

将棋のプロもコンピュータを使って振り返っている

よく言われることですが、大量の多様なデータを使えるようになったというのがブレイクスルーだと信じています。そして、これはコンピュータの処理が速くなったから可能になりました。

今までは実績データを対象に集計を行って過去を把握していたのに対して、最近は未来を予測するといったケースが増えてきています。これは、大量のパターンが処理できるようによって、予測ができるようになってきたということを意味しています。

その結果、データ分析の活用シーンが、役員層が見るレポートのようなものから、現場の人間が業務に使うように変化し、活用フィールドが広がったのだと見ております。

例えば将棋の電王戦とか好きでよく見るのですけど、将棋においても人よりコンピュータの方が強いという結果にはなってきたかなと思います。

コンピュータは、次の1手に約5000万手計算して、既に一流のプロに勝てるようになってきています。さらに、プロが自分の手を打って、評価を見て、この手が良かったとか悪かったみたいな感じで、振り返りに使っていることもあるそうです。

こういうふうに、機械が人間の置き換えして終わるのではなく、機械と人間が協調して共に成長していけば、より良い未来になるのではないかと思っています。

将棋のプロに勝てるようなAIが出てきた要因としては、アルゴリズムの進化もありますが、それ以上にコンピュータの驚異的な進化がかなりの部分を占めているのではないかと考えています。

これは、10万円でどれだけ処理能力があるのかというグラフです。指数的に性能が伸びてきたのがわかると思います。最近若干伸びが鈍くなってきているものの、間違いなく、近い将来に10万円程度で人間の脳と同じぐらいの処理能力が手に入る時代になりそうです、というかなります。

これは、人間と同じ作業ができるモデルができると、人間の作業を10万円で代替できるようになることを意味します。しかも、コンピュータは、文句も言わないし、休みをくれとも言わない、ビジネス的には非常に良いですよね。

さらにこれの何がいいかというと、モデルはコピー可能だという点です。例えば製造業において、日本の工場で生産するとすごく品質がいいのだけど、海外に持っていくと作業員のレベルが低くて、品質が下がるという問題があると思います。

でも、ベテラン作業員の判断をモデル化して自動で操業するようになれば、海外でも同じ品質で製造できるようになります。また、ランニングコストが安いので人件費を考えるとなかなかできなかったところができるようになるのも良いと思います。

あと、実際に優秀なメンバーが辞めてしまうとロストテクノロジーになる恐れがありますが、モデル化してノウハウを蓄積することができれば、継続的な進化も実現できるようになります。

人工知能研究所を設立する企業が増えてきている

その結果なのか、実際にGoogleとかFacebookもAI研究者を他企業から引き抜いたりしていて、日本でもトヨタ自動車、リクルートなどの有力企業が人工知能研究所を設立して、かなり投資も活発な状態になってきています。

その中で弊社も様々なお客様を通じて、いろいろなデータ分析を行ってきたので、その事例を幅広く紹介させていただきます。

詳細を話せなくて恐縮なのですが、製造業系の分析をけっこうやっています。製造の自動化とか、不良検知とか、製造のデータ分析って製造ノウハウも詰まっているのでなかなか世の中には公開されないのですけど、実際には古くから取り組まれてきて、また改めて各社が分析を取り組み始めています。

次に、今日の講演でもお話にあった、LDAの事例について説明します。

LDAのなどのトピックモデルによるテキスト分析は、Webで使われる事が多いですが、この事例では、企業の業務報告書の検索に活用しています。

業務報告書は、雑多な文章で、それなりにボリュームがあって、企業ではこれをうまく活用したいのですが、ワードだけ指定して検索しても有意義な情報が引っかからない問題があります。そこでトピックモデルを使って、検索システムを作りました。

トラブルがあったら、過去に同様の事例があったのかを知りたいというニーズがあるのですが、トピックモデルを使ったおかげで、例えば「水、落ちる」と検索しても、「水が垂れてくる」といった事例を検索で見つけられるようになりました。

新商品の需要予測は誤算率2割の実績

あとは新商品の需要予測ですね。新商品の需要予測は、メーカーにとっては永遠の課題なのですが、非常に難しいです。なぜなら、発売1週間後ぐらいに、1~2ヶ月先需要を生産しないといけないからです。この問題を解決できるような、発売1週間後の予測でも、精度の高い予測ができるモデルを構築することができました。

でも、やはり当てられないものもあります。例えば、新商品の定義がそもそも難しいからです。人気商品の味違いが出たところで、顧客にとってそれが、新商品なのか既存商品なのかはなかなか判断が難しいですよね。なので、必ずしもデータ分析ですべてがわかるわけではないです。

またメーカーは、予測が当たれば満足というわけではないです。売上の予測が低い時もあるので、その時はどうやったら上がるのか知りたいわけです。

この問題も、予測算出根拠がわかるデータ分析モデルであればある程度解決することができます。例えば、卸店の在庫が溜まっているせいで、これぐらいの量の売上が下がっているということがわかるので、卸店の在庫を消化するために、販促をやったほうがいいと判断できます。

逆に、卸店の在庫が切れているため、販売店に商品がとどかず、売上が大きく下がっているということがわかれば、商談などで卸店への売り込みをするという判断に変わります。このように、売上を上げるために行うアクションの方針が、需要予測モデルによって得ることができます。