拡大し続ける「データ」の範囲

堅田洋資氏:データとは、端的に言うと材料です。何かを知るための材料なんですけども、おそらくみなさん、それなりに闇が深いのはご理解いただいているんじゃないかと思います。

私が社会に出たときに、まだビッグデータという言葉はありませんでした。経理マンだったので、データと言えば仕訳の数字やお客様マスタ、隣の物流チームが取り扱っていた受発注データなどです。

マーケティングをやっていたときはアンケートの結果や、リサーチ会社さんが持っているパネルのデータなんかがイメージの湧くものでした。要はExcelとかスプレッドシートで見えるようなデータばかりでしたね。

今やそういうものだけではなく、スマートフォンもあればウェアラブルのセンサーもあるし、データで表せるものが大きく変わっています。

それでは、何が大きく変わったのでしょうか。それまでデータといえば、社内で使っているExcelやスプレッドシートのテーブルだったのが、テキストや画像・音声みたいなものや、Facebookに流れているデータ、ブログのデータなど、社内外のいろんなものが分析対象になったということです。

2010年代、ビッグデータが重要になるとみなさんは思っていたでしょうし、私もそう思って留学までしました。

ですが、実はそんな簡単な話じゃないということもわかりました。ビッグデータ以前のところが大事で、しかもそれはとても難しいというのを、この10年弱で感じています。

データ統合を阻む「秘伝のタレ化したExcelシート」

何が難しいのかというと、サイロ状態になっているということですね。部門やチームごとにそれぞれデータを持っているんですけれども、統合されていないんです。一番最たるものは、そのチームの共有ドライブとかにある、「秘伝のタレ化したExcel」みたいなものです。

これが究極のサイロ状態だと思っているんですけど、そういったものがいっぱいあります。クライアントの会社にもありますし、残念ながら弊社にも少なからずあるなと感じています。

このサイロ状態を打破するために必要なこととして、これまでの経験から、組織の文化による影響はかなりありますね。縦割り意識が強い会社はこうなりがちです。少し言い方が悪いかもしれませんが、特にM&Aで大きくなってきた会社ではよく見かけます。

もう一つ、これは意外かもしれませんが、経営幹部の方々がデータ活用に必要なデータと業務に使えればいいデータとの区別がついていないことがあります。

あと、最近は聞かなくなりましたが、「AI活用」と言いたい思いが先にあって、あまりデータの整理に力が入っていないことがあるなと感じています。これをどう解決したらいいのかというと、当たり前かもしれませんが、トップダウンで推進するなら経営幹部のデータリテラシーを上げるしかありません。

ボトムアップの例で言うと、これはクライアントに多いなと思っているんですが、特定の事業部の中だけでデータの共有を始めちゃおうみたいな感じで、ゲリラで戦うことがありますね。いずれにしても、言うのは簡単ですけどやるのは大変です。

なんでサイロ状態はよくないのかということなのですが、これは先ほどのカスタマージャーニーの話と関係してきます。

データが大量に取れるようになってきたので、お客さんが認知してから買い物をして、さらにそれをシェアしてファンになっていくまでの過程は、追っかけようと思ったら追っかけられるし、やっぱり追っかけたくなるんですよね。

ただ一方で、マーケティング部と営業部、アフターセールス部など、カスタマージャーニーが部門ごとに分断されるかたちで作っている会社も多いと思います。

組織は縦割りだし、カスタマージャーニーも一部分しか見ていない。でもデータだけはすべて横でつなげて、お客さまを追っかけてみたいと。これがDXでデータ活用するときに、苦しいというか乗り越えなきゃいけない壁の一つだなと思っています。

なんでもデータ化できる時代に、本当に必要なデータとは

次は社外のデータですね。これにはいろんなケースがあります。わかりやすいのは、例えばプロスポーツチームのチケット予測です。

以前携わっていた仕事では、それに天候データを加えましょうというケースがありました。社外のデータを自社データに加えるというのが、わかりやすい例だと思います。

最近の話題ではあるんですけども、AIカメラを使った物体認識の精度は上がっています。それをサービスにしている会社も多いです。

ということは、これを使えば実際の世界をいわゆるAI、ディープラーニングの技術を使って、コンピュータを通じてデータ化できる時代になっているということです。これはすばらしいですよね。画期的だと思います。

例えば、ある写真に写っている人は何人いるかを調べようと思ったときに、このGoogle Cloud VISIONに投げると、勝手に処理して数えてくれるんですね。という具合に、物理空間も画像があれば、そこに何が写っているかがわかる。つまり、物理空間上もデータ化できる時代になっていますよということなんですね。

社内のデータはもちろん集められます。デジタルの世界もデータになる。そして物理空間の世界すらもデータになる。そうなると、極端な話、取れないデータはないんじゃないかくらいの気持ちになります。もちろん極端に言っていますけどね。

何を申し上げたいかというと、溜まってしまうデータを分析するんじゃなくて、取りたいデータはなにかを意図的に考えていくのが、次のステップとして大事なんじゃないか。取れていないなら取りにいこう、という意味です。

社内だけじゃなく社外のデータに目を向けるのは大事なことですが、社内のデータだけでも処理は大変で、部門横断でデータを統合するというのがとても大事になっているのが一つ。

そして蓄積すべきデータはなんなのかを考える必要があります。また良い問いがあったとしても、解けるかどうかは材料であるデータを集められるかにかかっています。

データは素材、データ分析は料理

ということで、4つのファクターの1つ目はデータでした。次のデータ分析技術に移ります。データ分析技術は、料理でいえば料理方法です。煮るとか焼くとか、切るといったことですね。

データサイエンス技術といっても、いろいろとあります。今日は概論ということでお話ししたいんですけれども。

データサイエンス技術の具体的な事例を出しますと、適性検査や面接データから早期離職する候補者の特徴を理解するといったケースがあります。これは最近、やると怒られてしまうような例なので注意が必要ですが。

また、アンケートからモチベーションの因果関係を推論するにはどうすればいいでしょうか。例えば給料を上げたらいいのか、評価を上げたらいいのか、問題は人間関係なのかといったことですね。あとはモバイルアプリであればデザインを変えてちゃんと良くなったのか、そういったことを定量的に検証することができます。

この赤字の部分がデータサイエンス技術を使えばできることです。あとはなにかを予測したいと思ったときですね。他にもeコマースであれば、ユーザーの属性とか購買履歴から「このお客さんはファミリー層だよね」とか、「このお客さんはスポーツをよくする人だよね」という感じでセグメンテーションするといったことが、データサイエンスでできることです。

統計学と機械学習のマッピング

これらをざっくり2つに分けますと、1つ目は特徴の理解、因果関係の推論、定量的な検証というグループ。なにか気になることがあった時に、「これはどういう構造になっているんだろうな」ということを考えるグループです。2つ目は予測とグルーピングです。

それぞれをざっくり言うと、これはけっこう語弊がある言い方にはなってしまうんですが、1つ目は統計学、2つ目は機械学習の守備範囲になっています。

統計学というとちょっと難しく聞こえるかもしれませんが、やりたいことは構造の解明であったり、それを定量的に把握したい、理解したいというのがモチベーションになることが多いと思います。

機械学習はどちらかというと予測とグルーピングと、ここに書いたとおりなんですけども、それが守備範囲になっているということです。

それぞれにサブ分野があります。例えば、記述統計と呼ばれるExcelでの平均処理とか分散の計算や、仮説検定などがみなさんの想像する統計学ですね。他には時系列の分析なんかもあったりします。

機械学習は勉強したことのある方もいらっしゃると思いますが、予測モデルという教師あり学習、クラスタリングという教師なし学習があります。これらを二次元で無理やりマッピングするとこうなります。

横軸に過去・現在・未来を置き、縦軸に技術的難易度の高低を置いてマッピングしています。一番簡単なものはなにかというと、データを可視化することですね。グラフを書くこと、これはわりとみんな理解してくれます。ただしグラフから未来はわかりません。

未来を知りたい、先のことを知りたいとなると、やはり予測のモデルをつくりたくなるんですね。真ん中が統計シリーズで、上が機械学習のシリーズです。

予測モデルは、データから予測値を弾き出す「変換器」

今日はすべて説明する時間がないので、予測モデルのところだけお話しします。

予測モデルを解説する本はたくさん出ていますし、ちょっとググったら解説が出てきます。もうすでに勉強した方もいらっしゃるかと思います。ちなみに私はこういう説明の仕方をしています。

(スライドを指して)ここに変換器があります。変換器にインプットがあったらアウトプットを出します。インプットするデータを変換器に入れて予測値が出たとします。ですが、予測値の向かい側には「答え」があります。

この予測値と答えの間には、ギャップが出てくる場合があります。このギャップができるだけ小さくなるように、自動的にフィードバックを変換器にかけていく。こういう構造を持ったものを予測モデルと呼びます。他にもAI、教師あり学習など、いろんな呼び方がありますが、このように呼ばれています。

もしタクシーの客数を予測したいということであれば、緯度経度や近隣の施設情報、周辺人口、天気のデータを変換器に入れると、「客数は何人です」と予測値が出ます。

例えば今、東京の神保町にいて、まわりに飲食店があるとします。周辺人口は〇〇人で、天気は30度を超えていてめちゃくちゃ暑いといった情報をインプットして、「お客さんは1人です」と予測値が出たとします。

でも本当は、このエリアに100人くらいお客さんがいるとなると、予測値と99人も差があることになります。そこでフィードバックをかけて、今度はまともな答えを出せるように学習させます。次に出た数字が80人で、まだ20人の差があるとわかったら、もっと学習させてどんどん100人に近づけていく。こんな感じで学習を進めていきます。

そのために重要なこととして、インプットと答えがペアになったデータを人間が用意します。今回のでいうと、場所は神保町で、緯度経度がこれで、周辺人口は◯◯人で、天気が晴れのとき、実際の値としては100人のお客さんがいるというデータを、あらかじめ用意しておくということなんですね。

こういったペアのデータをたくさん用意しておくわけなんですけども、ペアの関係性を変換器は覚えていくというのが重要です。これが、新型コロナの話題とけっこう関係しているので、それについても後ほどお話しいたします。

専門用語も押さえておきましょう。インプットのことを特徴量、アウトプットのことは目的変数とかターゲット変数と呼びます。せっかくなので覚えておくといいかなと思います。

そのデータ、ちゃんと使えるかたちになっていますか?

予測モデルは当然、将来を予測したいというときに使う道具です。さらに下のレベルの、過去や現状を定量的に把握したいときにはグラフを書いたり集計したりしますし、あとはクラスタリングを使うことが多いですね。

レベルが高くなるほど、より難しい技術を使っていくことになります。このマッピングをある程度理解していくことは、とても大事だと思います。

というのも、先ほど申し上げたようにみんな最適解を知りたいし、将来予測をしたいものなんですよ。でもそれは一足飛びにはできなくて、下のレベルのことがわかっていないとできないんですね。なので、いきなりAIだ機械学習だと言っても、下のレベルの分析ができていないと難しいということなんですよ。

私がクライアントさんと一緒にデータ分析をやっていく中で、ありがちなのが「AIとか機械学習を使って将来予測をしたい」という要望です。

例えばメディア系の会社さんのケースでは、「PV数はいくつですか」「問い合わせ数はいくつですか」と聞いても、すぐに答えが出てこない状態でした。これはそもそも、データが使えるかたちになっていないということです。なので、まずは下のレベルからやっていかないといけないんですね。

あと、これは私の失敗談でもあるんですけれども、下のレベルがわかっていない状態で上のレベルでの結果を出しても、まったく納得感がないんですね。「ふーん」という感じになってしまう。過去や現状の定量的な数字の話を会社全体で共有できていない状態で、「AIで予測値を出しました、これです」とやっても、誰もピンとこないです。

なので、組織的にも下から上に積み上げていったほうが浸透度は高いですし、その分析結果を使ってもらえる状況に持ち込みやすいなと経験的に思っています。

機械学習やAIは「安定した世界」でしか使えない

ここでちょっと、新型コロナのお話をしたいと思います。2020年に新型コロナの感染が拡大して、みなさんの働き方や生活も大きく変わりました。オフィスに行かないで仕事をする人も増えましたし、購入するものも変わりましたよね。

ここで質問です。2018年と2019年の販売数を予測したところ、2018年のデータを学習して出したアウトプットは2019年の数字に当てはまっているのに、それが2020年になると当てはまらなくなった。みなさんに考えていただきたいのは、何が起きたのかということです。

Aは環境変化で販売数の傾向が大きく変わったから、Bは特徴量のデータが大きく変わったから。当てはまるものを選んでみてください。

つまり、2018年の傾向を学習していて、2019年の予測は当たったけど2020年はぜんぜん当たらなかった。それはそうだろうと思うかもしれませんが、その原因としてはAとBの両方ともが当てはまります。つまり環境の変化で販売数の傾向も変わってしまったし、インプットとなるデータも変わっている可能性が高いということですね。

機械学習とかAIが使える世界って、とても安定した世界なんです。昔を再現するのが前提なので。これまでのデータは、コロナになったことでほぼリセットされたと思います。

先ほどの図を、安定か不安定かという軸でフェーズを切り直してみます。安定している問題や事象に関しては、AIや機械学習がとても良いですね。逆に不安定な事象は厳しくて、当たらないです。

ということで、実はオーソドックスなデータの可視化とか記述統計、クラスタリングは機械学習ですけれども、そういった手法が実は相性が良いんですね。こういった技術を使ってデータを見るということを、丁寧にやっているほうが実はよかったりするということです。

新型コロナ以後にAIを使う場合の注意点

では、新型コロナ以降にAIや機械学習は使えないのかと思うかもしれませんが、そんなことはありません。安定している事象でいうと、例えば写真を見て「これは人の顔なのか」とか「これは犬か猫か」を判断する基準って、変わったりしないじゃないですか。

新型コロナが広がったことで犬の顔が変わったりはしません。なので「これは人が写っていますか」とか「何人写っていますか」という、社会の構造がどうなろうと変わらない事象であれば機械学習やAIは使えます。

しかし、人々の行動に関わるものとか、社会事象とかになると非常に使いにくい時代になっているなと思います。AIと機械学習は使う対象を選ばないといけないというわけですね。

一方、「ちゃんとデータを見よう」という統計学やデータの可視化のほうが、不安定な時代には重要かなと思っています。「お客さんの行動が変わってきたな」というのはリアルタイムにデータを見ていれば感知できると思いますし、示唆に富んでいることがわかります。

それに「お客さんはこういうふうに変わっていっているんだ」「セグメントの割合が◯パーセント上がっているな」とわかるほうが、ビジネス上では大事だったりします。なので、安定している問題はAIや機械学習でいけますけど、そうじゃない問題はけっこう厳しいと覚えていただくのがいいと思います。

データを正しく見るためのリテラシー

ところで、「データを見る」というのはどういうことなのでしょう。

例えば、ある配送会社さんから事故が多いので抑制したいということで、GPSを使ってどんな事故が発生しているのかを分析したという事例ですね。

これを最初に分析した時は、平常時の平均速度は42kmですが、事故の10秒前の平均時速は45.5kmです。ということは、これはスピードの出しすぎが原因だったのではと言っていたのですが、分析し直すと実は差がなかったことがわかりました。

同じデータで、平常時と事故直前の10秒前の平均速度を比べているのに、なぜこういうことが起きたのでしょうか。

実は平常時の定義が良くなくて、停車時間を含んでいたんですね。ゼロが入っているので、数字が大きく下がってしまうわけです。つまり、目的に合った適切な集計ができているかの時点から、かなり大事なポイントが含まれているということなんですね。

このように、ちゃんと「データを見る」ことができるのがデータリテラシーだと思いますし、データ分析の最初の一歩だと我々は考えています。

ということで、「問い」でお話ししたかったことをまとめます。

まず、良い問いを出すためにはビジネスの定量化が大事です。KPI推移の話もしましたけども、問いを出した後にそれを料理するためには、データと技術が必要です。

もちろん難しい分析をするには、より難しい技術を学ばなければいけないんですけども、「問い」をよく選んで適切なアプローチを取りましょうというところが大事なポイントです。