データサイエンスを学ぼうと思ったきっかけ

立川裕之氏(以下、立川):今日はいくつか大きい質問は用意していまして、それに沿って坂井さんにいろいろと聞いていきたいと思います。

まずは、「データサイエンスを学ぼうと思ったきっかけ」ですが、坂井さんのデータミックスの受講はちょうど3年前ですね。

坂井氏(以下、坂井):そうですね。もうそんな経つんですね。早いな(笑)。

立川:早いですね。当時どういうきっかけで学ぼうと思ったのかについて、おうかがいできますか?

坂井:入学した当時、私は小売のイオングループのデジタル領域を担当する、グループの子会社に在籍して、Webディレクターをやっていました。そのあとに、Webプロモーションの部署に移って、Web広告などに携わり始めました。

立川:確かその時、デジタルマーケティングの講座みたいなものを受けられて……。

坂井:そうなんですよ。イオングループは教育が充実していまして、社員向けにイオンビジネススクールというのがあるんですね。いろんな講座があるんですけれども、グループ各社から「勉強したい」と手を挙げる人たちが勉強しに来る。グループ間交流の研修みたいなものです。

2017年になりますけど、データミックスのデータサイエンス育成講座を受講する前に、イオンビジネススクールでデジタルマーケティングの講座を受けていました。

立川:当時の講座だと、Google Analyticsをどう使うかみたいな感じですか?

坂井:そうですね。デジタルマーケティングですので、基本的にはビジネスフレームワークから入って、ECの基礎やGoogle Analyticsをどう見たり活用するか。あとはWeb広告ですね。どういった広告文で出稿するのかを、実際にリスティング広告で体験してみるといったことを半年掛けて学んでいました。

自費でデータサイエンス講座を受講

坂井:その後、私がスクールの運営会社に出向になりまして、(イオンビジネススクールの)卒業後はスクールの運営側に関わることになりました。

立川:講座を企画する側になって、そこから(データミックスで)データサイエンスを学ぶという流れになっていくわけですね。

坂井:そうですね。デジタルマーケティングと言っても、初めはどうしてもECやWeb広告の話がメインだったんですけど、世の中の流れ的にデータドリブンとかビックデータとか、まさに機械学習などが注目されてきて。なので、企画側に回って2018年、2019年と進む中で、データ分析も講座に取り込まなければいけないという課題感が生まれてきました。

立川:なるほど。

坂井:ただ、教えられる人もいないし、教材を作れる人もいなかったので、どうしようとなった時に、これを機に「自分で身に付けちゃおう」という発想でデータミックスに飛び込んだというかたちですね。

立川:それがすごいですね。「じゃあもう自分でやります」みたいな。

坂井:そうですね(笑)。ちょっと勢いもありますよね。しかも、お金もけっこうかかりますし。

立川:そうですよね。坂井さんは、会社のお金じゃなかったですよね。

坂井:自腹です。

立川:それが、またすごいですよね。

統計学の独学に挫折した過去

立川:坂井さんの場合は、スクールの運営という業務で必要に駆られて受講されたというパターンですよね。

坂井:きっかけはビジネススクールで教材を作らなきゃとか、教えなきゃというところですけど、実は新卒で入った会社で若干データ分析っぽいことをやったり、以前からデータ分析に興味はあったんですよね。

立川:ちなみにどんなことをされていたんですか?

坂井:新卒で入った出版関係の会社で、例えば書店のPOSデータを分析して、簡単な集計を本の仕入れ数に活かすといったことをしました。

当時はPythonで書くような時期ではなく、みんながExcelとかでやっている中、Accessを使ってちょっと量が多いレコードを回したり、AccessのVBAでボタンを付けてポチポチやれば動くミニシステムみたいなのを勉強しながら作っていました。

周りにそこまでできる人がいなかったので、自然とそういう仕事が私に振られてくるような状態でした。もともとちょっとやりたかった部分でもありますね。

立川:そうだったんですね。当時はその仕事をさらに深めたりはされなかったのでしょうか?

坂井:けっこう楽しかったので、実は統計学にちょっと踏み込んだんですよ。当時、『統計学が最強の学問である』という本が流行って、学ぼうと思って本は読んだんですけど、難しすぎてわかりませんでした(笑)。それ以上、独学では掘り下げられませんでした。

立川:わかります。それぐらいの頃ってめちゃくちゃ難しい本しかなくて、実際に使えるものはぜんぜんなかったですよね。

坂井:そうですね。帯で「簡単だ」と言われている本を読んでも、前提知識がないので、回帰分析という言葉を「すげぇかっけぇな」と思いながら見ていたんですけど、それが何なのかがまったくわからないようなレベルでした。

卒業制作で大切にしたこと

立川:そんな経緯もあった中でデータミックスを受講されて、役立ったことなどを聞いてみたいんですが。確か、最後の卒業制作はお仕事に関わるものでしたよね。

坂井:そうですね。ECももちろんありましたが、イオンはやはりリアルな店舗が主流なんですよね。売り場があって、そこでの課題感がいっぱいある中で、アナログな接客に対して、デジタル視点とデータ分析視点を入れることで改善できないかと考えたんですね。その時に、おもちゃ売り場でのレコメンドを思いついて、取り組みました。

立川:これがすごくおもしろかった記憶があります。おもちゃの商品名や説明文を使って、自然言語として近いものをおすすめするみたいな方法をされたと思うんですけど。

坂井:そうですね、自然言語処理です。イオングループにはおもちゃ売り場を運営する組織があって、当時そこに所属していた友人にインタビューをして、「どういうことに困っているの?」とか、「どういうことをしたいの?」みたいなヒアリングをしました。

例えばお客さんから問い合わせで、希望のおもちゃを探したり、在庫数を調べたりしますが、その時に「これも一緒にどうですか?」とか「こっちはどうですか?」と、店員が別のおもちゃもおすすめできればいいなと思ったんですよね。

熟練した店員でしたら商品知識もあるので、難なくできると思いますが、新しい人だとすぐにそういうことはできません。それをデジタルの視点とデータ分析の視点を使って問題解決できないかと考えて、取り組みをしたかたちになります。

「現場の課題解決」に役立てるための工夫

立川:私が個人的にすごくいいなと思ったのが、現場で使えるような仕組みを取り入れていたことです。確か、バーコードを読み取ったりしていたような気がして。

坂井:そうなんですよね。バーコードとか(笑)、出しましたよね。お客さんの欲しい商品名をインプットすると、それに近しい商品を10個程度アウトプットして、レコメンドとして結果を返してくれると。ただその先があって、店員が持っている在庫判定用のハンディターミナルって、バーコードを読み込まなきゃいけないんですよね。

なので、Pythonのライブラリを使って、一緒にバーコードも出力するミニシステム的なものにしました。商品画像とバーコードが10個並んで、お客さんが「これいいな」と言ったら、ハンディターミナルで読み込んで、「こちらは在庫ありますよ」みたいな対応が、店員さん1人でできるような仕組みにしましたね。

立川:けっこうこういうのは、モデルを作って終わりになりがちで、良くてもせいぜい「将来こうやってやります」と、計画で終わってしまうことが多いんですが、かなり現場のオペレーションを考慮されていることに、すごいなと思った記憶があります。

坂井:デジタル化とかデータ分析って、けっこう現場が置き去りにされることが多くて。現場の意見もなかなか通らず、使いにくいシステムだったり、アウトプットもよくわからなかったりで、なかなか進まないことが多いと思うんですよね。なので、逆に現場での困りごとや課題の解決に何ができるかという視点で取り組んだのが、この卒業発表になりますね。

総合書店のデジタルマーケティング

立川:このへんで質問を変えて、今のお仕事についてお聞きしたいと思います。受講後に転職されて、今のマーケターのお仕事をされていらっしゃると思うんですけど、そのあたりの経緯を簡単におうかがいできますか?

坂井:私が卒業したのは2020年2月で、ちょうどコロナが猛威を振るい始めた頃で、世の中的には緊急事態宣言が出るとか、かなり激変していく時期でした。

そういった世の中の大きな変化と同時に、個人的にも出向先のスクール運営会社からもとの会社に戻るなど、いろんな環境の変化がありました。外的な要因と内的な要因の2つが重なって、もっとデータ分析とかデータ活用ができる仕事にチャレンジしたいと考えるようになりました。

立川:転職の経緯をもう少し聞きたいところではあるんですが、デジタルマーケティングの活用の話をできれば掘り下げたいので、今のお仕事の中身を聞いていきたいと思います。書籍のECサイトみたいなものを運営する会社だったと思いますが、簡単に仕事の中身をおうかがいしてもよろしいでしょうか?

坂井:そうですね。電子書籍の販売もやっていますが、書籍の通販もやっています。グループ会社は、Amazonや楽天にはない、リアルな書店もあり、通販もあり、電子もありといった総合的な書店になっています。

私はマーケティングの部署なので、例えば売上や訪問数の推移とか、クリック数やコンバージョン数などを毎朝チームでチェックをしています。あと、顧客がどれぐらい買っているか、真ん中ぐらいの人、すごく買ってくれている人など、CRM管理もしています。

いつ、どういったクーポンを出すか、どういったキャンペーンを打てば売上が上がるか、どうやってこの時期に訪問者数を獲得するか。データ分析を活用しながら、将来的な成長のために、今必要な施策を考える仕事をしています。

データサイエンスの活用事例

立川:データサイエンスをいろんなところに使われているのは、ここまでも聞いていますが、実際にどんなことに使われているのかを詳しくお聞きできますか?

坂井:転職後に私が取り組んでいることは、書籍のレコメンデーションや、売上の需要予測、あるいは先ほどお話ししたキャンペーンの効果測定や効果推定ですね。あと、現状はクーポンをわりとバラマキで出していますが、そのクーポン配信の最適化にも取り組んでいます。

立川:せっかくなので、それぞれもうちょっと詳しくうかがってもよろしいですか?

坂井:まずは書籍のレコメンドの話をしたいと思います。今どこのECに行っても「これが一緒に買われています」とか「おすすめです」と出ると思うんですが、それをもう少し範囲を限定してやってみようと。私たちはだいたい月に一度、サイト上でセール期間を作っていますが、その時にセール商品と一緒に組み合わせで買われている商品をうまくレコメンドすることで、ついで買いを促すとかですね。

先ほどお話ししたようにCRM管理をしていますが、本をたくさん買う人は自分で本を選んで買ってくれるのでレコメンドがなくてもあまり問題ないケースがありますが、たまにしか本を買わない人や、セールだからサイトに来て「何かないかな?」と探す人もいます。

その人たちに対しては、「このセール商品も良いですよ」とおすすめしたり、それにつながる商品を見せてあげることで、「その人の読書体験をワンステップ上げてあげよう」みたいな視点で取り組んでいます。それがレコメンデーションのプロジェクトになります。

立川:以前、勉強会で「こんなことをやっています」と聞いた記憶があるんですけど。

私もAmazonのアルゴリズムを厳密には知っているわけではないですが、Amazonとはちょっと違うアプローチでしたよね?

坂井:そうですね。レコメンデーションにはたぶんいろんなやり方があって、複雑にすればするほどいろんなことができるとは思いますが、Amazonとはちょっと違うやり方でトライしています。

確かに、Amazonに近いような仕組みも別の専門会社のレコメンドシステムが組み込まれているので、「一緒に買われています」みたいなものがサイトの基本機能として表示されます。弊社の場合は、もうちょっとスコープの小さい、セール商品の組み合わせとか、ライトなお客さん向けの1枚のLP(ランディングページを作る時に、独自でレコメンデーションのプログラムを動かして商品を選定していところが、ちょっと異なる点かなと思ってます。

プロジェクトに最適な手法を選ぶためのポイント

立川:いろんな方が参加されているので、私からちょっと補足します。レコメンデーションとひとくちに言っても、けっこういろんな方法があって、今主流な方法は、大きく2種類あります。1つが、Amazonみたいに「この人は良い評価をしてくれそうだな」という相手に、なるべく評価の高くなりそうな商品をおすすめするという考え方。

もう1個は、さっきの坂井さんのおもちゃの例みたいに、その商品を説明するテキストや何かのコンテンツを「似ているよね」とおすすめする。

ざっくり、大きくこの2種類の方法があるんですけど、今回の坂井さんの方法はこのどちらでもないんですよね?

坂井:そうですね。

立川:これって、いろいろ調べてその方法を選んだ感じですか?

坂井:どんな手法があるかな? 使えるかな? データミックスで学んだ自然言語処理の内容でトライできるかな? と調べましたが、最終的にはけっこうベタな「アソシエーション分析」と呼ばれる方法に落ち着きました。

立川:理論的にはそんなに新しいものではないですよね。

坂井:そうですね。

立川:ただ、私はこの話を聞いた時に「あ、なるほど」と思ったんですよ。これはちょっと解説を入れながら話そうと思うんですけど。アソシエーション分析の特徴は、考え方がめちゃくちゃシンプルで、ざっくり日本語で言うと「併売分析」と言ったらいいんですかね。

坂井:はい。

立川:一緒におすすめした時に、購入金額の総額を上げる商品はこれだよという視点に立っていて。

評価がどうなりそうとか、あるいはテキストが似ているからではなくて、一緒に買われていて、これをおすすめすると買ってもらえる可能性がめちゃくちゃ高いという、とてつもなく単純なアルゴリズムです。

坂井:シンプルですね。

立川:ですよね。だから、あえてこれを選ぶのはすごいなと思いました。

シンプルなアルゴリズムを選んだ理由

坂井:立川さんがおっしゃるように、いろんな手法があって、いろんなアプローチがあると思いますが、本はちょっと複雑と言うか特殊で、人によって好きなジャンルや嗜好がまったく違うんですよね。

コミックが好きな人、小説が好きな人、ビジネス書しか読まない人とか、いろいろな人がいるので、評価が良くても、それが別の人に刺さるかはちょっと違うかなというのがあります。

あと、さっきの商品の説明テキストを使うパターンですけど、(本は)商品数があまりにも多く、商品説明テキストの分量にかなりばらつきがあります。たくさん説明が書いてあるものもあれば、まったく書いていない商品もあるんですよね。なので、(自然言語処理は)ちょっと使いにくかったというのが正直なところです。

それだったら、購買履歴が一番しっかり溜まっているし確実だから、それを使ってやろうというアプローチを考えました。

立川:単純に「レコメンドをやりました」とおっしゃいましたけど、実はいろんな方法を実験したり検証した結果、アソシエーション分析というわりと昔ながらの方法が一番近かったという経緯があるわけですよね?

坂井:そうですね。アソシエーション分析自体は別に昔からあるもので、みなさんもビールとおむつが一緒に買われるみたいな話ってどこかで聞いたことがあると思うんですよ。

小売業だとPOSデータがあるので、併売分析でどんな結果が出るのかを一度やってみたかったというのもありますね。

立川:おすすめのレコメンドによって、実際に売れたんでしょうか?

坂井:さっき言ったとおり、好きなジャンル以外のものもバーッと出てくるんですね。ビジネス書を買っているけど、一緒に買われているものなんで、コミックが出ることもあって。自分たちの業界知識を使ってさらに絞り込むという、アナログ的な作業もやって最終的な選定をしています。

それだけ手をかけているので、一緒にレコメンドした商品の売上が上がっているというのもあります。もちろん、ちょっと当たりはずれがあるのが現実的なところですね。

クーポン施策で起きていた課題

立川:もう1個のクーポンのプロジェクトについてもおうかがいできますか?

坂井:はい。先ほどお話ししたように「クーポンを効率的に打つにはどうしたらいいか」みたいなところがずっと課題感としてありました。クーポンは1つだけでなく、いろんな施策を同時に走らせているので、どうしたら施策の結果をうまく可視化できるかなと。

例えば、似たようなクーポン施策の売上の平均値を比較する。こっちは100万円で、こっちは150万円とかだと、「こっちのほうが50万円上がっているから良かったね」ということは常々やっています。でも、その50万円の差は、他の施策の影響も受けているわけですよね。なので、純粋なクーポンの効果かどうかは、いまいち推定できなかったというのが課題の1つでした。

それによって、「無駄打ちしているんじゃないか」と思いつつも、なかなか手をつけられなかった。そこを解決して、利益改善しようというプロジェクトになります。

立川:なるほど。ちょっと複雑ですが、雑な言い方をすると、まず今までのクーポンに効果があったかにちょっと疑問が残っていたと(笑)。

坂井:そうですね(笑)。

立川:クーポンの効果を(売上の)平均値で集計して、良かった悪かったとディスカッションしていると。クーポン施策に効果があったかどうかを、過去の類似の施策と比べて良かったかどうかを見ているというのが論点の1つ。

もう1つは、いろんな施策が一緒に走っているから、売上を押し上げた分が純粋に今回のクーポンの効果なのかどうか。単に平均で比較するのはどうなのかということですよね。

坂井:そうですね。みんなが疑問に思っていたけど、それを解決するアプローチがとれなかったというのが現実問題ですよね。

立川:ありがとうございます。実際どのように取り組まれたのでしょうか?

坂井:機械学習的なアプローチを使って、クーポンの需要予測モデルを作ったり、反実仮想的なものも取り入れて、クーポンを配布しなかった場合の売上と配布した場合の売上の予測モデルを出して、その差を取るとか。そうすると、クーポンを配った時にどれくらい各人の売上が押し上げられているかが出てくるので。

そういったかたちで配布する対象者を、適切なしきい値で管理して、あんまり効果が伸びない人には無駄にクーポンを配信しないようにするといったアプローチです。

立川:予測モデルを作って、クーポンが配布されなかった場合の予測をしたり、逆に配布されなかった人に配布をしたらどうなるかを予測したり。

坂井:ちょっと複雑なんですけど(笑)。

立川:専門的に言うと因果効果を推定するアプローチですよね。

坂井:そうですね。

検証前に「仮説」を持つことの重要性

立川:実際にやられてみてどうでした?

坂井:マーケティングの現場でもわりと新しいアプローチだと思うので、なかなか事例を見つけながらというのが難しかったんですけれども、事前の仮説がすごく重要だなと思いました。

因果推論って考えなしにぽこぽこ入れてると、ぜんぜん違う方向に行って、結論も変わってくるので、モデルを作る前に、データの可視化とか集計とか基礎的なことをやってから複雑な手順に進むんですが、ABテストも2回ぐらいやらせてもらって。

会員のデータをランダムサンプリングして、両群の購買力が同じような分布になっているかとかも詳しくチェックして、「問題ない2群だよね」「この2つで比較できるよね」と確認ながら慎重に進めていきました。

あと、各特徴量に関しても、相関係数を出して売上とどんなものが相関が高いかをチェックしますが、相関係数は数字で出てくるので、擬似相関もあります。「これとこれは正直関係ないけど、相関係数は高くなっている」みたいな落とし穴もある。そういったものはモデルの中で解決するのが難しいので、事前の知識とかを使って慎重に考えていきました。

立川:もうすばらしい。おっしゃるとおり、そうなんです。

坂井:(笑)。

立川:僕もデータサイエンスを学ぶ前は、そういう因果関係はモデルがぜんぶ教えてくれると思っていたんですけど。

おっしゃるような疑似相関みたいなものは、原理的にモデルでは解決できないことを学びました。だからこそ、慎重に細かくデータを見ながら、可視化も丁寧にやらなければいけないんですよね。

坂井:そうですね。このへんは、プログラミングの力や理論よりは自分の過去の出版業界でのマーケティングの経験や知識が活きてくる。ビジネスドメインの知識ですよね。むしろ、それがないとなかなか特徴量選択は厳しいというのが正直なところです。

この施策は現在も継続して進めていて、利益貢献の効果が一定出るという確認が取れてきたので、今結果をまとめて、社内プレゼンの準備に入っています。

立川:めちゃめちゃ貢献されていて、すばらしいと思います。

坂井:ありがとうございます(笑)。

最適な方法論を見つけるための「深堀り」の仕方

立川:お聞きしたいこととして事前の質問に入れていたものですが、さっきの因果推論の方法や、レコメンドの時のアソシエーション分析もそうですが、これらはデータミックスで習ったことではなく、そこから発展した方法論じゃないですか。機械学習と因果推論の組み合わせは、わりと手法としても新しい方法論ですよね。

坂井:そうですね。

立川:これがすごくいいことだと思っていて、どういうふうに取り組まれたのかをお聞きしたいのですが。

坂井:データミックスの卒業発表の取り組みは、基本的には「自分で調べてやりなさい」というスタンスじゃないですか。いろんなものを調べて、自分でなんとか実装するので、調べる力が一定つくと思うんですよね。そこからの延長線上であるというのが1つあると思います。

自分の業務の課題感、やらなければいけない課題感を解決するために、関連のあるトピックの書籍を複数冊買ってみて、そこに書いてあるサンプルコードとデータセットで、まず動かしてみる。

動かして、「こういうことなんだな」と腑に落ちたら、自分の業務のデータをそこに入れ込んで、どう出るかをトライする。これが自分の業務課題感から出る深掘りの勉強パターンです。

もう1つ、もっと軽く頭に残すという意味の勉強法では、例えば「こんな新刊出します」みたいな著者のTwitterでのつぶやきとか、他の人のブログで話題になっているトピックを見て、日頃からアンテナを張っておく。

すぐには使わないけど、自分がいざ必要となった時には「あんなのあったな」と引き出せるようにチェックをしておくとかですね。

立川:ある種、ふだんからアンテナを張って薄く広く知っておいて、必要な時に「あっ、あのへんが関係ありそうだな」と、本を何冊か買って読んだり、実際にコード動かしながら深掘りしていくみたいな。

坂井:はい。

立川:ありがとうございます。今言われてみれば、私もけっこうそうかもしれないですね。でも坂井さん、もう1個あるじゃないですか。みんなでたまに集まって勉強するという。

坂井:そうですね、勉強会もやっていますね。テーマとする本を決めて、みんなで集まったり、オンラインでやったり。けっこう1冊の本をじっくりやるってなかなかないんですよね。「この1冊を完璧にわかるようにする」みたいな深掘りって、すごくいいと思います。

データサイエンスの「ビジネス活用」で大事な3つのこと

立川:そろそろまとめに入りたいと思いますが、データサイエンスを身につけたことで良かったことや特に大事にしていることはありますか?

坂井:いろいろと気づきがあったと思います。いろんなアプローチの方法やバリエーションが増えたと言うか、考えられるようになってきたことは大きいと思います。昔はぜんぜん知らなかった手法も勉強する中で使えるようになり、自分で調べて実装する力がついたなと思っています。

例えば集計データだと、多くの人は平均を見て比べるぐらいしかやらないと思うんですよね。それでも十分なケースはあると思いますが、分散とか中央値とか、グラフ化してヒストグラムを描いたりするだけで、同じ平均値でも、データのばらつきとか、分布がわかるじゃないですか。そういうことを確認する必要性とか、力がついたのも大きいと思っています。

そういうことをやることで、「見えている数字だけが本当なのか?」と疑問に思うようになりましたね。「この数字の裏側に何が潜んでいるんだろう?」みたいなことを考えられるようになったことが大きいと思います。

立川:そういうことを考えていくのが大事だと。

坂井:はい。なので、今まで話したように仮説が大事だというのと、やっぱりビジネスとして課題解決につながらないといけないですよね。組織に動いてもらうために、さっき「ABテストを2回やりました」とか軽く言いましたけど、けっこう調整が大変だったんですよ(笑)。組織として動いてもらうためには、コミュニケーションも必要だなと。この3つは大事なことかなと思います。

立川:ありがとうございます。すばらしいお話でした。坂井さんから最後に、今日は受講を検討されている方もご覧になっているので、そういった方に向けて一言いただければと思います。

坂井:盛り上がってしまい、ちょっと時間が押してしまい申し訳ありません。

データサイエンスは、もはや特別なスキルではないと思っています。今までは研究分野とか、もっと高等なものと思われていたと思うんですが、数字を見た時に、その数字が何なのかをちゃんとわからないといけない。そうしないと、正しい意思決定ができない時代になってきています。

(データサイエンスは)もはやビジネスパーソンの基礎スキルになりつつあります。興味がある方は学んで損することは絶対にないと思いますので、ぜひこの世界に飛び込んでいただければと思います。

立川:坂井さん、本日はありがとうございました。

坂井:ありがとうございました。