生成AI時代の「データ活用」とは

朝井祐貴氏:エクサウィザーズの朝井と申します。私は朝井のくせに名前負けしている感じなんですけど、朝が弱いんです(笑)。ただ、みなさまがお忙しいなか500名ほど集まっておられるので、がんばって説明していきたいなと思っております。

私ごとで恐縮なんですが、このあと午後から健康診断があります(笑)。アラフォーで今日がんばってプレゼンするんですけど、ただ拙いところもあるかと思います。

午後に健康診断が控えているので、血圧が上がりそうなコメントは今日は控えていただいて……(笑)。後日、事務局宛にいただければなと思っている次第です。すいません、前置き長くなりまして失礼しました。

ということで私から「生成AI時代の『データ活用』とは」というテーマでお話しいたします。今日の話の流れなんですが、ほぼ個人的な経験談が7〜8割です。

弊社のサービスに「exaBase 生成AI」というプロダクトがありまして、生成AIをセキュアな環境で使えるプロダクトになっています。こちらを用いて、私がデータ分析で培った経験談をお話しさせていただきます。

最後にその流れの中で、今後データを活用するビジネスの中で「データ分析のどういったところが重要になってくるのか」に触れていきたいと思います。なにかしらお役に立てればなと思っています。

スライド下のところで、データ分析人材のあり方などを話します。今日もいろいろな方がいらっしゃると思いますので、ビジネスをどう広げていくか、スキルをどうするかを考えていただく一助になればいいかなと思います。

データ分析のプロセスを整理

今日はこの時点で「お前は誰だ」みたいな感じになってしまって恐縮なんですけども(笑)、私の簡単な経歴紹介です。人材ビジネスの領域は長いんですが、ほぼほぼデータには携わっているというかたちになります。

今日はプロダクトの紹介もさせていただけるとのことでした。経産省が出しているDSSに準拠したプロダクトの開発を今やっています。私はデータサイエンティストなのかと思ってらっしゃる方もいるかもしれませんが、半分というか2割ぐらいという回答になります。

データサイエンティストのようなかたちでずっとデータを触っているよりは、今はプロダクトの事業開発など、プロダクトをより良くしていく上で、データ分析が必須の役割になっています。

だいたい1〜2割ぐらいがデータ分析と関わっている感じなんですが、DSSに準拠したアセスメントサービス、DX人材のスキルを測るアセスメントサービスを開発していまして、これはテストのようなものなので、分析の軸が3つぐらいにわりと絞られます。

まずは問題単位で、良い問題なのかどうなのかという話ですね。その次はもう少し大きい概念になりまして、一つひとつの問題ではなくてテスト自体です。英語だったら英語のテスト自体として課題を分析して、その英語のテストをよりブラッシュアップするためにはどうしていけばいいのか、というかたちでデータを使います。

あとは最終的に、たとえば英・国・数・理・社がそれぞれ何点みたいなテスト結果が全部揃うので、属性情報を加えて分析したり、テスト結果が良いとその後どうなっていくのかなどの指標と分析をします。という具合に、だいたい3つぐらいのかたちになります。

データ分析に関わってこられなかった方もおられると思うので、今日はいったんプロセスを整理させていただきます。まず最初に「何のために分析をするか」「分析で何を実現したいか」といった課題設定をして、その課題を解決するためのデータ入手をします。

そのままでは分析できないので加工して、分析をします。そして、この分析結果が良いのか、業務改善に使えそうなのか、付加価値出せそうなのかという評価をして、良さそうだったら分析結果を活用してアクションする、改善活動する流れになります。

データ分析のプロセスは料理に似ている

たぶん(データ分析に)馴染みのない方もいらっしゃるかと思いますので、このアナロジーで何が近いのかを考えてみた時に、「料理」とけっこう似ているなと気づきました。

自分の家でホームパーティーをすると考えると、「何を作ろうかな」「誰向けにどういう料理をしたらいいのか」ということが出てくると思います。友だちや上司が来るなどの条件で、たぶん出す料理が違うと思います。そういったメニューを考えることが、まさに課題設定みたいな感じですね。

私は関西人なので、たこ焼きぐらいだったらなんとかがんばって作れます(笑)。食材を買いに行って、切ったり加工をして、そのあと焼くという調理をします。味見して良かったら「じゃあ、来週がんばって振る舞おうかな」みたいなかたちで提供していきますよね。まさにこういうのがデータ分析のプロセスです。

2つお詫びなんですが、このアナロジーは私が考えたんじゃなくて、まさに生成AIに考えてもらいました(笑)。頭の良い方はアナロジーが非常に上手じゃないですか。私はアナロジーを考えるのが苦手なので、それを生成AIにやってもらいました。

「今度こういうセミナーやるんで、何かアナロジーで考えてくれないか」と言ったら「料理がいいですね」と言ってくれたので、そのまま丸パクりしたみたいな(笑)。丸パクりではないですけど、書いて作った感じですね。

もう1つは、ご飯前の時間にたこ焼きの話をしてしまって、大変申し訳ないです(笑)。TPOをプロンプトにするのを忘れてしまいました、というのが私の反省点です。

ただ私も午後から健康診断で朝に何も食べてないので、実は自分が一番つらいと気づきました。なんでしょう、自爆飯テロみたいな感じになってしまいました(笑)。

データ加工の難しさを痛感した

このプロセスの中で今回、私の恥ずかしい話なんですが……データサイエンティストはたぶんみなさん悩みがあると思うんですけども、プロセスが楽しければ「分析サイコー!」という感じでみなさん、心地よく働かれていると思います。

私の場合、このデータ加工がものすごく苦手です。ほかは業務上やっているように、やはり課題に一番近いところで、自分が一番知っているところがあります。そこは非常に得意だったり、改善行動もすぐ現場でできるので、かなり得意なところです。

データ分析や解釈に関しては、先ほどのテストの世界だと、分析軸がわりとメニューが少ないと言いますか……。たこ焼き粉だったら、たこ焼きか明石焼きを作るぐらいしか違いがない感じで、テストは分析メニューがあまりないんですね。覚えることを覚えたらすぐできるので、苦手意識はそんなにないんですけど。

このデータ加工のところだけは非常に苦手で、まずすぐ分析できるデータじゃないんですよね。たこ焼き粉があれば、たこ焼きはすぐ焼けるんですけど、小麦を渡されて「これをどうしたらいいんだ」みたいな(笑)。そういった状態でデータがあるので、すぐできませんよね。

また、加工をしないといけないんだけど、その加工技術がない感じです。数百行、数千行だったらExcelでできるんですけど、数万行や数十万行になるとExcelだとぜんぜん回りません。

RやPythonを使って加工しないといけないので、急に業態が変わる感じになって、(料理をするだけだったのに)食材加工業を専門にやらないといけなくなったイメージです。非常につらい状況にあります。

分析しやすさよりも、データの保存しやすさが優先されている

その具体例なんですが、例えばテストの世界だと、テスト結果の分析をすることがあります。個人的にはデータベースに貯まっているテスト結果でも、人別や5教科別にデータが欲しいことがあるんですよね。

いろいろな属性データと比べて分析したい時に、どういうデータをみなさんExcelで想像されますでしょうか。Excelやスプレッドシートでもなんでもいいんですけど。

みなさんが想像しているデータは、まず来ないんですね。みなさんが想像されるようなデータはスライド右側の感じなんです。人別に英・国・数・理・社のデータが入っている感じです。

データは、データサイエンティストが分析しやすいように貯まっているのではなくて、データベースに保存しやすいように貯まっている特性があります。実際に入手できるのが、左のようなデータだったりするんですよね。

1万人分のデータが欲しかったら、Excelなどに500万行ぐらいあって、ユーザーIDも同じものがずっと羅列してて、得点のデータはどこにもない。これがどういう構造になっているのかをずっと眺めて、どうやって自分が欲しかったデータに加工すればよいかをいろいろ考えるのが、真ん中の図になってくるみたいな感じですね。

データ加工は、ミイラ取りがミイラになる“苦行”

なんとなくこのデータはENGが英語でSOCが社会みたいな感じなので、テスト結果じゃなくて「1問1問の回答データかな?」。0と1になっているのは「1が正解で、0が間違っているかな」という感じなので、これを人ごと・教科別に合計していかないといけません。

これは「ループ処理が必要なのかな?」。それでループ処理をするためにまず何をするかというと、勉強をするんですね。『R入門』みたいな書籍がたくさんあるので、それをまず見て、左側のプロセスのように一直線に進むような感じで最初は考えるんです。勉強して、コードを書いて、実行して「はい、おしまい」という感じで、楽観的に考えるんですけど。

実態は何かというと、まず右側ですね。学習をしようとするんですけど、まず見たことも聞いたこともない、ぜんぜん何を書いているかさっぱりわからないということですね。

自社データに当てはめようとするんですけど、うまく当てはまらない。文法は覚えるんだけど、動詞がよくわからないので、テキトーに当てはめてもぜんぜん動きません。

こう書いてみてもぜんぜん回らなくて、エラーの内容も読み取れない。エラーの内容を読み取るために別のWeb記事を探すようなことを繰り返していって、気づくと「ループ処理をかけたいと思ってたら、なぜか自分がループ処理されている」みたいな(笑)。ミイラ取りがミイラになっちゃった現象が非常に起こります。

これが1個だけだったらいいんですが、さっきのループ処理もOne of themのようなかたちでして。いろいろな処理のたびに自分がループ処理される体験を味わいまして、中にはたった何行かの処理に数時間とか、1日経っても解決できない苦行が続きます。

生成AIの上手い活用の仕方

そんな中、生成AIが誕生して、いろいろプロセスを変えたところがありまして。左側のプロセスは、考え方としては最初に処理の内容を決めて、その処理の方法を学ぶかたちでした。

生成AI誕生後は「もしかしたら私は、そもそもこの処理自体が間違ってたんじゃないか」みたいなことに、散々ループした結果、気づきました。処理そのものは自分で考えずに、もっと頭の良い、いわゆる生成AIに生成させる考え方で、まず勉強するのをやめました。

まずは、生成AIに指示を出してRのコードを生成させるプロセスに変えました。具体的には現実と理想のギャップを埋めるプロンプトを実際に打って、かなり詳細に提示します。

「データのここをこう変えてくれ」「ここを合計してくれ」「これがユニークです」などを指示します。すると前までのことが嘘のように、数時間かかっていたのが数分、数日かかっていたのが数時間ぐらいになっていきます。

自分の場合は、データ加工のプロセスに苦手意識がなくなってしまったのが、生成AIのおかげなんですけど、なぜか自分の手柄だと勘違いしてしまいました(笑)。

ほかに今までやりたかった、それまで億劫でできなかったデータ利活用のテーマに新たにチャレンジする流れが出てきました。まさにデータ分析で解決できそうな課題設定をする機会が増えました。

ほかにも生成AIはいろいろなところに使えるので、R言語の次はPythonで使いました。「エンジニアが書いたものがよく読み取れない」と、翻訳者として聞いてみたり、(自社事業で)どんなデータを使ったらいいのか、どういうデータを集めたらいいのかを生成AIにずっと案を出してもらっています。

「どんな課題設定をするか」が重要

今回の私の話のまとめですが、生産性は時間単位でまるっきり変わりまして、マインドも真逆になり、行動が増えました。行動が増えると今後どうなっていくか。やはり「どんな課題設定をするか」が重要になってくるのかなと思います。

最初に料理のアナロジーで例えたんですけども、料理も動画が流行ったことで、非調理士の方でもおいしく料理が作れるようになった時に、どうやって料理人が差別化するか。「どんな新しいメニューを作っていくか」のメニュー設定などの重要度が増したりします。

あとは、ほかの一般人では手に入らない食材を、如何に仕入れるルートを確保し、見つけるかが、やはり差別化のポイントになってくるのかなと思います。

データ分析もそのアナロジーになぞらえると、データ加工やデータ分析なども、生成AIに聞いたら生成してくれます。そうなっていくと料理のアナロジーと同様に、どんな課題を解くかであったり、どんな良質なデータを入手するかに、ビジネスのポイント、重きがスライドしていくのかなと思います。

最後に、私のプロダクトの紹介をさせていただきます。今DX人材育成プロダクトというかたちで、現状の可視化からOJTまで幅広く支援しています。

DSSに準拠した「DIA3.0」という、現状の知識レベルを可視化するプロダクトですが、DSSに準拠した項目でアセスメントを受けられるサービスをやっております。

結果は、個人単位でも、組織単位でも確認できるので、どこが強くてどこが弱いかを見ることができ、今後の学習の参考にできます。

今日のデータ分析にもありましたけど、データ分析の知識があるのか、データ加工のところの知識があるのかも分けて測定をすることもできます。

アセスメントの結果を踏まえた最適なコンテンツ、育成プランについては、Udemyさんと連携しながら、DX人材の育成をサポートさせていただいています。

こちらもご興味あれば、後ほど資料請求いただければと思います。最後は駆け足になってしまいましたが、私のセッションに関しては以上とさせていただきます。ありがとうございました。