注目すべきData Leaderの1人 ちゅらデータ・CTOの菱沼雄太氏

菱沼雄太氏:まずは自己紹介から。私は、ちゅらデータ株式会社のCTOで、DATUM STUDIO株式会社の執行役員もやってます。名前は菱沼雄太です。

特技は、今日紹介するデータエンジニアリングです。お仕事はデータにまつわるエトセトラということで、データに関してはなんでもやっていくので、よろしくね。例えば……かわいい。うん、自分で言うのもなんだけど、がんばってかわいいものを作っていこうと思っているので、よろしくお願いします。「かわいいよー」って言ってくれたらがんばるから言ってね。

こんな人ですが、2021年から2023年まで、毎年「Data Superhero」という認定を受けています。あと、「Data Hero of the Year」という、なんていうんだろうな、日本で1人しか選ばれないものに選ばれていたり、2022年は10回以上データ系の登壇をやっています。

あとは、これはググると海外の記事が出てくるんだけど「DATA LEADERS TO WATCH」という、世界で30人ぐらい選ばれるうちの1人だったりします。例えばゴールドマン・サックスとか、ファイザーとか、ネスレとか、ドミノ・ピザとか。あとちょっとローカルだけど、大韓航空の人とか、偉い人と一緒に選ばれています。

いきなりゴールドマン・サックスの下のほうにちゅらデータって書かれているのでびっくりするみたいなね、なんかそんな注目すべきデータリーダーの1人だと言われていますので、ぜひ今日は話を聞いて「なんかすげえなぁ」みたいなことを言ってください(笑)。

あとは、モダンデータスタックと呼ばれるデータ基盤の種類があるんだけど、そういうものの構築案件とかも経験数的には国内で最多だと思います。よろしくお願いします。

日本が良くなればもうそれでいいじゃん

今日は好きなだけスクショも撮っていいからね。僕けっこう早口でペラペラ話すし、時間も絶対足りなくて途中で終わっちゃうかもしれないから、好きなだけスクショを撮って持っていってください。

今日はだってアレじゃん? 僕はみんなの技術力を上げるために来ているんだよね。スポンサーとしてお金を払っているけど、別に僕らは何も得なくてもいいんですよ。なぜかというと、日本が良くなればいいじゃん、もうそれで(笑)。日本が良くなればいいじゃんって思っているんだよね。

だから、今日は日本のためにデータエンジニアという、すごく重要な仕事を紹介しにきたんです。みなさんぜひ今日は「データエンジニア、ちょっといいかも……」とか思ってくれるとうれしいです。

一応ね、半分お仕事として来ているので、少し宣伝をします。「ちゅらデータ新卒エンジニア採用」というTwitterのアカウントがございます。もしよかったら、このQRコードをスキャンしてフォローしてください。

データエンジニアとは何か?

というわけで、「データエンジニアって何ですか?」って人がほとんどだと思うので、今日は、データエンジニアについてお話ししていきたいと思います。

はじまりは、2012年、今から10年前ぐらいのことですね。もう11年前かな。『Harvard Business Review』で、「21世紀で最も魅力的な仕事はデータサイエンティスト」と書かれていたんです。おお、なるほどと。21世紀ってまだ90年ぐらいあるのにねっていう。

だけど10年経過して、現実がすごく厳しいことがわかりました。「データサイエンスのプロジェクトって超むずい」みたいなのが、10年経ってわかってきたんですね。

なんでデータサイエンスのプロジェクトは難しいのかな、成功しないのかな、成功を妨げてくるのかなというと、高品質なデータが不可欠だったりします。例えばAIでよく言われているのが「Garbage In, Garbage Out」。ゴミを食べたらゴミが出てくる。それはそうだよね。ゴミを含んだイマイチなビッグデータをAIシステムに通したら、やっぱりイマイチな結果が出てきちゃうというのがわかってきているんですよね。「いやいや、うちはワンチャン いけるでしょ」と思って取り組んでも、やっぱりデータの品質が悪くてできなかった、失敗したプロジェクトが山のようにあるんですね。

あとは、それらを回すためにデータのインフラが不可欠なんですよ。大量のストレージだったり、大量のクラウドのインフラだったり、分散コンピューティングだったり、けっこう高度なトピックがどうしても必要になってきます。

なので、データサイエンスをやりたいんだけど、必要なものを揃えるためのエンジニアリングが足りないことがわかってきた。

実際、2020年のテック系の職業の成長率の中では(データエンジニアが)一番伸びている職業だったりします。年間成長率50パーセントぐらいの勢いで、今伸びている感じですね。その次は、Back End Developer。いわゆるWeb系のサーバーサイドエンジニアだったり、Senior Data Scientistだったり、CRMのDeveloperだったりが続きます。フロントエンドエンジニアはもう頭打ちし始めているのかもしれないけど、まぁ、こんなもんだよって感じ。覚えておいてね。

さらに、どういう比率になっているのか。ちょっとこれは軸が違うから、なかなかアレなんだけど、例えば2015年ぐらいからデータエンジニアの求人がパラパラと載り始めました。そのあと、先ほどお話ししたようにデータエンジニアがこれから伸びるなと確信をしつつ、3番、実はデータサイエンティストが減り始めているというところもちょっと覚えておいてほしいなって感じですね。

「日本のDXは遅れています」→「日本のDXは遅れていました」にしたい

突然ですが、日本のDXは遅れています。めっちゃ遅れている。GAFAとかさ、諸外国のすごくでかいグローバル企業が扱う市場に比べると、日本市場はやはり小さいんだよね。だから、出てくるデータも比較的小さくて、多くの企業ではなにかをするのに十分なデータがないというのも、うにゃうにゃしているポイントだったりします。

大きなデータを持っているところももちろんあります。メガベンチャーであったり、グローバルに展開している製造業もやっぱり強いよね。そういうところはでっかいデータを持っているんだけど、GAFAが稼ぎ出してるビジネスに対してはやっぱり小さくて、大きなインフラ投資ができなかったんですよね。

ということで、ムーアの法則がちょっと最近破れ始めてはいるんだけど、少なくとも時代が進むとともにインフラコストはどんどんどんどん下がっていく。AWSの費用もさ、なにげにちょっとずつ単価が安くなっているでしょ。そういうところがうれしいという時代がようやく来たところです。

だから、日本のDXは「遅れています」から「(遅れていま)した」に徐々になりつつある。過去形になりつつあるんですよ。ちゅらデータは、この「遅れています」をどんどん過去形にして、「DXを我々ちゃんとやっているんだ」というところまで日本を持っていきたい。

凄腕なエンジニアたちが集まって、データエンジニアリングをしている

これは私ごとなんですが、2019年末のことじゃったと。私はもともと、とあるゲーム会社でCTOをしていたんですけど、音楽性の違いがやっぱりありまして。そのあとにデータ会社のCTOになるというイベントがあって今に至るという感じなんですけど。

当時から、ちゅらデータは、「エンジニアリングがすごく大事になるよね」と、その必要性を認識していたんですね。

けれど、日本にはデータエンジニアが誰もいない。Google Trends見てくれたらわかるんだけど、「データエンジニア」という単語が検索もされていないし、存在していないんですよ。「うわぁ、困ったなぁ」みたいな感じでした。

だから私が入社してからやったこと3つ。1、データエンジニアリング。まぁ、そうだな。わかるわかる。そうなのよ。2、データエンジニアリング。3、データエンジニアリング(笑)。

実は私は「データサイエンティストになるのかな?」という状態で入社したんだけど、入社してからずっとデータエンジニアリングしかしてなかったんですね。あらあら。もうこれは結果論なんですけど、やっぱり市場が多すぎてエンジニアリングが強い人はもうエンジニアリングしかやれなくなってきているんですよ。

なので、今はどうなっているかというと、(スライドを示して)こんな感じです。ちゅらデータのタイムラインをちょっと紹介します。2017年にね、(スライドの)一番左側の社長が創業して、琉大(琉球大学)のトップクラスの若手が入ってきたり、東京で疲弊した凄腕エンジニャーがバーッと入ってきたり。やっぱりアレじゃん。「東京でいつまでも疲弊してんじゃねえよ」とか「花粉症つらい」とかで、「沖縄でAIやりたいな」みたいな、沖縄が好きな人が移住してきていたんですよ。

私は(スライドを示して)その間らへんでジョインしました。(メンバーが)20人から30人ぐらいに移る時の時期でしたね。OIST(沖縄科学技術大学院大学)の研究者が入ってきたり、シニアクラスの情シス、ネットワークエンジニア、メガベンのシニアエンジニアとか。あと、他社でCTOやったことある人とか、エバンジェリストとか、外資系のコンサル出身の人とか、いろいろなすごい人たちが、2021年以降にジョインして今に至る感じ。

今はだいたい70人ぐらいいるんですけど、半分以上がやっぱり凄腕みたいな感じ。(コメントを見て)あ、そう、南北朝時代ってよく言われていますね。南北朝時代どころか、3〜4人ぐらいCTOクラスの人がいて、もう戦争ですよ。私のポジションは、早く受け渡そうと思ってるんだけど、社長がですね、「いや、お前だ」って、ずっとこのままなんですよ。バグっているんです、この会社。

よくクレイジーとか言っているんだけど、別に全員がクレイジーなわけじゃなくて、ニヤニヤしてるだけの人とかぜんぜんいますから(笑)。未来はね、今の70人ぐらいの体制から1,000人ぐらいまでいきたいなと思っているので、ぜひみなさんジョインしてください。おもしろいよー(笑)。

そんな凄腕なエンジニアたちが集まって、データエンジニアリングをしているのが、我々だったりします。

すべての組織がデータを中心に回り始めている

「Data Gravity」が何かというと、データがすべてを引きつけるという、Gravity、重力のことを表現した言葉です。

すべての組織が、最近はデータを中心に回り始めているんですね。全部のレンジがデータ中心の組織になって、エンジニアリングもデータ中心になってきている。だからData Gravityという言葉で表現されているんだね。

データエンジニアは、開発・構築する典型的なものとしては、データ基盤。英語ではdata planeとか、data infrastructureとか、いろんな言葉で表現されるけれど、少なくともデータエンジニアは、データをどうにかする、取り出したりできる場所を作るというのが仕事です。

「データ基盤って何なんだろう?」これは、2022年の技育祭でやったやつの改善版だけど、典型的なデータ基盤の構成要素、テックスタックの例です。いろいろなものが出てくる。(スライドの)左側が入力データで、右側が活用するあたり。「うわぁ、いっぱいあるな。広いな。やべぇな」みたいな感じになっていますね。

メガベンチャーのテックステック事例

例えば例、メガベンチャーさんが実際どうなっているのかいうと、比較的大きなデータ基盤としては(スライドを示して)こんなものがよく出てきます。メガベンチャーはだいたいこんな感じになっていると思います。

これはちなみにメガベンチャーは語れない図ですね。なぜならメガベンチャーは、自社の詳細をこんなに語れないから。これは私が、いろいろなものを知った結果、「たぶん雰囲気はこんな感じ」と抽象化したものなので、出しても大丈夫なやつですね。このように全体を作っていくのがデータエンジニアの仕事で、たくさんあるなって感じになるわけですよ。

例えばストレージ系のテックスタックだけでも、これだけあるわけですよね。オブジェクトストレージでも、S3やGoogleのCloud Storageを使っていたり、当然マルチプラットフォーム、マルチクラウドベンダーだったりするんですよね。データウェアハウスの中でもBigQueryがあったりSnowflakeがあったりRedshiftが出てきたり、そういうことがやっぱり出てくるわけです。いろいろな技術に精通してなきゃいけない。

データインジェストと呼ばれる領域もけっこう重要で、例えば、最近の日本国内SaaSだと、troccoさんというすごく有名な会社があるんだけど、最近無料版が出たから、もし練習して使ってみたかったら、troccoをぜひ遊んでみてね。いいよ。あとFivetranという海外SaaSもね、最近日本の東京のAWSのリージョンに対応して無料版があったと思うので、これもね、楽しめます。Lambdaも無料枠あるから、こういうので遊んでみてね。

機械学習系のテックスタックとしては、例えばSageMakerやDatabricks。ここに載せていないけれど、GCPでも、BigQuery MLみたいなものがあったり、最近だとVertex AIとか楽しいよね。

あと、可視化系のテックスタックとしては、Looker、Domo、Metabase、Tableau、Redash、Hightouchみたいなところがよくある。可視化系のテックスタックは、やっぱり使う人がいて、自分が好きなツールを使うので、けっこういろいろ出てきますね。

テックスタックというのは、なんていうのかな、OSSとか製品とか、1個1個こういうのを使いますよという時にテックスタックって呼ぶんだよね。例えば言語やミドルウェアやサーバーの種類もテックスタックって呼んだりします。

最後のほうにいくと、データガバナンス系のテックスタック。例えばOpenMetadataやAWS。Azureもめっちゃ多い。今回たまたま載っていないですが、Azure系のテックスタックもかなり扱っています。

データエンジニアに必要なスキルは?

そんなたくさんのコンポーネントを扱っているので、こんなこと言われちゃいます。「早くしろよー!」と言われて「ひぇぇ」って、僕らデータエンジニアは、いつもこんな感じで中央で言っています。

実際ね、どんな規模になってくるのっていうのは、こんなね、設計図面とかデータのやつを残すとですね、(スライド示して)こんなふうになったり、こんなになったりして、「設計図面がすげぇことになるな」「いやー、もうなんも見えん。たのしー(棒)」みたいなね。

閑話休題というところで、こんなところでですね、みなさんがこのQRコードをスキャンしてくれたか、ちょっと見にいってみましょうかね(笑)。何人ぐらいフォローしてくれたかなぁ。あ、今ね、18フォロワーぐらい来ていますね。もうちょっといこうよ、みんな。これ100人以上が見てるの知ってるんだからな、お前らもっとフォローしろよ(笑)。

さーて、次。

(コメントを見て)話に集中させて? ああ、そうだね。確かにそうだわ(笑)。

Data Gravityね。データがすべてを引きつける。だから、データエンジニアリングは、すべてのエンジニアリングを指すんです。Full Stack of Full Stack。ねぇ、Full Stack of Full Stackエンジニアになれるから、かっこいいだろ?

困る。そら困るわ(笑)。「やることが多い!」みたいな感じになる。エグい。もうどうしたらいいんだろう。

だからちょっと、学生のみなさんでも手が届く領域までにもっていくために必要なスキルを簡単に整理しました。最低限これぐらい押さえておけば、学生のうちは大丈夫だよ。将来はああいうことをいろいろやることになるんだけど、学生のうちはさ、研究とか、勉強とかいっぱいやることがあるんだよね。だから、最低限データエンジニアに今日入門できるというところまで、どうレベル上げればいいのかをちょっと表現してみようと思う。

例えば、データエンジニアはどんな言語を使うんですか? と聞かれるんですが、求人票を見ると、圧倒的にSQLとPythonが多いんですよ。Pythonは、けっこう大学でやるところが増えてきていて、参加者の半分以上使えるんじゃないですかね。だけど、SQLについては意外とやっている人が少なくて、大学生のうちにきちんとSQLを使っておくといいということをまずここで表明しておきます。

なるほど、SQLとPythonを学んでおけばええやんけー。わかった、わかった。せやな。じゃあここで宣伝と。

なんと2023年4月6日、「技育CAMPアカデミア」が行われます。題目を見てください。このバ美肉YouTuberの私が初心者向けコンテンツをやる機会なんてなかなかないんだけど、やりますよ。ぜひみんな来てください。基礎から分析までのSQLを1時間半。データエンジニア入門ダイジェストということで、オンライン勉強会を開催します。

なぜさっきTwitterをフォローしろと言ったか。こういう情報を流すからなんだな。僕ら、20、30人しかいないし、広報の人もがんばってくれてるんだけど手が足りなくて、ちょっと準備が後手後手なのよ。ごめんね。だから、なるべくフォローして最新情報を受け取れるようにしてください。お願いします。

SQLはめちゃめちゃ深い技術領域

というわけで、こういうコンテンツを受けると何が起きるか。ちょっと細かすぎるのでぜんぜん読まなくていいからね。「ようこそSQLのアビスへ」ということで、深淵にようこそ。SQLというのはめちゃめちゃ深い技術領域なんです。

だいたい、ジュニアクラスのWebのエンジニア、お仕事している若手のエンジニアは一番表層領域ですね。一番表層領域あたりの知識があればなんとかなっちゃう。学生で2段目ぐらいまでできていれば、十分強い。

その代わり下のほうに行っちゃうと、上昇負荷が強くて学生には正直おすすめしません。実際、上昇負荷が高すぎて、僕もこういう異形の顔になってしまいました。ネコ耳が生えちゃいましたね。危険なんです。学生にはおすすめしません。

ただ、このSQLというスキルは一度学ぶと数十年使えるんですよ。なので、いわゆるコスパはいい。めちゃめちゃコスパがいい。例えば、SQLってなんと1970年代から大きく変わっていないんですよ。すごない? これまじすごい。だから、今でもデータ系の界隈には、50代、60代の人がめちゃつよで残っています。Oracleとか、70年代にできたデータベースだから。すごくね、あれ? Oracleのメインの開発者みたいな人たちがゴリゴリっと独立して作ったのがSnowflakeだったりするしね。

ちなみに一番下にNULLがあるというのが、かっこよくてね。やっぱりNULLは大事なんだよね。なので、このオンライン勉強会は、NULLにちょっと触れようと思います。深淵を少しみなさんに見せてあげようと思います。

このへんの深さまでいくと、こういうことが楽しめるようになってきます。SELECT、ぶわーって人が集まる。DISTINCTするとめっちゃ人が減るとか、「Group ByとDistinctどっち使えばいいんだ!?」みたいな。

(次回へつづく)