2024.12.19
システムの穴を運用でカバーしようとしてミス多発… バグが大量発生、決算が合わない状態から業務効率化を実現するまで
マイクロサービス・モジュラモノリス化によるシステム負債の解消プロジェクト(全1記事)
リンクをコピー
記事をブックマーク
塚原諒氏:こんばんは。今日は「マイクロサービス・モジュラモノリス化によるシステム負債の解消プロジェクト」というタイトルで発表します。
(スライドを示して)まずは自己紹介をさせてください。名前は塚原諒といいます。2022年の4月に中途でDMMに入社して、オンラインサロン事業部のアーキテクトチームに所属しています。
ふだんは本日紹介するマイクロサービス、モジュラモノリスでのリプレイス業務を主にやっています。(スライドには)書いていないんですが、好きなテキストエディタは「Vim」です。よろしければ(コメントに)好きなテキストエディタとかを書いてください。(こちらも)なにか反応できればなと思っています。
Twitter、GitHubは「trrrrrys」というIDで活動していて……。あまり(この名前で)呼ばれたことはないんですが、こういうIDで活動しています。「r」は間に5つ入っています。DMで好きなテキストエディタについて送ってきてもらっても大丈夫です(笑)。
とりあえず、今日話すことについて紹介します。まず現状のシステム的な課題について。そして「マイクロサービス・モジュラモノリス化プロジェクト」についての紹介。あとはこれまでやってきたこと、現在取り組んでいること、これらについて話していければと思っています。残念ながらVimについては話さないので、別で話したいなと思っています(笑)。
まずシステム的な課題についてですね。(スライドを示して)DMMオンラインサロンは、このような3つのシステムで動作をしています。まず、2016年に入会・管理画面をリリースしました。リリース当初はユーザーの管理や支払い周りの機能のみを提供していて、実際のユーザーの交流にはFacebookのグループを利用してサービスの運営をしていました。
その後、2018年に専用のコミュニティサービスをリリースして、オンラインサロン内部で、コミュニティがサービスのみで完結するようになりました。
2020年に、ライブ配信システムをリリースして、現在この3つのシステムが主に動いている状態になっています。
2年置きに都度追加してきたので、現状は分散モノリスみたいなかたちになってきていて。その時々というか、リリースしたタイミングでは最適な選択をしてきたつもりではあるんですが、サービスが大きくなるにつれて徐々に技術的負債のようなかたちになってきています。
ざっくり例を挙げるんですが、入会・管理画面と専用のコミュニティサービスのデータベースが分かれていて、アカウント情報がそれぞれのデータベースにあるようになっています。
例えば同期をしたり……。あとは、あるデータが片方にあるんですが、片方にはなくて。片方にはないデータをシステム上で使うので、片方のシステムに問い合わせをして、けっこう密な連携をしていたりしますね。
開発初期、2016年初期は外注して開発を行っていた、あとは社内にあまりドキュメントが存在していなかったり、異動や退職もあって。(かつての)メンバーが(今は)残っていません。
(そのため)システムのフローが複雑になって、仕様の把握がけっこう複雑になっているような状況があって。新機能の要望があっても、追加するのに時間がかかってしまうような、リードタイムの悪化を招いているシステムの構造になっています。
このようなシステムの負債によるリードタイムの問題を解決するために、2022年1月にシステムのリプレイスの専任のチームを立ち上げて、「neon」というプロジェクトを進めています。この専任チームというのが、僕が今所属しているアーキテクトチームというチームです。neonは「the nexus of onlinesalon」の略称です。
先述した分散モノリスのシステムを、マイクロサービスとモジュラモノリスでリプレイスを行って、システムの課題を解決して、ビジネスのスケールに耐えて。あとは類似サービスやほかの競合の機能だったり要望だったりに対して、迅速に対応ができるプロダクト基盤(を作ること)を目的としてプロジェクトを進めています。
分散モノリスから適切な単位で分割を行い、基本的なスケーラビリティの向上や、リードタイムの短縮を目的としています。完全なマイクロサービスではなくて、主要なサービスをモジュラモノリスとして扱うようなアーキテクチャを採用しています。
主要なサービスというのは、DMMオンラインサロンでいうと、オンラインサロンの会員を扱うサービスやコミュニティを扱うサービスみたいなものをモジュラモノリスとして扱っています。あとはID情報や通知、決済周りみたいなものは、マイクロサービスとして個別で切り出すかたちになっています。
マイクロサービスにおいてチーム編成や組織をどうするか、みたいな。アーキテクチャに対して組織をどうするか、みたいなものはどこの組織でもよくある課題だとは思います。
弊社の場合は直近だと、サービスごとにチームを分割する想定はなくて、1チームでの運用を想定しています。なので完全なマイクロサービスにすることなく、過度な分割を避けて、扱いやすい単位でモジュラの一部、一部というか主要なサービスをモジュラモノリスを選択して設計をしました。
これからの開発規模に応じて柔軟にサービスを切り出せるように、モジュラモノリスという選択をして、現状の分散モノリスではできていなかったシステムの責務の明確化をして、5年後、10年後に対応できるようなアーキテクチャを目指して開発を行っています。クライアント側からはBFF(Backend For Frontend)を介して「neon」というサービスを利用するかたちになります。
簡単に技術スタックの紹介をします。マイクロサービス部分に関してはGo言語でできたアプリケーションで動いていて、サービス間の通信にgRPCを採用しています。
一部、Pub/Subや非同期通信を利用したサービスも存在しています。BFFとしてNode.js、TypeScriptに「fastify」と「GraphQL Yoga」を採用したGraphQLサーバーをBFFとして用いています。クラウドインフラはAWSの「Fargate」を利用して運用しています。
では、チームの発足からこれまでやってきたことについて、一部紹介できればなと思っています。
(スライドを示して)まず、管理画面と専用コミュニティのデータを新DBに同期するシステムを作りました。先ほど問題として挙げたと思いますが、各システムに情報、データが分散されていて、システム的に密結合になってしまっている状況を避ける、解消するために、アカウント情報を統一し、分散されているDBを新しいDB1つに統一しようというプロジェクトをやりました。
これはAWSの「MSK」、「Apache Kafka」のマネージドサービスの「Debezium connector」。これはいわゆるCDC(Change Data Capture)みたいなものを利用して、管理画面・専用コミュニティサービスのデータベースの変更を検知して、これを「Lambda」でデータを加工して新しいDBにデータを同期しています。
もともとAWSの「DMS(Database Migration Service)」みたいなものもあって、それも検討していたんですが、管理画面と専用コミュニティの2つのデータベースをソースにして、新しいDBへ加工をしてデータ同期を行うような要件に対して実現できなかったため、今回はMSKとDebeziumのコネクターを採用して実装を行いました。
基本的にLambda内ではイベントとしてDBの変更情報が渡されます。この渡された情報を元に新しいDBへ加工をして、新しいDBへINSERTを行っています。
データの元DBでデータの更新を行った後、だいたい1秒ぐらいで同期が完了するシステムになっています。このシステムは実際に今も動いていて、サービスリリース後、既存のサービスが使えなくなるまでは引き続き稼働して同期を行う想定でシステムを作っています。
(スライドを示して)次はAPIのゲートウェイの構築ですね。先ほどBFFの話をしたと思いますが、neonではAPIゲートウェイパターンというアーキテクチャを採用していて、複数のサーバーやサービスを統一的に管理する仕組みを作っています。統一的に管理することで、システム全体をスムーズに運用できるようになります。
ゲートウェイにはGraphQLを採用していて、Over-fetching、Under-fetchingを防いだり、あとはクライアント側が必要なデータを柔軟に操作できることによって、新規機能の開発時のリードタイムの短縮も期待しています。
ただ、RESTのAPIにはないようなキャッシュ周りだったり、N1みたいなものも、RESTにはない懸念点としてありますが、こちら(に)も対応して実装を行いました。
あとは認可基盤の作成ですね。マイクロサービスのサービス間の認可のために、「SpiceDB」という、Googleが内部で利用している「Zanzibar」という認可システムにインスパイアされたOSSを利用して認可基盤を構築しました。
Zanzibarベースのサービスは、ユーザーとリソースに対して、リレーションのようなものを表現してアクセスを行うシステムです。
しかし、オンラインサロンではけっこう柔軟な権限設定を行うような要件があり、それをマイクロサービス間で認可として扱うために、今回はZanzibarベースのシステムを選択しました。
同様なサービスだとAuth0の「FGA」や「Ory Keto」。このようなOSSやほかのものも候補にありました。
もともとZanzibarの論文がGoogleから発表されたのが確か2019年ぐらいで、けっこう最近なこともあって、SpiceDB以外のサービスがステーブルバージョンではなかったため、今回はステーブルバージョンであったSpiceDBを選択しました。
今回は時間がないので、SpiceDBの深掘りはあまりしませんが、どこか別の場所、別の登壇の機会に深く話しができればなと思っています。
では現在取り組んでいることですね。現在は今開発しているneon基盤を利用して、管理画面のリプレイスを行っています。
もともとオーナーの管理画面のサロン開設までのフローが複雑で、それをわかりやすくしたいという課題があったので、それをneon基盤を用いてリプレイスを行っています。
既存の管理画面をすべてリプレイスすると、規模が大きくなってしまうので、分割して少しずつ、一部ずつリリースをする想定です。(スライドを示して)既存の管理画面はこういうものがあるんですが、新しくスマホビューに対応してみたり、今っぽくデザインもおしゃれな感じに作っています。(まだ)これはワイヤーですが、「リリースをお楽しみ(に)」という感じになっています。
まとめです。システム的負債を解消するために、マイクロサービスとモジュラモノリスで新規基盤を開発しています。
組織の状況に合わせてアーキテクチャを設計することが大切で、マイクロサービスをやりたいからといってマイクロサービスを選択するのではなく、直近の未来や状況に合わせてアーキテクチャを設計することが大切だなと思っています。
あとは、5年後、10年後にアーキテクチャがどうなっているかはわからないんですが、5年後、10年後でも動作するような、システム負債になりづらいようなアーキテクチャを目指していきたいなと思っています。
ご清聴ありがとうございました。
2024.12.20
日本の約10倍がん患者が殺到し、病院はキャパオーバー ジャパンハートが描く医療の未来と、カンボジアに新病院を作る理由
2024.12.19
12万通りの「資格の組み合わせ」の中で厳選された60の項目 532の資格を持つ林雄次氏の新刊『資格のかけ算』の見所
2024.12.16
32歳で成績最下位から1年でトップ営業になれた理由 売るテクニックよりも大事な「あり方」
2023.03.21
民間宇宙開発で高まる「飛行機とロケットの衝突」の危機...どうやって回避する?
PR | 2024.12.20
モンスター化したExcelが、ある日突然崩壊 昭和のガス工事会社を生まれ変わらせた、起死回生のノーコード活用術
2024.12.12
会議で発言しやすくなる「心理的安全性」を高めるには ファシリテーションがうまい人の3つの条件
2024.12.18
「社長以外みんな儲かる給与設計」にした理由 経営者たちが語る、優秀な人材集め・会社を発展させるためのヒント
2024.12.17
面接で「後輩を指導できなさそう」と思われる人の伝え方 歳を重ねるほど重視される経験の「ノウハウ化」
2024.12.13
ファシリテーターは「しゃべらないほうがいい」理由 入山章栄氏が語る、心理的安全性の高い場を作るポイント
2024.12.10
メールのラリー回数でわかる「評価されない人」の特徴 職場での評価を下げる行動5選
Climbers Startup JAPAN EXPO 2024 - 秋 -
2024.11.20 - 2024.11.21
『主体的なキャリア形成』を考える~資格のかけ算について〜
2024.12.07 - 2024.12.07
Startup CTO of the year 2024
2024.11.19 - 2024.11.19
社員の力を引き出す経営戦略〜ひとり一人が自ら成長する組織づくり〜
2024.11.20 - 2024.11.20
「確率思考」で未来を見通す 事業を成功に導く意思決定 ~エビデンス・ベースド・マーケティング思考の調査分析で事業に有効な予測手法とは~
2024.11.05 - 2024.11.05