2024.12.19
システムの穴を運用でカバーしようとしてミス多発… バグが大量発生、決算が合わない状態から業務効率化を実現するまで
リンクをコピー
記事をブックマーク
山下慶将氏(以下、山下):「Open Policy AgentとSpinnakerで実現するマイクロサービスの安全な継続的デリバリー」というタイトルで発表いたします。よろしくお願いします。
はじめに自己紹介します。山下慶将と言います。Twitterは@_k_e_k_eでやっているので、よかったらフォローしてください。今はメルペイSREに所属していて、マイクロサービスプラットフォームのCI/CDチームで働いています。好きなプロダクトは、Kubernetesはもちろんですが、CI/CDに関連するプロダクトだったりサービスメッシュのプロダクトが好きです。
今日のスライドは後ほどTwitterでツイートするので、スライドだけご覧になりたい方はあとで見てください。
今日のアジェンダです。まずはじめにメルカリのマイクロサービスアーキテクチャの説明と、CI/CDの説明を最初にしたいと思います。そしてマイクロサービスアーキテクチャのCI/CDをしていく中でどのような問題があったのかを説明。その結果Open Policy AgentとSpinnakerの機能を導入することになった背景とその効果について説明して、最後にまとめをして終わりたいと思っています。
今日の発表のゴールとしては、マイクロサービスの継続的デリバリーの横断的な向上ができるようになることが目標です。今回トピックでOpen Policy AgentだったりSpinnakerのプロダクトがあるんですが、それに限らずマイクロサービスの継続的デリバリーの質が上げられればうれしいなと思っています。
最初にメルカリのマイクロサービスアーキテクチャを説明します。メルカリのマイクロサービスはそれぞれKubernetes NamespaceとGoogle Cloud Platform、GCPのProjectとSpinnakerのアプリケーションをもっています。
すべてのマイクロサービスは1つのGKEクラスタの中に入っていて、先ほど説明しましたNamespaceごとにマイクロサービスがホスティングされています。デプロイメントに限らずJobだったりとかConfigMapとかの関連するリソースもそのNamespaceの中にデプロイされています。
GCP Projectは、それぞれのマイクロサービスがそれぞれのGCP Projectを持っていて、クラウドリソースを作って使ったりしています。
次にメルカリのCI/CDについて説明しようと思います。メルカリのCIの対象は以下の2つに分けられます。まずマイクロサービスそのものであるアプリケーションコードのCI。そしてそれをGKEクラスタにデプロイするためのKubernetesマニフェストのCI、YAMLファイルのCIです。
ApplicationのCIはこのような構造になっています。それぞれのマイクロサービスがそれぞれのGitHubリポジトリにソースコードをプッシュ、レビューをしたりして開発をしています。そしてCircle CI上でテストをしたりコード解析したりして、GCPのCloud Buildを用いてマイクロサービスをビルドしています。その生成物であるDockerイメージをContainer Registryにプッシュしています。
次にKubernetes ManifestのCIです。Kubernetes Manifestには、すべてのマイクロサービスで使う1つのKubernetesリソースを置くリポジトリがあります。各マイクロサービスは、そのリポジトリにYAMLをプッシュして、それぞれのマイクロサービスでレビューしてCIを回しています。
実際に僕が2月にデプロイメントを作成したときのプルリクはこれです。自分のマイクロサービスのメンバーにレビューしてもらいました。
先ほどのアプリケーションのContainer RegistryとKubernetesリソースリポジトリにあるYAMLを使って、SpinnakerというCDプラットフォームを使ってKubernetes上にデプロイしています。これがメルカリのCDです。
それぞれのマイクロサービスはSpinnakerのアプリケーションを持っていて、それぞれのNamespaceにデプロイするという構成になっています。
デベロッパーは、それぞれのアプリケーションの中でパイプラインを定義して設定して、各マイクロサービスとしてデプロイしています。ここまでがメルカリのマイクロサービスアーキテクチャとCI/CDの簡単な紹介になります。
このようなマイクロサービスアーキテクチャのCI/CDを行っていますが、いくつか問題点があります。そもそも大前提として、マイクロサービスアーキテクチャは各マイクロサービスが自律的に開発サイクルを回していくという理念に根ざしています。なので会社として横断的なテストエンジニアやリリースエンジニアが居なくて、マイクロサービスのデベロッパーが開発してテストしてリリースをするような流れになっています。
そしてそれぞれのマイクロサービスで自律的に開発サイクルを回すので、すべてのマイクロサービスが他のマイクロサービスと同じようなことを同じレベルでできることはなくて、例えばメルカリという大きなサービス全体の視点で見てみると、質の担保というのがすごく難しくなってきます。
例えばKubernetes Manifestの例を取ってみると、組織として、「Labelがマイクロサービスの名前と一致していること」とか「Memory Limitを設定していること」「それが例えば10ギガバイト以下に設定していること」などのルールを設けていたときに、すべてのマイクロサービスでそれができていることを保証するということはすごく難しいです。
先ほど紹介したKubernetes ManifestのCIの中で1つのサービスがルールにそぐわないようなYAMLを作っていたとします。例えばNamespaceがマイクロサービスの名前に合っていないとか、imageのタグにlatestを使っているとか、CPU limitが明らかにおかしいとか。
これらのルールというのはKubernetesのソースの記述としては間違っているわけではないので、チームのレビューが通ればこれらのKubernetes Manifestがプロダクション環境に出てしまうことになります。
そして次にデプロイについてです。デベロッパーがデプロイの手法であったりとかデプロイの設定をそれぞれで行ってデプロイしているということを紹介しました。例えばマイクロサービスAでカナリアデプロイをしている、マイクロサービスCでBlue-Greenデプロイをしている、マイクロサービスBで例えばリスクが高いような適当なデプロイをしていると、このデプロイの差が結局はメルカリとしてのサービス全体の質に影響してきます。
なのでこれを顧みてマイクロサービスアーキテクチャの根ざしている各デベロッパーが自律的な開発サイクルを回していくという視点と、プラットフォーム的な視点、サービス全体の質を担保したりとか、それをより向上していくというのはすごい相性が悪いものです。
これからマイクロサービスがどんどん増えていく中で、じゃあメルカリとしてはサービスの質がどんどん落ちていくかというと、そうではなくて、そのためにマイクロサービスプラットフォームチームがプロジェクトを作って取り組みました。
問題点を整理すると、まずマイクロサービスがルール違反するようなリソースをKubernetesに対してApplyをしていたりとか、既にApplyされていたりして結果的にサービス全体の質が落ちてしまっているリスクを抱えてしまっているという問題点がありました。
そのようなことに対する解決策としては、デベロッパーがそれぞれ行うCI/CDサイクルの中でルール違反がないかを検証して、Applyを防ぐ仕組みを用意したりとか、Circle CIやSpinnakerがApplyリソースに限らずクラスタの上で違反しているリソースがないかをチェックする仕組み作り、そしてそれらのルールを定義して運用していく仕組みが必要だなと思っていました。
そのような背景からOpen Policy Agentというのを導入しました。
関連タグ:
2024.12.12
会議で発言しやすくなる「心理的安全性」を高めるには ファシリテーションがうまい人の3つの条件
2024.12.19
12万通りの「資格の組み合わせ」の中で厳選された60の項目 532の資格を持つ林雄次氏の新刊『資格のかけ算』の見所
2024.12.16
32歳で成績最下位から1年でトップ営業になれた理由 売るテクニックよりも大事な「あり方」
2023.03.21
民間宇宙開発で高まる「飛行機とロケットの衝突」の危機...どうやって回避する?
2024.12.10
メールのラリー回数でわかる「評価されない人」の特徴 職場での評価を下げる行動5選
2024.12.13
ファシリテーターは「しゃべらないほうがいい」理由 入山章栄氏が語る、心理的安全性の高い場を作るポイント
PR | 2024.12.20
モンスター化したExcelが、ある日突然崩壊 昭和のガス工事会社を生まれ変わらせた、起死回生のノーコード活用術
2024.12.18
「社長以外みんな儲かる給与設計」にした理由 経営者たちが語る、優秀な人材集め・会社を発展させるためのヒント
2024.12.12
今までとこれからで、エンジニアに求められる「スキル」の違い AI時代のエンジニアの未来と生存戦略のカギとは
PR | 2024.11.26
なぜ電話営業はなくならない?その要因は「属人化」 通話内容をデータ化するZoomのクラウドサービス活用術
Climbers Startup JAPAN EXPO 2024 - 秋 -
2024.11.20 - 2024.11.21
『主体的なキャリア形成』を考える~資格のかけ算について〜
2024.12.07 - 2024.12.07
Startup CTO of the year 2024
2024.11.19 - 2024.11.19
社員の力を引き出す経営戦略〜ひとり一人が自ら成長する組織づくり〜
2024.11.20 - 2024.11.20
「確率思考」で未来を見通す 事業を成功に導く意思決定 ~エビデンス・ベースド・マーケティング思考の調査分析で事業に有効な予測手法とは~
2024.11.05 - 2024.11.05