2024.10.10
将来は卵1パックの価格が2倍に? 多くの日本人が知らない世界の新潮流、「動物福祉」とは
サービスメッシュを導入してよかった話(全1記事)
リンクをコピー
記事をブックマーク
江頭宏亮氏:ご紹介ありがとうございます。「サービスメッシュを導入してよかった話」というタイトルでお話させていただきます。よろしくお願いします。
まず軽く自己紹介をさせてください。2018年4月にサイバーエージェントに入社して、今はCATS(Client Advanced Technology Studio)という組織に所属しています。今回はインフラが主な話になるんですが、ふだんはソフトウェアの開発もインフラも両方やっています。入社直後からWinTicketというサービスの開発に携わっていてサーバサイドのリーダーをやっています。
WinTicketというサービスはどういったものかというと、オンラインで競輪の投票券を購入ができるサービスです。競輪の投票ができるだけでなく、全国の競輪場43ヶ所のレース映像も同時に見られるようになっていて、その映像を見ながら競輪を楽しめるようなサービスを提供しています。
WinTicketでサービスメッシュを導入してよかったので、その話を今回させていただけたらと思います。
本日話すことは、サービスメッシュを導入した経緯や、サービスメッシュでどんなことをやっているのか、導入してよかったことを話させていただきます。サービスメッシュを構築するためのミドルウェアがいろいろありますが、本日はあまり時間がないので、その機能比較や詳細な使い方は割愛させていただきます。
まず前提としてWinTicketは、メインはGCP・GKEを使っています。ライブ配信の部分に関してはAWSのElemental Media Servicesを使っています。
ざっとこんな感じです。
マイクロサービスアーキテクチャのアンバサダーパターンを採用しています。アンバサダーパターンというのは、外部とマイクロサービスが通信をするときにプロキシを活用する方式です。マイクロサービスアーキテクチャで必要になるロギングや負荷分散、サーキットブレーキング、リトライといった共通機能をプロキシに任せています。
採用した理由としては、こういったロギングや負荷分散などの状況処理をプロキシに任せて、アプリケーションの開発に集中したいというところと、サーキットブレーキングやリトライといった機能を入れて可用性の高いシステムを構築したいということです。
アンバサダーパターンを具体的に実現するためにEnvoyというプロキシを採用しました。Envoyの説明を軽くすると、Liftという会社が作ったオープンソースのL7プロキシです。サイドカーとして使えるように設計されていて、gRPCにも対応しています。なので、gRPCのステータスコードとかを見て、ハンドリングやルーティングすることも可能です。
最近だったら、Istioがけっこう話題になっていて「なんでIstioを使わなかったの?」と思う方もいるかもしれないんですが、2018年の4月に技術選定をしていて、そのときIstioのコンポーネントのほとんどがBetaやAlphaだったので、この時点ではとくにIstioを使わずEnvoyだけを使う選択にしました。それに加えて、幸いにも社内でいくつか導入事例があったので、そういった経緯でEnvoyというプロキシの使用を採用しました。
まずEnvoyの説明を軽くさせてください。Envoyをアプリケーションのサイドカーとして利用しています。スライド下の図みたいにアプリケーションとサイドカーにEnvoyを置いて1つのPodを構成しています。アプリケーションが外部と通信するときはEnvoyを経由するように設定しています。
Envoyは同じマイクロサービスを束ねてクラスタを作ります。そして、Envoyはクラスタの管理を担うと捉えてもらえればいいかなと思います。なので、ここで複数のServiceAをまとめてClusterAというものを作ります。
例えばServiceAの3つのうちどれかがインフラの不具合などでunhealthyになるとか、うまく機能しなくなったときにEnvoyは自動的にそれをクラスタから取り除いてくれるとか、逆にスケールアウトをしたときに、4つ目のServiceが追加されたら、EnvoyがClusterAに対して4つ目のServiceAを追加してくれます。
例えばゲートウェイサービス、ユーザサービス、競輪サービス、ブローカーサービス などがあったとき、それぞれのアプリケーションのサイドカーにEnvoyがあり、そのEnvoy同士がつながって通信を行うことでサービスメッシュを構築してます。
WinTicketで、具体的にEnvoyでやっていることをスライドにまとめました。アプリケーションの開発に集中するためにEnvoyに委譲している処理と、可用性を向上させるために委譲している処理の2つの軸に分けて書いています。それぞれの詳細を説明したいと思います。
まずアプリケーションの開発に集中できるようにするためにEnvoyに任せている機能は、この5つになります。まずLoggingの部分はアクセスログをアプリケーション層で収集するのではなく、完全にEnvoyに任せています。Envoyでレイテンシーやリクエストボディのサイズ、レスポンスボディのサイズなどを取れます。
次にService Discoveryです。EnvoyはいくつかのService Discoveryのタイプが選べて、マイクロサービスのレプリカの数が増えたり減ったりしたときにクラスタに自動的に追加・削除してくれます。
次にLoad Balancingです。gRPCとRESTのリクエストで利用しています。gRPCは一度コネクションを張ると、それをずっと使い続けるので負荷分散をする場合はソフトウェアレベルで工夫しなければならないのですが、Envoyのロードバランシングでやることでソフトウェアの部分では負荷分散などを意識しないで済むようにしています。
あとはConnection PoolingとStatisticsです。Envoyは標準でPrometheusの正式なメトリクスが出せるので、それを使うことでコネクションをどれぐらい取っているか、エラーレートといったものも収集できます。
次に可用性の向上のために、この4つの処理をEnvoyにしてもらっています。まず1つがHealth Checkです。Envoyがアプリケーションに対してヘルスチェックを定期的に行い、しきい値を超えたらunhealthyとしてくれてクラスタから取り除いてくれます。
他にもOutlier Detectionといった機能も使っています。例えば500系が5回連続発生したらそのPodは以上が発生しているとみなして、一定時間クラスタから除くことができます。なのでそういった機能も入れています。
次にCircuit Breakingです。これは過剰なリクエストとかコネクションがきたときに、即座に503を返すことでアプリケーションがスローダウンしてしまうことや、クラッシュしてしまうのを防ぐために入れています。
あと地味に便利なのはRetryです。特定のHTTPのステータスコード、もしくはgRPCのステータスコードが返ってきたときに特定の回数をリトライさせることが可能です。稀に発生するような一時的なエラーでもプロキシレイヤーでリトライしてもらえるので、可用性の向上にはかなりつながっていると思います。
最後にまとめです。アクセスログや負荷分散、サービスディスカバリーといったものをEnvoyの部分に委譲できたのでソフトウェアエンジニアはビジネスロジックの実装に集中することができました。さらにリトライだったりOutlier Detection、サーキットブレーキングなどの機能を使うことで万が一インフラ面の障害が発生しても影響を少なくできるという部分でサービスメッシュを導入して本当によかったなと思いました。
以上です。ありがとうございました。
(会場拍手)
2024.10.29
5〜10万円の低単価案件の受注をやめたら労働生産性が劇的に向上 相見積もり案件には提案書を出さないことで見えた“意外な効果”
2024.10.24
パワポ資料の「手戻り」が多すぎる問題の解消法 資料作成のプロが語る、修正の無限ループから抜け出す4つのコツ
2024.10.28
スキル重視の採用を続けた結果、早期離職が増え社員が1人に… 下半期の退職者ゼロを達成した「関係の質」向上の取り組み
2024.10.22
気づかぬうちに評価を下げる「ダメな口癖」3選 デキる人はやっている、上司の指摘に対する上手な返し方
2024.10.24
リスクを取らない人が多い日本は、むしろ稼ぐチャンス? 日本のGDP4位転落の今、個人に必要なマインドとは
2024.10.23
「初任給40万円時代」が、比較的早いうちにやってくる? これから淘汰される会社・生き残る会社の分かれ目
2024.10.23
「どうしてもあなたから買いたい」と言われる営業になるには 『無敗営業』著者が教える、納得感を高める商談の進め方
2024.10.28
“力を抜くこと”がリーダーにとって重要な理由 「人間の達人」タモリさんから学んだ自然体の大切さ
2024.10.29
「テスラの何がすごいのか」がわからない学生たち 起業率2年連続日本一の大学で「Appleのフレームワーク」を教えるわけ
2024.10.30
職場にいる「困った部下」への対処法 上司・部下間で生まれる“常識のズレ”を解消するには