2024.10.10
将来は卵1パックの価格が2倍に? 多くの日本人が知らない世界の新潮流、「動物福祉」とは
サービスメッシュを導入してよかった話(全1記事)
リンクをコピー
記事をブックマーク
江頭宏亮氏:ご紹介ありがとうございます。「サービスメッシュを導入してよかった話」というタイトルでお話させていただきます。よろしくお願いします。
まず軽く自己紹介をさせてください。2018年4月にサイバーエージェントに入社して、今はCATS(Client Advanced Technology Studio)という組織に所属しています。今回はインフラが主な話になるんですが、ふだんはソフトウェアの開発もインフラも両方やっています。入社直後からWinTicketというサービスの開発に携わっていてサーバサイドのリーダーをやっています。
WinTicketというサービスはどういったものかというと、オンラインで競輪の投票券を購入ができるサービスです。競輪の投票ができるだけでなく、全国の競輪場43ヶ所のレース映像も同時に見られるようになっていて、その映像を見ながら競輪を楽しめるようなサービスを提供しています。
WinTicketでサービスメッシュを導入してよかったので、その話を今回させていただけたらと思います。
本日話すことは、サービスメッシュを導入した経緯や、サービスメッシュでどんなことをやっているのか、導入してよかったことを話させていただきます。サービスメッシュを構築するためのミドルウェアがいろいろありますが、本日はあまり時間がないので、その機能比較や詳細な使い方は割愛させていただきます。
まず前提としてWinTicketは、メインはGCP・GKEを使っています。ライブ配信の部分に関してはAWSのElemental Media Servicesを使っています。
ざっとこんな感じです。
マイクロサービスアーキテクチャのアンバサダーパターンを採用しています。アンバサダーパターンというのは、外部とマイクロサービスが通信をするときにプロキシを活用する方式です。マイクロサービスアーキテクチャで必要になるロギングや負荷分散、サーキットブレーキング、リトライといった共通機能をプロキシに任せています。
採用した理由としては、こういったロギングや負荷分散などの状況処理をプロキシに任せて、アプリケーションの開発に集中したいというところと、サーキットブレーキングやリトライといった機能を入れて可用性の高いシステムを構築したいということです。
アンバサダーパターンを具体的に実現するためにEnvoyというプロキシを採用しました。Envoyの説明を軽くすると、Liftという会社が作ったオープンソースのL7プロキシです。サイドカーとして使えるように設計されていて、gRPCにも対応しています。なので、gRPCのステータスコードとかを見て、ハンドリングやルーティングすることも可能です。
最近だったら、Istioがけっこう話題になっていて「なんでIstioを使わなかったの?」と思う方もいるかもしれないんですが、2018年の4月に技術選定をしていて、そのときIstioのコンポーネントのほとんどがBetaやAlphaだったので、この時点ではとくにIstioを使わずEnvoyだけを使う選択にしました。それに加えて、幸いにも社内でいくつか導入事例があったので、そういった経緯でEnvoyというプロキシの使用を採用しました。
まずEnvoyの説明を軽くさせてください。Envoyをアプリケーションのサイドカーとして利用しています。スライド下の図みたいにアプリケーションとサイドカーにEnvoyを置いて1つのPodを構成しています。アプリケーションが外部と通信するときはEnvoyを経由するように設定しています。
Envoyは同じマイクロサービスを束ねてクラスタを作ります。そして、Envoyはクラスタの管理を担うと捉えてもらえればいいかなと思います。なので、ここで複数のServiceAをまとめてClusterAというものを作ります。
例えばServiceAの3つのうちどれかがインフラの不具合などでunhealthyになるとか、うまく機能しなくなったときにEnvoyは自動的にそれをクラスタから取り除いてくれるとか、逆にスケールアウトをしたときに、4つ目のServiceが追加されたら、EnvoyがClusterAに対して4つ目のServiceAを追加してくれます。
例えばゲートウェイサービス、ユーザサービス、競輪サービス、ブローカーサービス などがあったとき、それぞれのアプリケーションのサイドカーにEnvoyがあり、そのEnvoy同士がつながって通信を行うことでサービスメッシュを構築してます。
WinTicketで、具体的にEnvoyでやっていることをスライドにまとめました。アプリケーションの開発に集中するためにEnvoyに委譲している処理と、可用性を向上させるために委譲している処理の2つの軸に分けて書いています。それぞれの詳細を説明したいと思います。
まずアプリケーションの開発に集中できるようにするためにEnvoyに任せている機能は、この5つになります。まずLoggingの部分はアクセスログをアプリケーション層で収集するのではなく、完全にEnvoyに任せています。Envoyでレイテンシーやリクエストボディのサイズ、レスポンスボディのサイズなどを取れます。
次にService Discoveryです。EnvoyはいくつかのService Discoveryのタイプが選べて、マイクロサービスのレプリカの数が増えたり減ったりしたときにクラスタに自動的に追加・削除してくれます。
次にLoad Balancingです。gRPCとRESTのリクエストで利用しています。gRPCは一度コネクションを張ると、それをずっと使い続けるので負荷分散をする場合はソフトウェアレベルで工夫しなければならないのですが、Envoyのロードバランシングでやることでソフトウェアの部分では負荷分散などを意識しないで済むようにしています。
あとはConnection PoolingとStatisticsです。Envoyは標準でPrometheusの正式なメトリクスが出せるので、それを使うことでコネクションをどれぐらい取っているか、エラーレートといったものも収集できます。
次に可用性の向上のために、この4つの処理をEnvoyにしてもらっています。まず1つがHealth Checkです。Envoyがアプリケーションに対してヘルスチェックを定期的に行い、しきい値を超えたらunhealthyとしてくれてクラスタから取り除いてくれます。
他にもOutlier Detectionといった機能も使っています。例えば500系が5回連続発生したらそのPodは以上が発生しているとみなして、一定時間クラスタから除くことができます。なのでそういった機能も入れています。
次にCircuit Breakingです。これは過剰なリクエストとかコネクションがきたときに、即座に503を返すことでアプリケーションがスローダウンしてしまうことや、クラッシュしてしまうのを防ぐために入れています。
あと地味に便利なのはRetryです。特定のHTTPのステータスコード、もしくはgRPCのステータスコードが返ってきたときに特定の回数をリトライさせることが可能です。稀に発生するような一時的なエラーでもプロキシレイヤーでリトライしてもらえるので、可用性の向上にはかなりつながっていると思います。
最後にまとめです。アクセスログや負荷分散、サービスディスカバリーといったものをEnvoyの部分に委譲できたのでソフトウェアエンジニアはビジネスロジックの実装に集中することができました。さらにリトライだったりOutlier Detection、サーキットブレーキングなどの機能を使うことで万が一インフラ面の障害が発生しても影響を少なくできるという部分でサービスメッシュを導入して本当によかったなと思いました。
以上です。ありがとうございました。
(会場拍手)
2024.11.13
週3日働いて年収2,000万稼ぐ元印刷屋のおじさん 好きなことだけして楽に稼ぐ3つのパターン
2024.11.11
自分の「本質的な才能」が見つかる一番簡単な質問 他者から「すごい」と思われても意外と気づかないのが才能
2024.11.13
“退職者が出た時の会社の対応”を従業員は見ている 離職防止策の前に見つめ直したい、部下との向き合い方
2024.11.12
自分の人生にプラスに働く「イライラ」は才能 自分の強みや才能につながる“良いイライラ”を見分けるポイント
2023.03.21
民間宇宙開発で高まる「飛行機とロケットの衝突」の危機...どうやって回避する?
2024.11.11
気づいたら借金、倒産して身ぐるみを剥がされる経営者 起業に「立派な動機」を求められる恐ろしさ
2024.11.11
「退職代行」を使われた管理職の本音と葛藤 メディアで話題、利用者が右肩上がり…企業が置かれている現状とは
2024.11.18
20名の会社でGoogleの採用を真似するのはもったいない 人手不足の時代における「脱能力主義」のヒント
2024.11.12
先週まで元気だったのに、突然辞める「びっくり退職」 退職代行サービスの影響も?上司と部下の“すれ違い”が起きる原因
2024.11.14
よってたかってハイリスクのビジネスモデルに仕立て上げるステークホルダー 「社会的理由」が求められる時代の起業戦略