2024.12.24
ビジネスが急速に変化する現代は「OODAサイクル」と親和性が高い 流通卸売業界を取り巻く5つの課題と打開策
Verda Reliability Engineeringチームについて(全1記事)
提供:LINE株式会社
リンクをコピー
記事をブックマーク
山田英樹氏:VRE(Verda Reliability Engineering)チームの山田です。VREチームはVerdaの中でSREの役割を担っているチームです。これから詳細について説明していきます。
(スライドを示して)先ほど市原さんの説明からもありましたが、こちらはLINEのPrivate CloudであるVerdaが抱えているサーバーとか、インスタンスの規模です。この数のインスタンスとか物理サーバーに対して、Reliabilityの責任を負っています。
具体的なロールは何かですが、こういったReliabilityを改善する活動を通じて、LINEのサービスを開発する人たち、我々はVerdaユーザーと呼んでいますが、アプリケーションデベロッパーと、今回この説明会に参加している、Verdaのサービス自体を開発している他のチームの開発者の両方の助けになることを目指しています。
VREチームでは大きく2つの役割を持っています。1つ目はPlatform-wide solutionということで、Verda全体を対象として運用の効率化とか、運用の自動化に取り組んでいるチームです。
2つ目がInfra resource management。こちらはVerdaを構成している物理インフラです。実際のサーバー全般の構築とか調達、管理・運用。そういったところを担っています。
まずは1つ目のPlatform-wide solutionについて詳しく説明をしていきます。具体的な役割としては、Verdaのプラットフォームに対するモニタリングや、Observabilityを標準化したり仕組みを実装したりしています。それと、日々発生する運用の自動化を行うためのツール、枠組みのようなところです。
Verda全体で使えるような枠組みを開発したり、あるいはUXを高めるための企画を行ったりしています。VREチームは具体的にユーザーに提供するプロダクトを持っているわけではありませんが、こういったところを通じて価値を提供するということです。
このPlatform-wide solutionの具体的なプロジェクトで、最近どんなものがあったのかを紹介します。プロジェクトの例として、1つ目はメトリクスのストレージです。
みなさんPrometheus(というものを)を聞いたことがあるかと思います。サーバーのメトリクスですね。CPU使用率とか、メモリの使用量とか、ディスクの使用量とか、ネットワークのトラフィック量とか。そういったメトリクスのデータを統一的に保管して、統一的なダッシュボードで表示をするための仕組みの開発・設計だったり、各チームとの調整を行って、この仕組みにどんどんマイグレーションしていくような取り組みを行っていました。
その中でアラートも扱っていて、メトリクスに異常があった時にアラートを発報して、そのアラーティングのサービスからオンコールのメンバーに電話をかけて障害対応をしてもらうとか、そういった仕組みを取り扱っています。
2つ目はメトリクスと並んで重要なログです。アプリケーションのログを1ヶ所に一気に保存するような仕組みの統一を目指して、いろいろ動いていました。HDFS(Hadoop Distributed File System)とElasticsearchの基盤が社内にありますが、この基盤に対して保存するためのキャパシティの設計とか、いろいろな効率化とか、「統一的にログを検索する時にどうやったらいいか」という手順を作ったり検証をしたり、そういったことです。
あとはユーザー向けのドキュメントサイト。今までwikiにいろいろ書かれていましたが、なかなか統一的なものがなかったものを統一化したりとか。先ほど言った、オペレーションを自動化するためにChatOps的な仕組みを作ったり、そのSlack botを開発したりしています。
もう1つのInfra resource managementの役割について説明すると、物理インフラを扱っているということです。一番大きいのはハイパーバイザーです。7,600台あるハイパーバイザーを管理するというところで、スペックを標準化したり。
あとは「VMをどれくらい作れるか」というキャパシティとか、VMが隣のVMに悪影響を及ぼしていないか・負荷をかけていないかみたいなモニタリングをしたり、その仕組み自体を開発したりしています。
2つ目としては、LINEの社内で使われているサーバーOSです。統一的にCentOSとRocky Linuxを使っていますが、このOSイメージをVerdaに組み込むためのいろいろなスクリプトを開発したり。あとは、OSレイヤーで何か問題が起こった時にはトラブルシューティングをしたり、「こういった機能を入れてほしい」というユーザーから要望があれば、それをコンサルティングして対応したりしています。
あとは、Verda自身も社内システムの1つですが、LINE社内には他にもいろいろシステムがあります。そことの連携でいろいろなシステム間連携があるわけですが、それがうまく動いていないとか、向こうのシステムの仕様変更があってそこを変えなきゃいけないとか、そういったところに対応して、しっかり連携を継続できるような取り組みを行っています。
Infra resource managementのプロジェクト例としては、先ほど市原さんから説明もあった、Multi-AZというものがありました。これまでのVerdaはリージョンは複数あったものの、東京リージョンの中で複数のAZ、データセンターがあるという状況はありませんでした。これが導入されたことによって、サーバーの在庫管理とか、調達を効率的に行う、計画的に行うことの複雑度が急に増しています。
また、複数データセンターを使うのもVerdaユーザーにとっては初めてなので、いろいろトラブルがあったりしました。そのトラブルシューティング、原因を追求したり、原因がわかったら「じゃあこのデータセンターは使えないから別のデータセンターを使いましょう」などのコンサルティングをしたりしていました。
2つ目が、ハイパーバイザーのライフサイクルの確立です。実はVerdaは立ち上がってから5年ぐらいで、一番古いハイパーバイザーの保守がちょうど切れる期間になってきていて、どんどん廃棄して入れ替えなきゃいけない時期に来ています。
そのフローが確立していない状況なので、この標準的なフローを確立して継続的に実行していくような仕組みを作ることが重要な役割となっています。
VREチームが求める人材像ですが、プロダクトを持っているわけではないのでバリバリ開発するわけではないのですが、やはり自動化とか、効率化をして少ない人数で大量のサーバーを扱うためには、プログラミングが必須です。
そのため、基礎的なプログラミング能力は求めています。基本的には問題解決をするチームなので、トラブルシューティングが好きとか得意であるとか、組織的な課題をリードして解決に導ける人を募集しています。
2つのポジションがありますが、どちらでも我々のチームに行きますので、どちらも応募をお待ちしています。よろしくお願いします。
VREチームからの説明は以上です。
LINE株式会社
関連タグ:
2025.01.16
社内プレゼンは時間のムダ パワポ資料のプロが重視する、「ペライチ資料」で意見を通すこと
2025.01.20
組織で評価されない「自分でやったほうが早い病」の人 マネジメント層に求められる「部下を動かす力」の鍛え方
2025.01.21
言われたことしかやらないタイプの6つの言動 メンバーが自主的に動き出すリーダーのマインドセット
2025.01.15
若手がごろごろ辞める会社で「給料を5万円アップ」するも効果なし… 従業員のモチベーションを上げるために必要なことは何か
2025.01.14
目標がなく悩む若手、育成を放棄する管理職… 社員をやる気にさせる「等級制度」を作るための第一歩
2025.01.21
今までの1on1は「上司のための時間」になりがちだった “ただの面談”で終わらせない、部下との対話を深めるポイント
2025.01.07
1月から始めたい「日記」を書く習慣 ビジネスパーソンにおすすめな3つの理由
2025.01.14
コンサルが「理由は3つあります」と前置きする理由 マッキンゼー流、プレゼンの質を向上させる具体的Tips
2025.01.22
部下に言いづらいことを伝える時のリーダーの心得 お願いを快く引き受けてもらう秘訣
2025.01.09
マッキンゼーのマネージャーが「資料を作る前」に準備する すべてのアウトプットを支える論理的なフレームワーク
チームの生産性を上げるマネジメント術
2024.12.11 - 2024.12.11
特別対談「伝える×伝える」 ~1on1で伝えること、伝わること~
2024.12.16 - 2024.12.16
安野たかひろ氏・AIプロジェクト「デジタル民主主義2030」立ち上げ会見
2025.01.16 - 2025.01.16
国際コーチング連盟認定のプロフェッショナルコーチ”あべき光司”先生新刊『リーダーのためのコーチングがイチからわかる本』発売記念【オンラインイベント】
2024.12.09 - 2024.12.09
NEXT Innovation Summit 2024 in Autumn特別提供コンテンツ
2024.12.24 - 2024.12.24