2024.12.19
システムの穴を運用でカバーしようとしてミス多発… バグが大量発生、決算が合わない状態から業務効率化を実現するまで
Verda室の紹介(全1記事)
提供:LINE株式会社
リンクをコピー
記事をブックマーク
山田英樹氏:私からはVerda室の紹介と、私たちのVREチームの募集中のポジションについて説明したいと思います。
「Verdaとは何か?」ですが、LINE内にあるプライベートクラウドです。これの上で、LINEが提供している、かなりの数のサービスがホストされています。
Verdaの中身がどうなっているかですが、AWSやGCPみたいなものをイメージしてもらえればいいと思います。中身はOpenStackというOSSを中心に作られています。VM、ベアメタルを中心として、Kubernetesやストレージ系のサービスだったり。あとMySQLやRedisをプロビジョニングするサービスもあります。
Verdaのチーム構成ですが、基本的にそれぞれのプロダクトに対してチームがあります。今回はそれらのチームを横断的に見て、信頼性向上に関する活動を行う、SREのチームの紹介になります。
VerdaのSREチームは、“VRE”という名前で活動しています。VREチームの役割としては、LINEの開発者の人たちと、Verdaを作っている人たちを支援することで、それを通じて信頼性向上をしていくところをミッションにしています。
現在2つのユニットで活動していて、共通的なCI/CDやデプロイメントの基盤、モニタリングの基盤を作成しているようなプラットフォームSREチーム。そして今回紹介する、インフラ管理を行っているチームの2つに分かれて活動をしています。
私たちインフラマネジメントユニットの紹介です。どんなことをしているか。けっこう広い範囲なので、一言で言うとHypervisorやVMに関すること全般という感じです。
VMはHypervisorと呼ばれる物理マシンの上で動作します。そのHypervisorの残り容量をモニタリングして必要に応じて増設することをしています。また、どんどん新しいCPUなども出てきて、古いサーバーは保守も切れて撤退しなければいけないことになるので、そのライフサイクルの管理やチューニング、管理コスト低減をさせるための自動化・標準化など、さまざまなことをやっています。
雑用係と言うとちょっと聞こえは悪いかもしれませんが、それ以外のVerda内で発生するような非定型のオペレーションや、トラブルシューティングなども担当しています。例えば、LinuxのCentOSが7.8から7.9になった時に、これまで問題なく動いていた標準ツールが動かなくなってしまうようなことが発生します。その時にトラブルシューティングをして、修正したり。
システムデベロップメントチームのほうで、社内の資産管理のシステムを作っているなどの話もありましたが、そのあたりと、Verdaのシステムの連携をする部分の面倒を見たりしています。
また、OpenStackやベアメタルに関するシステムのトラブルシューティングや、自動的に処理できないようなリクエストが来た場合のマニュアルオペレーションをしたりをしています。
このVerdaのインフラ管理に関する課題です。Verdaの利用者からはいろいろなリクエストがあります。大きなリソースのサーバー、VMを使いたいとか。例えばデータベースで使う場合は、メモリが大容量でディスクも大容量、I/O性能が高いVMが欲しいとか。
非常にコアなサービスで使うために、処理の遅延があるとサービスの品質低下になってしまうので、サーバーを専有して使いたいとか。ある特定のラックに固めてサーバーを置きたいとか。例えば何かのプロモーションを打ったり、バズったりでサービスの利用者が急に増えたから、今すぐサーバーを増設したいとか。そういった、さまざまな要求があります。
こういったものに応えていきますが、課題はいろいろあります。ベアメタルサーバーを使うと、大きなリソースが使えて安定的に運用できる一方で、データセンターのラックの1ユニット、ないしは2ユニットを完全に占有してしまうし、運用もVMと比べるとちょっと手間がかかります。そのためインフラチームとしては、できるだけVMを使ってほしいジレンマがあります。
また、クラウド系の知識がある方は知っているかもしれませんが、VMにはNoisy neighborという問題があり、同じ物理マシン上で動いている、隣にいるVMがたくさんCPU使っている時や、ディスクの書き込みをたくさんしている時にその影響を受けて、安定した性能が出ないようなことが起きたりします。
あとキャパシティの問題としては、スペースが限られているし、実際に足りないとなりサーバーを注文しても、納品まで数ヶ月かかります。「明日増設したい」というクラウドの要求に「ちょっと数ヶ月待ってください」とはなかなか言いづらいわけです。
こういったところで、どうやって運用をよくしていくかということで、最近あった具体的な取り組みを2つ紹介したいと思います。
1つ目がRich VMというものです。通常VMでは1つのマシン上に10台、20台動かして使うものですが、こちらはPM、物理マシンを使ってサービス開発していたチームに向けて、できるだけ安定した性能、低遅延を提供するために、1台の物理サーバー上で、たかだか4台ぐらいのVMが動くように設計したものです。
リソースのサイズをチューニングしたり、Hypervisor上のQEMUの設定やカーネルパラメーターなどを、密度ではなくて性能重視になるようにチューニングをしたり、いろいろな工夫をしています。
リリースして半年ぐらい運用をしていますが、いろいろ課題が発生しています。1つ目は、「やはりベアメタルがいい」「物理マシンがいい」と言う開発者が非常に多くて、そういう人たちにどうやって利用促進していくかという難しさ。
あとは普通のVMであれば10台、20台載るので、多少VMスペックがバラついたとしても全体としてはうまくならされて収まりますが、物理サーバー上で2台、4台しか載らない設計だと、偏りがキャパシティ全体に影響するようなことが起きたりしていました。こちらは順次取り組み中の内容です。
もう1つの最近のトピックとしては、キャパシティ管理がすごく難しくなっている状況があります。Rich VMもそうですし、ほかにもMySQLのデータベースとか、Redis専用とか、必要とする性能の特性が異なるVMがたくさんあり、それぞれ別のグループで管理しています。
また、LINEはデータセンターをどんどん増設していて、ネットワークなどの仕様もどんどん新しくしているので、それぞれのデータセンター間で同じ在庫を共有できません。旧データセンター、新しいデータセンター、古いデータセンターの部屋を新しい仕様に改造した新データセンターなど、どんどん増えていきます。
このグループ数とデータセンター数という組み合わせで、何十というグループができてしまって、それぞれのキャパシティ管理をしなければいけない。一言でキャパシティ管理と言っても、実際には物理サーバーの発注、管理など、いろいろ構築したりも含まれるので、非常に煩雑になっている状況です。
これを解決しようとしている、Hypervisorの標準化や高密度化。あと古いデータセンターの環境をどんどん廃棄していくために、マイグレーションを促進していくような機能検討をしたりしています。
スライドは読み上げませんが、ほかにも取り組みがあります。必要なスキルとしては、仮想化に関する知識や、プログラミングできる方をお待ちしています。よろしくお願いします。
LINE株式会社
関連タグ:
2024.12.20
日本の約10倍がん患者が殺到し、病院はキャパオーバー ジャパンハートが描く医療の未来と、カンボジアに新病院を作る理由
2024.12.19
12万通りの「資格の組み合わせ」の中で厳選された60の項目 532の資格を持つ林雄次氏の新刊『資格のかけ算』の見所
2024.12.16
32歳で成績最下位から1年でトップ営業になれた理由 売るテクニックよりも大事な「あり方」
2023.03.21
民間宇宙開発で高まる「飛行機とロケットの衝突」の危機...どうやって回避する?
PR | 2024.12.20
モンスター化したExcelが、ある日突然崩壊 昭和のガス工事会社を生まれ変わらせた、起死回生のノーコード活用術
2024.12.12
会議で発言しやすくなる「心理的安全性」を高めるには ファシリテーションがうまい人の3つの条件
2024.12.18
「社長以外みんな儲かる給与設計」にした理由 経営者たちが語る、優秀な人材集め・会社を発展させるためのヒント
2024.12.17
面接で「後輩を指導できなさそう」と思われる人の伝え方 歳を重ねるほど重視される経験の「ノウハウ化」
2024.12.13
ファシリテーターは「しゃべらないほうがいい」理由 入山章栄氏が語る、心理的安全性の高い場を作るポイント
2024.12.10
メールのラリー回数でわかる「評価されない人」の特徴 職場での評価を下げる行動5選
Climbers Startup JAPAN EXPO 2024 - 秋 -
2024.11.20 - 2024.11.21
『主体的なキャリア形成』を考える~資格のかけ算について〜
2024.12.07 - 2024.12.07
Startup CTO of the year 2024
2024.11.19 - 2024.11.19
社員の力を引き出す経営戦略〜ひとり一人が自ら成長する組織づくり〜
2024.11.20 - 2024.11.20
「確率思考」で未来を見通す 事業を成功に導く意思決定 ~エビデンス・ベースド・マーケティング思考の調査分析で事業に有効な予測手法とは~
2024.11.05 - 2024.11.05