2024.12.19
システムの穴を運用でカバーしようとしてミス多発… バグが大量発生、決算が合わない状態から業務効率化を実現するまで
インフラコース システム(全1記事)
提供:LINE株式会社
リンクをコピー
記事をブックマーク
木村智洋氏:ITサービスセンターのシステム室の木村と申します。よろしくお願いします。大きな会社の組織的な話から始まるんですが、まずはITサービスセンターというところがあります。LINEに関するすべてのサービスのインフラを1つの部署が提供しています。
他の会社だと、1つのサービスにつきインフラエンジニア、もしくはインフラをやっている人たちがいるというところが多くあると思います。LINEの場合は、サービスをやっている開発部隊だったり、サービスを提供している部隊だったりが縦にいて、それを僕たちがインフラとしてすべて提供しています。
(スライドを示して)上からLINEのユーザーがいて、LINEのビジネスをやっている人たちがフロントにいます。その後ろに開発組織がいて、例えばLINEのコミュニケーションサービス、Family App、広告プラットフォームなどが個別に開発組織としてあります。そこに対してインフラエンジニア、ITサービスセンターというところが同じインフラを提供しているという流れになっています。
(スライドを示して)これはITサービスセンターとしてのミッションです。3つあります。「インフラサービスを通じて、ビジネス課題を根本的なレベルで解決することでビジネスを加速させる」。「LINERが仕事に専念できる環境を提供して、インフラサービスの業務の最適化を目指す」。「安定的で信頼性のあるインフラサービスにより、LINEユーザーとLINEサービスの距離を縮める」というのが、私たちITサービスセンターの大きなミッションになっています。
LINEのインフラの規模感です。物理サーバーでいうと7万台強あります。その上で動いている仮想サーバーが10万ノードあります。物理サーバー単品として動いているサーバーもあり、一部はハイパーバイザーでその上に仮想サーバーが載っています。ネットワーク的なトラフィックですが、LINEから外部に出てくるトラフィックでいうと、3Tbps強あります。これがLINE全体のインフラの規模感になっています。
LINEのインフラエンジニアの技術スコープですが、基本的にはOSの下からデータセンターまでをやっています。それプラス、ミドルウェアとしてデータベースや、ストレージもやっています。なので、スタックの下からいくとデータセンターもやっていますし、サーバー、ハードウェアも見ています。あとはネットワークのハードウェアも見ています。
あとはプライベートクラウドとしてインフラストラクチャのプラットフォームがあって、その上でベアメタルのサービスを提供していたり、ハイパーバイザーを準備してVM(仮想マシン)を提供しています。その上にOSというもの……特にLinux、CentOSを使っています。その上のライブラリやアプリケーションは基本的にはインフラエンジニアのOut of Scopeになっています。
例えばNginxを見たりなどはあまり多くはないです。ただ、インフラストラクチャのプライベートクラウドでは一部当然Nginxで動く何かがあったりするので、まったく触れないというわけではないですし、そこの知識も不要というわけではありません。
ここまで少しITサービスセンターという大きな部署の説明をしましたが、ここからはシステム室としての技術スコープをお話しします。システム室は、物理的なサーバーのハードウェア、そしてそれに対するベアメタルとしてサービスを提供していたり、VMの一部も見ています。それからOS、Linuxだったり、Windows Serverも見ています。このあたりが大きなターゲットになります。
当然他の部署との関わりもあります。データセンターに関わっていたり、ネットワークにも関わっていたりします。あとはアプライアンス系のストレージとして、サービスを提供しているところもあります。
システム室のチームの構成と仕事内容です。今はチームは少し変わりつつあるのですが、大きく分けて3つのチームになっています。エンジニアリングチーム、ソリューションチーム、デベロップメントチームに分かれています。
エンジニアリングチームは、OSとサーバーハードウェアの管理をしています。OSの管理でいうと、まずはLINEの開発者が使うOSを標準化をして、そのOSの自動インストール環境を開発して運用しています。
サーバーハードウェアの管理でいうと、1年ごとや1年半ごとに新しいサーバーやCPUが発表されるので、最新の機器の性能を評価・選定をして、LINE全体としてそのハードウェアを使えるようにパフォーマンステストやバリデーションをやっています。
今だとGPUも、かなりのAIの機械学習などで使われているのでGPUの検証ですね。パフォーマンステストや、電力コストなどもやっています。あとはデータセンターの一部の仕事として、サーバールームのラック管理をしています。どこのラックにサーバーを何台積んだかというのを、先ほどやったサーバーの性能評価と合わせてやっています。
ソリューションチームは、特にFinTechサービスのインフラ、環境構築をやっています。FinTechサービスはどうしてもラックが限定されていたり、レギュレーションがすごく厳しい。ネットワーク的なACLの制限がかなり厳しかったりするので、すごく閉じたインフラを作る必要があります。なのでそこの構築をリードしていく部署になっています。
あとは、多くのLINEでは「Verda」というプライベートクラウドを使っていて、そこではOpenStackをベースにした仮想化環境を提供していますが、FinTechの場合は少し閉じた環境なので、大規模なVMWareの環境を構築して運用しています。
LINEの中では0.1パーセントほどの規模ではありますが、本当に一部においてパブリッククラウド環境を構築しています。あとは先ほどの7万台というサーバー、仮想マシンでいうと10万ノードがあるので、使用率の低いサーバーの可視化だったり、その回収システムだったりを作って運用しています。
それからまったく新しいサービスを作る時にインフラのコンサルティングを行ったり、ディレクションだったりをソリューションチームのところで行っています。
3つ目のデベロップメントチームについて。7万台の物理サーバー、10万ノードのVMがあるので、そこのインフラの資産の管理システムを独自で開発しています。それからリソースです。各サーバーがどれぐらいCPUを使っているかモニタリングシステムを使って見ています。
あとはサーバーのログインの権限管理ツールを開発しています。なので、インフラに関する一部をデベロップメントチームのところでは開発しています。
ほかにもネットワーク室だったり、あとで出てきますがVerdaを作っているチームなどと連携をしながら仕事をしています。
システム室内で使っている技術スタックや業務環境はこういう感じです。Linuxは当然ありますし、開発ツールとしてはPythonやPerlを使っています。フロントではVueやNode.js。あとはシステムを稼働させるためにKubernetesなんかも使っています。当然データベースでMySQLを触る経験もできます。
システム室の現在の課題と今後の展望です。LINEは今も成長し続けておりサーバー台数は年々増加していく傾向にあります。なのでコストがすごくかかりますし、サーバーが増えれば故障も増えてオペレーションのコストも増加していきます。そのため、サーバーのコスト、オペレーションコストの削除のために何かを作り出すとか、そういうこともやっています。
あとはAll Verda。プライベートクラウドをどんどん使ってもらえるように促進もしています。ほかにも管理ソフトウェアも開発をしていますし、1回作ったきりではなくどんどん改修をしていって使いやすいものをどんどんリリースしています。毎年新しいサーバーハードウェアが出てくるので、サーバーの検証、OSの検証、セッティングともやっています。
それから今はガバナンスの遵守もどんどん進めていっているところです。システム室は以上となります。
LINE株式会社
関連タグ:
2024.12.20
日本の約10倍がん患者が殺到し、病院はキャパオーバー ジャパンハートが描く医療の未来と、カンボジアに新病院を作る理由
2024.12.19
12万通りの「資格の組み合わせ」の中で厳選された60の項目 532の資格を持つ林雄次氏の新刊『資格のかけ算』の見所
2024.12.16
32歳で成績最下位から1年でトップ営業になれた理由 売るテクニックよりも大事な「あり方」
2023.03.21
民間宇宙開発で高まる「飛行機とロケットの衝突」の危機...どうやって回避する?
PR | 2024.12.20
モンスター化したExcelが、ある日突然崩壊 昭和のガス工事会社を生まれ変わらせた、起死回生のノーコード活用術
2024.12.12
会議で発言しやすくなる「心理的安全性」を高めるには ファシリテーションがうまい人の3つの条件
2024.12.18
「社長以外みんな儲かる給与設計」にした理由 経営者たちが語る、優秀な人材集め・会社を発展させるためのヒント
2024.12.17
面接で「後輩を指導できなさそう」と思われる人の伝え方 歳を重ねるほど重視される経験の「ノウハウ化」
2024.12.13
ファシリテーターは「しゃべらないほうがいい」理由 入山章栄氏が語る、心理的安全性の高い場を作るポイント
2024.12.10
メールのラリー回数でわかる「評価されない人」の特徴 職場での評価を下げる行動5選
Climbers Startup JAPAN EXPO 2024 - 秋 -
2024.11.20 - 2024.11.21
『主体的なキャリア形成』を考える~資格のかけ算について〜
2024.12.07 - 2024.12.07
Startup CTO of the year 2024
2024.11.19 - 2024.11.19
社員の力を引き出す経営戦略〜ひとり一人が自ら成長する組織づくり〜
2024.11.20 - 2024.11.20
「確率思考」で未来を見通す 事業を成功に導く意思決定 ~エビデンス・ベースド・マーケティング思考の調査分析で事業に有効な予測手法とは~
2024.11.05 - 2024.11.05