2024.10.10
将来は卵1パックの価格が2倍に? 多くの日本人が知らない世界の新潮流、「動物福祉」とは
ペパボサービスインフラの今までとこれから(全1記事)
リンクをコピー
記事をブックマーク
常松伸哉氏:私からは「ペパボサービスインフラの今までとこれから」という題でお話しします。技術部シニアエンジニアリングリードの常松と申します。あだ名は「つねさま」ですが、最近「つねさん」と呼ばれることもあって、ちょっと寂しいです。
本日のテーマとアジェンダです。本日は、GMOペパボのサービスインフラの歴史を簡単に振り返って、GMOペパボのインフラの「過去」と「現在」と「未来」をお話できればなと思います。このあとも魅力的な発表が続くので、そこと一貫性のあるストーリーを作りながらお話できればと思っています。
「ペパボサービスのインフラの今まで」というところで、ちょっと歴史を振り返りたいと思います。GMOペパボには創業の2003年から3つの大きな変革点がありました。
1つ目は2015年で、2つ目が2017年です。いずれも「Nyah」と呼ばれているOpenStackによるプライベートクラウドですね。3つ目の2018年が「Nyah Kubernetes Engine」というNyah上で動くKubernetesクラスタ管理ツールのお話です。
NyahはGMOペパボで構築されているプライベートクラウドのコードネームでOpenStackで構築されています。各サービスのサーバー環境として利用されています。
2014年に構想が始まって、2015年に最初のバージョン、2017年に2つ目のバージョン、現在は2つ目のバージョンをアップグレードして運用している状態です。
まず古いほうの「Nyah-classic」についてお話しします。
これはCTOのあんちぽ(@kentaro)が発表した「これからのペパボの技術」というスライドから抜粋しているんですが、オンプレミス運用から脱却して、より機動的な事業展開や、安定したサービス提供を可能にするためにインフラのクラウド化を目指そうと、プライベートクラウドに着手しました。
実際運用を開始して、狙った効果は得られました。一方で課題も多く残っていたので、今度はNyahの新しいバージョンを自前で構築・運用しようとなり、2015年に実際に取り組み始めました。
オンプレミス環境から脱却するためにOpenStackを使ったプライベートクラウドを導入し始めて、自社でもOpenStackの構築に取り組み始めたのが2015年のまとめです。
こちらは後ほどスライドを共有しますが、別で振り返ったスライドがあるので、詳しくはこちらを参照してください。
2つ目が2017年に自前構築した新しいバージョンのNyahです。スライドは、新しいOpenStackのNyahと、古いNyah-classicの相互通信を検討していたときのスライドです。実際にネットワークで疎通がとれたので、徐々に新しいほうのNyahにマイグレーションしていきました。
副次的な効果としては、新しいOpenStackにすることで、インフラのコード管理ツールの「Terraform」によるインフラ管理ができるようになり、Infrastructure as Code(IaC)の促進になりました。
また、旧来は自分たちでロードバランサを作っていたのですが、「Octavia」というLoad Balancer as a Serviceを採用することで利便性が向上しました。
2017年のまとめです。2つのクラスタをネットワークで通信可能にして、並行運用しながらマイグレーションを行いました。副次的な効果として、TerraformによるIaCが促進されました。また、OctaviaによるLoad Balancer as a Serviceで利便性も向上しました。
私が「OpenStack Days Tokyo 2017」でお話ししたスライドがあるので、詳しくはこちらを見てください。
2018年です。課題の比較検討をしたときのスライドです。OpenStackを利用したNyahの運用では、サービスの新規立ち上げ時、もしくはインフラの追加時のリードタイムが問題になっていました。インフラ基盤に求められる要件が変わってきたため、現状のIaaSだけでは対応できないシーンが出てきたのが2018年です。
さらなる手立てが必要になり、コンテナを採用したいと考えていたのが2018年です。
2018年まとめです。プライベートクラウド化で確かにインフラ準備のリードタイムは下がりました。しかし、さらなる機動的な事業展開が求められている背景があったため、コンテナ化は避けては通れず、新しいチャレンジが必要になりました。
PaaS勉強会で今の検討について発表した資料があるので、詳しくはこちらを参照してください。
過去については以上です。
現在については2018年から現在になるのですが、Nyah Kubernetes Engineについてお話をします。
Nyah Kubernetes Engineは2018年より開発している内製のクラスタ管理ツールです。GMOペパボのNyah上で、Kubernetesクラスタを管理、構築、もしくはアップグレードという管理に特化させたツールです。
各種社内のセキュリティ基準があるんですが、それに準拠してクラスタを構築できて、共通のログ基盤にシステムのコンポーネントのログを集約できるクラスタを作れるツールです。ツールを利用して、サービスごとにNyah上にKubernetesクラスタを構築して、現在運用しています。
NKEの時系列ですが、2018年8月に実装を開始しました。2018年12月に「minne」のstagingクラスタを構築・導入。翌年の2019年4月に「minne」でKubernetesのクラスタを構築・導入して以降、各サービスへの導入が進んでいます。
簡単に利用状況をまとめました。現在GMOペパボのNyah上で動いているKubernetesクラスタ数は24個。利用しているサービス数はGMOペパボの商材で6つです。また、共用の「NKS」と言われているクラスタで1つ。「Wazuh」というセキュリティの統合管理ツールのクラスタで1つとで、計8サービスにまたがって24つのクラスタが展開されています。
現在のNyahのOpenStackバージョンは、Mitakaから導入されたものを1つバージョンアップして、Newtonにアップグレード済みです。引き続きin-placeでOpenStackバージョンへのアップグレードに取り組んでいきたいと思っています。
さて、ここまでGMOペパボサービスインフラの「過去」と「今」を説明しました。今後のGMOペパボサービスインフラの「これから」ついてお話ししたいと思うんですが、その前に「昨今の社会状況とその影響」について触れたいと思っています。
これは2020年4月に出したプレスリリースの内容ですが、弊社のECカートサービスである「カラーミーショップ」の2020年4月の前年同月比で、流通額が1.7倍、新規申込数が2倍に増加しました。
これは新型コロナウイルスを受けた新しい生活様式で、巣ごもり需要が増加して、弊社を含むWebサービスの重要性がますます向上していることを示唆していると考えています。また、今後もお客様が利用する機会はますます増加していくと予想されています。
それを受けて、今後インフラに必要となる要素を3つ考えてみました。「さらなる機動的な事業展開」「BCP(事業計画)観点での可用性の向上」「突発的なアクセス増に対する対策」が必要となる要素だと考えられます。一つひとつについて、内容とそれに対する対策について述べたいと思います。
「さらなる機動的な事業展開」ですが、いろいろな社会ニーズがある中で、エンジニアリングの集中をサービスの開発や安定したサービス運用に傾けていく必要があると書いています。
また、Digital X-formationとDeveloper Experienceの両方の頭文字を取ってDXと言いますが、日本CTO協会が監修・編纂している企業のデジタル化とソフトウェア活用のためのガイドラインである「DX Criteria」に沿った改善をGMOペパボでは進めていて、特にデータエンジニアリングに注力していきたいと考えています。
どういうことをしていくかですが、マネージドサービスの積極活用や、SREの取り組みや、データエンジニアリングそのものへの取り組みが必要だと考えています。
「BCP観点」では、現在物理インフラの所在が分散されているとは言い難い状況だと考えています。そのため、ロケーションレベルでの単一障害点の排除が必要だと考えています。これは現在使っているロケーション以外にも、複数拠点でのサービス運用が必要だということです。
最後に「突発的なアクセス増への対策」ですが、現状のオンプレミス環境では、設備増強のタイミング次第で突発的なアクセスに対応できないリスクがあります。ただ、常時ピークタイムを想定した備えになるとオーバーコストになってしまいます。アクセス増に対応しつつ、インフラコストも最適化しなければならないので、オンプレミス以外のマネージドサービスなどを積極的に活用する必要があると考えています。
以上を踏まえて、今後注力していくインフラ的技術観点をまとめました。この3つが今後注力していくインフラ技術観点です。1つ目はハイブリッドクラウド。2つ目はSite Reliability Engineeringの取り組み。3つ目がデータ基盤の整備です。それぞれ、現在行っていることとこれから取り組みたいことを説明します。
1つ目はハイブリッドクラウドです。これは複数ロケーションを使うということで、現在はAWSを利用していて、2020年に、NyahとAWSを「Direct Connect」(AWS DX)というサービスで専用ネットワークを接続しました。
実際にDirect Connectを使った構築について述べているスライドがあるので、後ほど参考にしてもらえればと思います。
実際にすでに行われている例として、「minne」を挙げました。もともと「minne」はAWSでサービス運用が始まっていましたが、途中でNyahとの併用に至りました。現在は、NyahのNKEでのKubernetesと、AWSのEKSの2つのクラスタで相互にサービスを提供することで、冗長性を確保しています。もともとVPNで接続していたのは、AWS DXの専用線を使うことでレイテンシが低下しました。
これがざっくりとしたサービスの運用概略図になるんですが、Route53で重み付けのロードバランシングをして、AWSとNyahのそれぞれにKubernetesのクラスタを準備することで、片方で障害が起きたときにもサービスを継続できる概略図です。
ハイブリッドクラウドを使ったケースのモデルケースとして、今後もGMOペパボではこういうサービス展開に取り組んでいきたいと考えています。
2つ目がSite Reliability Engineeringへの取り組みです。これはGoogleが提唱している運用方法についての理論なんですが、詳細は割愛します。
我々が在籍している技術部の責務は、昨今の社会事情を考えると、基盤インフラ整備だけではなくなってきていると考えています。特にサービス全体の安全性に責任を持つことが求められてきていると考えています。
そこで、Site Reliabilityの原理原則に則ってSREのプラクティスをきちんと実践していくことを目標にしています。例えばサービスやビジネスの可観測性を高めることでの可用性の向上や、ツール化・自動化を促進する中で、手作業による疲労の撲滅を目指しています。
SREのプラクティスである、SLI・SLO(Service Level Indicator・Service Level Objective)をもとにしたパフォーマンス改善の取り組みは、先日「ペパボテックブログ」に「ロリポップ!」の例を載せたので、ぜひ見てもらえればと思います。
最後にデータ基盤の整備ですが、ビジネスにおけるいろいろな意思決定のもととなるデータの重要性の増加もあるので、サービスの安定稼働によるインフラのメトリクスやキャパシティプランニングに必要なデータの収集・分析・活用が、「事業KPI」「サービスの安定稼働」の双方に求められていると考えています。
我々は、インフラ基盤のターゲットはデータ分析基盤へも広がっていると考えていて、GMOペパボのログ活用基盤である「Bigfoot」のデータ活用基盤の整備とインフラ、GMOペパボの各サービスとの連携を進めていきたいと考えています。
2021年1月にデータ基盤チームを設立して、データパイプラインの整備やダッシュボードの整備によるデータ可視化に現在取り組んでいます。今後も注力していきたいと考えているところです。
まとめです。本日のスライドではGMOペパボのサービスインフラの歴史を簡単に振り返りました。オンプレミス期、Infrastructure as a Service期、Container as a Service期と徐々に変革していると考えています。現在はGMOペパボNKEで取り組んでいるKubernetesクラスタを運用しているCaaS期です。
今後やりたいことで、ハイブリッドクラウド、SRE、データ駆動を紹介しました。我々技術部は、インフラだけでなくデータ基盤の整備もやっていきます。
最後ですが、本日のプログラムでは各チームでのそれぞれの取り組みが実際にどうなっているかが説明されるので、以降の発表も引き続きお楽しみにしてもらえればと思います。
私の発表は以上です。ありがとうございました。
関連タグ:
2024.11.13
週3日働いて年収2,000万稼ぐ元印刷屋のおじさん 好きなことだけして楽に稼ぐ3つのパターン
2024.11.11
自分の「本質的な才能」が見つかる一番簡単な質問 他者から「すごい」と思われても意外と気づかないのが才能
2024.11.13
“退職者が出た時の会社の対応”を従業員は見ている 離職防止策の前に見つめ直したい、部下との向き合い方
2024.11.12
自分の人生にプラスに働く「イライラ」は才能 自分の強みや才能につながる“良いイライラ”を見分けるポイント
2023.03.21
民間宇宙開発で高まる「飛行機とロケットの衝突」の危機...どうやって回避する?
2024.11.11
気づいたら借金、倒産して身ぐるみを剥がされる経営者 起業に「立派な動機」を求められる恐ろしさ
2024.11.11
「退職代行」を使われた管理職の本音と葛藤 メディアで話題、利用者が右肩上がり…企業が置かれている現状とは
2024.11.18
20名の会社でGoogleの採用を真似するのはもったいない 人手不足の時代における「脱能力主義」のヒント
2024.11.12
先週まで元気だったのに、突然辞める「びっくり退職」 退職代行サービスの影響も?上司と部下の“すれ違い”が起きる原因
2024.11.14
よってたかってハイリスクのビジネスモデルに仕立て上げるステークホルダー 「社会的理由」が求められる時代の起業戦略
2024.11.13
週3日働いて年収2,000万稼ぐ元印刷屋のおじさん 好きなことだけして楽に稼ぐ3つのパターン
2024.11.11
自分の「本質的な才能」が見つかる一番簡単な質問 他者から「すごい」と思われても意外と気づかないのが才能
2024.11.13
“退職者が出た時の会社の対応”を従業員は見ている 離職防止策の前に見つめ直したい、部下との向き合い方
2024.11.12
自分の人生にプラスに働く「イライラ」は才能 自分の強みや才能につながる“良いイライラ”を見分けるポイント
2023.03.21
民間宇宙開発で高まる「飛行機とロケットの衝突」の危機...どうやって回避する?
2024.11.11
気づいたら借金、倒産して身ぐるみを剥がされる経営者 起業に「立派な動機」を求められる恐ろしさ
2024.11.11
「退職代行」を使われた管理職の本音と葛藤 メディアで話題、利用者が右肩上がり…企業が置かれている現状とは
2024.11.18
20名の会社でGoogleの採用を真似するのはもったいない 人手不足の時代における「脱能力主義」のヒント
2024.11.12
先週まで元気だったのに、突然辞める「びっくり退職」 退職代行サービスの影響も?上司と部下の“すれ違い”が起きる原因
2024.11.14
よってたかってハイリスクのビジネスモデルに仕立て上げるステークホルダー 「社会的理由」が求められる時代の起業戦略