2024.12.10
“放置系”なのにサイバー攻撃を監視・検知、「統合ログ管理ツール」とは 最先端のログ管理体制を実現する方法
本当にあった怖い話 Ansible SaaS運用編(全1記事)
リンクをコピー
記事をブックマーク
じろ氏:「本当にあった怖い話 Ansible SaaS運用編~大いなる力には大いなる責任が伴う~」というタイトルで、じろが発表します。よろしくお願いします。
最初に、これは実際にAnsibleを使って起きた事故です。本当にすごくしょうもない事故ですが、今のところ有効な再発防止策がないので、もしいい案があればハッシュタグ付きでツイートしてもらえたらと思います。そのあと、私が起こしたわけではありませんが若干脚色して話そうと思います。
(スライドを指して)こちらが自動化している環境です。特徴としては、AWS上で動くWebシステムで、1つの共有OSにそれぞれいろいろな顧客別のデータベースとアプリケーションが入っていて、Webの入口だけ分かれているような仕組みです。これは契約ごとにどんどん増えて、多い時は同時に月2契約くらい増えることもありました。
これはどうやってAnsibleを使っているかというと、include_varsです。顧客ごとの環境定義ファイルのようなものをvarsファイルとして作っています。AWSなら、VPCやSecurityGroup、Route53 CloudWatchのような定義ファイルです。Webなら、httpdやSSLの証明書。APなら、EARファイルやserver.xml、Javaのプロパティファイル。DBなら、データベース名など。
共通OS部分には追加するユーザーや起動サービスが変数として格納されていて、それをAnsible Tower実行時にinclude_varsで読み込んで、Playbookが実行されます。(スライドを指して)この一番下が増えるという意味です。
これは本当に、いろいろなことをやっています。トータルでは25ノードくらい、ワークフローのテンプレートがジョブテンプレートを何個か組み合わせてやっているような、巨大なワークフローテンプレートです。
そしてある日、このワークフローを使っていて事件が起きました。どこで起きたのか。こちらは少し脚色しています。というのも、APサーバーのXMLをテンプレートモジュールを使って展開するところで、誤って既存環境のserver.xmlのパスを書いてしまったんです。
そうすると何が起きるか。サーバーが見ているDBの参照先が変更されて、とんでもないことになりました。実際は、APサーバーが再起動しないとXMLはすぐに反映されません。すごく問題になったかというとそれほどではありませんが、これはいわゆる事故です。
この事故はどうすれば防げたのか。現時点では有効な手段を思いつきませんが、本当に「そもそも共有のOSは自動化に向いていない」と思っています。
政治的な理由でこうなってしまったので、なんともしょうがないのですが、やはり1つの環境変更が全体や既存に影響します。これが共通OSではなく個別OSなら、include_varsではなくhost_varsを使うことになるので、わりと全体への影響は下がったのではないでしょうか。コーディングの範囲ではどうしようもないと思います。
ほかにも、変更箇所が多いので変数も多いです。1環境あたり120個あるので、Varsファイルを使ってYAMLですべて入念に指差しチェックしても、たぶん限界というか、絶対にミスは起きると思います。
それを防ぐために既存環境との変数重複チェックツールを作るのは、あまり実装イメージが湧きません。Excelからvarsを自動で生成するようなマクロも考えてみましたが、そもそもExcel入力を間違えたら意味がないので、根本的な再発防止策にはならないと思っているところです。
(スライドを指して)これはちょっと恥ずかしい。現時点での暫定の再発防止策として、おふざけで書いていますが、「大いなる力には大いなる責任が伴います」。どっかで見たぞみたいなところもあると思いますが、このような文言を加えることによって、実行前にもう一度変数を確認することが、今現時点で取り得た最善の手だと思っています。
まとめです。やはり、コーディングだけではなく、自動化でいかにミスを防ぐ環境を作るかが非常に大事だと思っています。特に今の環境は、オンプレで動いていたレガシーなものをそのままAWSに持っていったようなところがあるので、マイクロサービスではありませんが、やはりいろいろな機能を分離して、あまりほかに影響しない仕組みが大事だと思っています。
自動化は大事だし便利だと思いますが、使い方を間違えると環境破壊にもつながるツールなので、やはり「大事なのは責任感」というオチがあると思います。
また、いい案をお待ちしています。私の発表は以上です。ご清聴ありがとうございました。
2024.12.10
メールのラリー回数でわかる「評価されない人」の特徴 職場での評価を下げる行動5選
2024.12.09
10点満点中7点の部下に言うべきこと 部下を育成できない上司の特徴トップ5
2024.12.09
国内の有名ホテルでは、マグロ丼がなんと1杯「24,000円」 「良いものをより安く」を追いすぎた日本にとって値上げが重要な理由
2023.03.21
民間宇宙開発で高まる「飛行機とロケットの衝突」の危機...どうやって回避する?
2024.11.29
「明日までにお願いできますか?」ちょっとカチンとくる一言 頭がいい人に見える上品な言い方に変えるコツ
2024.12.06
嫌いな相手の行動が気になって仕方ない… 臨床心理士が教える、人間関係のストレスを軽くする知恵
2024.12.10
職場であえて「不機嫌」を出したほうがいいタイプ NOと言えない人のための人間関係をラクにするヒント
PR | 2024.12.04
攻撃者はVPNを狙っている ゼロトラストならランサムウェア攻撃を防げる理由と仕組み
PR | 2024.11.22
「闇雲なAI導入」から脱却せよ Zoom・パーソル・THE GUILD幹部が語る、従業員と顧客体験を高めるAI戦略の要諦
PR | 2024.11.26
なぜ電話営業はなくならない?その要因は「属人化」 通話内容をデータ化するZoomのクラウドサービス活用術