2024.12.24
ビジネスが急速に変化する現代は「OODAサイクル」と親和性が高い 流通卸売業界を取り巻く5つの課題と打開策
提供:株式会社リクルートテクノロジーズ
リンクをコピー
記事をブックマーク
森廣隆行氏:そして最後に、ここのSolrの反映のところに関してです。ここでの問題は何かというと、システムとインフラ間の設計の矛盾になります。
まず、この部分をフロー化すると、このようになっております。
原稿テーブルと関連テーブルのほうからSolrに出力するための情報を中間テーブルに集め、そこからCSVに吐き出すという処理が主になります。
まずここでやったことですが、何が問題かもわからなかったので、とりあえず各処理の地盤を調査しました。
基本的に、みなさんがコードのほうは注力されているようで、ぜんぜん遅くはなってなかったんですけど、主にSQLのほうが重くなっていることがわかりましたので、そこについて対応を行いました。ここですね。
やったのは一般的なことです。テーブルの件数を減らしてからジョインしましょうとか、増やされたところに対してインデックスが貼られていないとか。複合機でとっているにもかかわらずそこが考慮されていないとか、もともとの処理が遅くなっているみたいなところがあったので、貼り直したりとか。
使用関数のところが、昔はバッチサーバーのほうが遅いみたいなことがあったので、SQLにやれることはやらせてしまおうみたいな感じで、いろいろ関数を叩き込むということをやられていました。その部分をJava側に処理を寄せたり、関数自体を違うものに置き換えたり、ということをやりました。あと参照、テーブルの見直し等々もやっております。
ちょっとSQL自体は出せないんですけど、実行結果がこんな感じになっています。
こいつ、歴史を感じる500行超えのSQLですね。
(会場笑)
ヤバい。どこがヤバいかというと、ここで見てもらったらわかるんですけど、キューをネストしていまして、テーブルをジョインしまくっています。
(会場笑)
かつ、よくよく見てみたらINDEX FULL SCANして、UNIQUE SCANしてがっちゃんこしてるんだけど、コストがいきなり300くらい上がっています。このような感じだったので、今回見直しを行っております。
まずやったことは、ちょっと苦しかったんですけど、ネスト自体を減らしつつ条件を絞り込んで、ジョインするテーブルの数を減らしてコストを下げるということです。
なんとか作業したのですが、その結果、このくらい改善しました。あとSolrのインプットファイルは1個である必要がなく、複数でもまったく問題ないんですけれども、そこも直列になっていました。とりあえず脳死して並列化してみました。
これでなんとかなるかなと思ったんですが、案の定、2時間かかっていたものが20分しか改善しませんでした。
(会場笑)
ここで本腰を入れて、Oracleに付いているOracle Enterprise Managerというツールを使って、SQLのパフォーマンス調査をやりました。
それを使って中間テーブルで並列化したところが詰まっていることがわかったので、その部分を対応しました。
これがEnterprise Managerの結果なんですけど、知ってる人はわかるかな……とりあえず、水色がいっぱいです(笑)。
ほとんどがキャッシュフュージョンという、Oracleの機能によるデータの読み込み待機イベントに占められていました。見てもらったとおり、黄緑のところが実処理なんですが、基本的に濃い緑や水色がほとんどを占めていました。
これが何かがわからなかったので、とりあえず調べてみて、自分なりにまとめたのがこちらです。
OracleはRAC構成をとっています。そのおかげで、まずSQLを発行した場合、バッチ1号機に対してディスクのほうからデータの読み込んで、処理を行います。
その次に違うSQLが3号機のほうに走った場合にどうなるかというと、そのままディスクから読み込むのではなくて、各サーバーに対して「存在していないか」という問い合わせを行います。存在していた場合は応答を行いまして、サーバー間でデータのブロックを転送することによって、ディスクのI/Oを減らしてデータを同期するというかたちをとっております。
こいつが今回悪さをしておりました。どうなっていたかというと、今回バッチを並列化したおかげでSQLが刺さるサーバーが複数台になっちゃっていました。
例に挙げたのは、先にバッチ1号機に処理した場合です。まず、バッチ1号機が動いてしまった場合、データが1号機に展開されます。そのあとにバッチ2号機・3号機も動くんですけど、データを処理するためにはデータ転送を行わないといけません。しかし、バッチ1号機がまだ処理しているという状態になってしまいます。
なのでこの場合、バッチ2と3は待つかたちになりますが、このロックが長くなってしまうと、自動的に変更があるかないかの確認を行って、「データを読み込んでください」というかたちで2号機・3号機に対して命令を送ります。
これによって2号機と3号機もディスクから読み込むことになりますが、ここで詰まりが発生してしまったのが、先ほどのDB File Sequential Readのところです。
今回、それに対してどういう対応を行ったかというと、せっかくRAC構成をとっているにもかかわらず、無理やり疑似的なMaster-Slave構成をとるという方法で改善を行いました。
これにより、バッチ1・2・3号機を4号機・5号機に寄せて、メインを4号機に寄せて処理することによって、データ転送の回数を減らしつつ速くするというかたちをとりました。これが功を奏して、けっこう速くなりました。とくにアップデートとデリートに効果的で、セレクトはさすがに速くなりませんでしたが、そこの2つがかなりの効力を得ました。
これで解決したかなと思ったんですが、まだ(データの読み込み待機イベントが)出ているということがわかりました。
実行時間自体は減っているんですが、やっぱり水色の部分を解決できておらず、そこについてまた深堀りを行っております。
やった内容としては、もうお手上げだったんで、とりあえず全部洗ってみるかということで、この処理自体の全部のデータフローを洗い出しました。
結果がこれです。
さっきのSQLがこの右側のものなんですけど、技術負債の巣窟です。何が技術負債なのかといいますと、この中間テーブルが負債です。
よくある話、基本的に初期フローはたぶんこんな感じだったと思うんですけれども、通常、企画とかが起案してやる案件は、「一覧のところに情報を出したい」みたいな感じです。
それによって何が起こるかというと、Solrにデータを入れないといけないので、この部分のバッチを改修しないといけません。ただ、これを改修しようとするとデータがないので、その前段のところに加工用のバッチを増やします。
でも、ここに変えたということは、ここも変えないといけないよね、というかたちで開発をするんですけれども……こんな見積りとかしたら、めちゃめちゃかかっちゃうんで、絶対に怒られるんですね。みんながどうやるかというと、やっぱりこうなっちゃうんですね。
(会場笑)
中間テーブルをこんな感じで増やして、バッチを改修するところを減らしつつ、工数を減らしてやりたいことはやる、みたいな感じです。「あとで直せばいいや」みたいな感じでやっていくんですけど、結局どうなったかというと、こうなりました。
(会場笑)
こいつの何が悪いか。この原稿テーブルというのは、タウンワークの詳細画面に逐次オンラインからアクセスされるテーブルです。
こいつに対して、長時間ロックするSQLを発行しまくるおかげで待ってました。かつ、なぜか知らないですけど、原稿テーブルに更新するやつまでいると。
(会場笑)
なんでかわかんないですけどね(笑)。ここで起こっていたのが、さきほどのキャッシュフュージョンです。それもオンラインとバッチで(笑)。
これをどうしたかというと、いたるところを削除しまくって、この赤いバツのところを徹底的に潰して、こんな感じにしました。
まず、原稿テーブルへのアクセスを最小限にして、オンラインとオフラインのアクセステーブルの分離をしました。そのあと原稿反映処理が、朝に大きいものが1回と、昼間に停止・修正系が3回で、計4回流れます。その部分でバッチを機能ごとに分けて、中間テーブルを入れて分けるかたちをとりました。
それによってSQLがどうなったかというと、こんな感じになりました。
最終的には2時間かかっていたものが、15分に改善して、このようになりました。
入稿システムのところに編集を入れたり、マスターチェック・削除を入稿側に寄せて、かつタウンワークでは新規・停止・修正というところを分けつつ、Solrの反映のところを寄せました。メインがバッチだったんですけど、棚ぼた的にタウンワークの詳細画面のレスポンスもすごく向上しまして、円満な感じで本改善を行いました。
ここで気になってくるのが、これだけ改善して修正を加えてしまったら品質担保はどうなるのという話です。ここをどうしたかについてですが、一般的にやろうとするとテスト環境とテストデータを準備し、修正前と修正後でジョブを流してそのデータベースを比較する、単純にやるとこうなります。
ですが、先ほど見ていただいたとおり、システムが複雑すぎて商品がとても多いです。この知識を持っている人が限られていて、その人でも本当に正しいのかわからない状態で、担保ができません。かつ1週間分もあるので比較量も膨大になってしまいます。
最近は一般的なんですが、本番同等の環境を用意し、本番の処理前と処理後のデータを丸々コピーして、かつ処理後のジョブネットを流した結果を比較するというかたちをとりました。
かつ、リクルートはオフショアを使っており、このデータをひたすらオフショアを使って比較することによって1週間分担保することで、リリースすることができました。
その結果どうなったかといいますと、想定どおり、掲載数は増加の一途を辿りましたが、終了時間はこんな感じで激減させることができました。
ズームアップするとこんな感じで、マックスで6時間、かつ平均でも4時間くらい短縮できまして、かついままで障害も0件で、うまく回させていただいております。
もう1つ、いいことがありました。運用チームが夜中のバッチの遅延監視を行っているんですが、それが朝5時に設定されています。
過去、対応する前とかは、毎週月曜日の朝5時に、6週連続でモーニングコールがかかるということがあったんですが、2018年の6月からいままで、1回もコールがありません。そこの改善にも携わることができました。
最後にまとめになります。
レガシーシステムの改善というのは、よくリビルドやリプレイスに頼りがちですが、泥臭い成果の積み重ねで、十二分な結果を出せます。また、業務やシステム単体で対応することがあると思いますが、みんな、疎結合がいいというかたちでやられます。しかし、システムは年を追うと絶対疎結合にできません。無理に疎結合にすることによって悪化することもあるので、レガシーになったら密結合にしたほうがいいのかなと思っています。
そういうことも考えつつ、いろんな観点で見ていただけると効果が増大することが今回わかりましたので、ぜひやっていただければなと思います。
最後にリクルーティングをさせてください。自分の責任と技術力の限りを尽くして「リアルISUCON」をしたい人には最高の環境だと思っています。このあとに古川(陽介)さんが講演しますが、社内ISUCONもやっていますので、興味のある方はぜひブログ等でご覧頂けましたらと。それから一緒に仕事をしたい方、お待ちしております。以上になります。ご清聴ありがとうございました。
(会場拍手)
株式会社リクルートテクノロジーズ
関連タグ:
2025.01.16
社内プレゼンは時間のムダ パワポ資料のプロが重視する、「ペライチ資料」で意見を通すこと
2025.01.15
若手がごろごろ辞める会社で「給料を5万円アップ」するも効果なし… 従業員のモチベーションを上げるために必要なことは何か
2025.01.09
マッキンゼーのマネージャーが「資料を作る前」に準備する すべてのアウトプットを支える論理的なフレームワーク
2025.01.14
コンサルが「理由は3つあります」と前置きする理由 マッキンゼー流、プレゼンの質を向上させる具体的Tips
2025.01.07
1月から始めたい「日記」を書く習慣 ビジネスパーソンにおすすめな3つの理由
2025.01.14
目標がなく悩む若手、育成を放棄する管理職… 社員をやる気にさせる「等級制度」を作るための第一歩
2025.01.10
プレゼンで突っ込まれそうなポイントの事前準備術 マッキンゼー流、顧客や上司の「意思決定」を加速させる工夫
2025.01.07
資料は3日前に完成 「伝え方」で差がつく、マッキンゼー流プレゼン準備術
2017.03.05
地面からつららが伸びる? 氷がもたらす不思議な現象
2025.01.08
職場にいる「嫌われた上司」がたどる末路 よくあるダメな嫌われ方・良い嫌われ方の違いとは
特別対談「伝える×伝える」 ~1on1で伝えること、伝わること~
2024.12.16 - 2024.12.16
安野たかひろ氏・AIプロジェクト「デジタル民主主義2030」立ち上げ会見
2025.01.16 - 2025.01.16
国際コーチング連盟認定のプロフェッショナルコーチ”あべき光司”先生新刊『リーダーのためのコーチングがイチからわかる本』発売記念【オンラインイベント】
2024.12.09 - 2024.12.09
NEXT Innovation Summit 2024 in Autumn特別提供コンテンツ
2024.12.24 - 2024.12.24
プレゼンが上手くなる!5つのポイント|話し方のプロ・資料のプロが解説【カエカ 千葉様】
2024.08.31 - 2024.08.31