ベンダー対応が遅すぎて自力復旧した障害ログ|社内SEの現場判断メモ

社内SEをやっていると、「これはちょっときついな…」という障害に定期的にぶつかる。
今回の件も、正直あまり細かく書きたくないタイプのトラブルだけど、記録として残しておく。

きっかけ(何が起きた)

ある朝、出社してすぐに利用者から一斉に連絡が来た。
「業務アプリにログインできない」「画面が開かない」「仕事が止まっている」。

確認すると、リモートApp環境で提供している業務システムが、サーバー側のトラブルで完全に停止していた。
このアプリは部署横断で使っていて、ほぼ基幹に近い扱い。止まると影響範囲がかなり広い。

ベンダーに連絡し、状況確認と復旧の依頼を出す。
返ってきた最初の回答は「調査中です」。
正直、この時点で嫌な予感がした。

状況(待っても進まない)

1時間経過。
再度問い合わせても「まだ調査中です」。
ドメインがどうとか、ブローカーがどうとか、専門用語を並べられるが、要は「原因がまだ分からない」ということ。

こちらとしては、原因の詳細よりも「いつ業務が再開できるか」が知りたい。
現場は完全に止まっているし、利用者の不安と焦りもどんどん高まっていく。

社内SEの役割って、「障害を完璧に直すこと」より、「業務を止めないこと」だと思っている。
なので、この段階で「ベンダー復旧待ち」以外の道を本気で考え始めた。

試したこと(とにかく動かす)

システム構成を頭の中で整理して、「最小構成で業務だけ回す」方向に切り替える。

アプリケーション本体をそのままもらい、ローカルPCで直接実行。

ベンダーには「とにかくアプリ一式をください。設定は後でこちらで調整します」と依頼。
正直、契約的に微妙なラインかもしれないが、背に腹は代えられない。

まずは1台のPCだけでも動かす。
そこで最低限の業務処理ができれば、帳票出力やデータ登録は何とか回せる。

最終対応(最低限の業務復旧)

なんとか1台のPCでアプリが起動し、DB接続も成功。
担当部署にそのPCを一時的な業務端末として渡し、最低限の処理を続行してもらった。

全体復旧まではいかないが、「完全停止」は回避できた。
利用者からも「とりあえず動いて助かりました」と言ってもらえた。

結局、ベンダー側の本格復旧はその数時間後。
こちらの暫定対応がなければ、半日以上業務停止だった可能性もある。

今の正直な感想

こういう時、ベンダー任せだけでは限界があると痛感する。
契約上の責任分界点も大事だが、現場としては「今どう動かすか」がすべて。

そのためにも、
・システム構成を把握している
・最低限の検証環境がある
・手元で即座に作業できるサーバ環境がある

このあたりは、日頃から用意しておいたほうが楽になる。

自分の場合、検証や緊急対応用のサーバは VPS を常備していて、こういうときにかなり助けられている。
普段は構築検証や設定テスト用だが、「とりあえず逃げ道を作っておく」用途としても便利だと感じている。

障害対応は、理想論では回らない。
正解が分からない中で、妥協しながらでも業務を止めない判断をする。
その積み重ねが、社内SEという仕事なのかもしれない。