社内SEをやっていると、「これはちょっときついな…」という障害に定期的にぶつかる。
今回の件も、正直あまり細かく書きたくないタイプのトラブルだけど、記録として残しておく。
きっかけ(何が起きた)
ある朝、出社してすぐに利用者から一斉に連絡が来た。
「業務アプリにログインできない」「画面が開かない」「仕事が止まっている」。
確認すると、リモートApp環境で提供している業務システムが、サーバー側のトラブルで完全に停止していた。
このアプリは部署横断で使っていて、ほぼ基幹に近い扱い。止まると影響範囲がかなり広い。
ベンダーに連絡し、状況確認と復旧の依頼を出す。
返ってきた最初の回答は「調査中です」。
正直、この時点で嫌な予感がした。
状況(待っても進まない)
1時間経過。
再度問い合わせても「まだ調査中です」。
ドメインがどうとか、ブローカーがどうとか、専門用語を並べられるが、要は「原因がまだ分からない」ということ。
こちらとしては、原因の詳細よりも「いつ業務が再開できるか」が知りたい。
現場は完全に止まっているし、利用者の不安と焦りもどんどん高まっていく。
社内SEの役割って、「障害を完璧に直すこと」より、「業務を止めないこと」だと思っている。
なので、この段階で「ベンダー復旧待ち」以外の道を本気で考え始めた。
試したこと(とにかく動かす)
システム構成を頭の中で整理して、「最小構成で業務だけ回す」方向に切り替える。
アプリケーション本体をそのままもらい、ローカルPCで直接実行。
ベンダーには「とにかくアプリ一式をください。設定は後でこちらで調整します」と依頼。
正直、契約的に微妙なラインかもしれないが、背に腹は代えられない。
まずは1台のPCだけでも動かす。
そこで最低限の業務処理ができれば、帳票出力やデータ登録は何とか回せる。
最終対応(最低限の業務復旧)
なんとか1台のPCでアプリが起動し、DB接続も成功。
担当部署にそのPCを一時的な業務端末として渡し、最低限の処理を続行してもらった。
全体復旧まではいかないが、「完全停止」は回避できた。
利用者からも「とりあえず動いて助かりました」と言ってもらえた。
結局、ベンダー側の本格復旧はその数時間後。
こちらの暫定対応がなければ、半日以上業務停止だった可能性もある。
今の正直な感想
こういう時、ベンダー任せだけでは限界があると痛感する。
契約上の責任分界点も大事だが、現場としては「今どう動かすか」がすべて。
そのためにも、
・システム構成を把握している
・最低限の検証環境がある
・手元で即座に作業できるサーバ環境がある
このあたりは、日頃から用意しておいたほうが楽になる。
自分の場合、検証や緊急対応用のサーバは VPS を常備していて、こういうときにかなり助けられている。
普段は構築検証や設定テスト用だが、「とりあえず逃げ道を作っておく」用途としても便利だと感じている。
障害対応は、理想論では回らない。
正解が分からない中で、妥協しながらでも業務を止めない判断をする。
その積み重ねが、社内SEという仕事なのかもしれない。


