月曜朝にサーバが落ちていた日|ひとり情シスの障害対応ログ

月曜の朝って、なぜかサーバトラブルが多い気がします。

長年、社内SEとして働いてきて、はっきりとした統計があるわけではないのですが、体感的に「月曜朝」はトラブル遭遇率が高い。
特に、オンプレ時代はかなりの緊張感で出社していました。


月曜朝、あいさつより先に飛んでくる一言

ある月曜日の朝。

いつも通り出社して、席に荷物を置こうとした瞬間、

「〇〇システム、開かないんだけど…」

と、あいさつより先に声をかけられました。

正直、内心では

「うわ、来たか…」

という感じです。

とりあえず自席のPCから確認してみると、確かに応答がない。
ネットワークの問題かと思い、ping を打っても返ってこない。

これは現地確認だな、と思い、サーバルームへ直行。


サーバルームで目にした光景

サーバラックの前に立って、ランプを一通り眺めていると、
1台だけ、完全に電源が落ちているサーバがありました。

「あー、これか…」

とりあえず電源ボタンを押して起動。

BIOS → OS起動 → サービス起動
特にエラーも出ず、無事に立ち上がりました。

業務システムも問題なく動作。
とりあえず社内に「復旧しました」と連絡し、様子見に。

この時点では、

「たまたま一瞬電源が落ちただけかな」

くらいに考えていました。


午後、再発

しかし、午後になって再び連絡。

「またシステム開かなくなってます…」

嫌な予感しかしません。

再度サーバルームに行くと、
やはり同じサーバの電源が落ちている。

ここでようやく、

「電源系が怪しいな」

と確信。

起動自体は問題ないので、負荷や温度を見ながら、ログをざっと確認。
OS上は特に異常なし。
結果的に、電源ユニットの不良と判断しました。

部品を手配し、後日交換して以降は再発なし。

今振り返ると、
月曜朝にいきなり落ちている → すでに週末のどこかで予兆が出ていた
というパターンだったのだと思います。


雷・台風・停電。月曜あるある

もうひとつ、月曜朝トラブルで多いのが、

  • 台風
  • 大雨
  • 停電
  • 瞬電

このあたりが絡むケースです。

特に夏場。

金曜の夜〜日曜にかけて荒天になると、
月曜に出社したらサーバが全部落ちている
という状況は、何度も経験しました。

UPSを入れていても、
長時間停電には耐えきれないこともあります。

当時は、

「今日は何事もありませんように…」

と、月曜の朝は少し早めに出社して、
サーバルームを最初に覗く、というルーティンになっていました。


VPS・クラウド化でだいぶ気が楽になった

今は、VPS やクラウドサービスを使うことが増え、
社内に物理サーバを置く台数もかなり減りました。

そのおかげで、
月曜朝の緊張感は、だいぶ和らいだ
というのが正直なところです。

もちろん、クラウドでも障害はゼロではありません。
ただ、

  • 電源ユニットの故障
  • ファンの異音
  • サーバ室の室温管理
  • UPSのバッテリー劣化

こういった物理トラブルから解放されるのは、精神的にかなり楽です。

最近は、社内向けの業務システムも、
VPS 上に構築するケースが増えました。

個人的には、
「物理サーバ1台を社内で抱える」より、
VPS を1台借りるほうが、トータルで楽だと感じています。


月曜朝トラブルを減らすために意識していること

過去の経験から、今は以下の点を意識しています。

  • 重要システムは極力クラウド・VPS化
  • 物理サーバは役割を限定
  • 停電対策(UPS・シャットダウン制御)
  • 週末前にアラートログを一度確認

完璧ではありませんが、
「月曜に爆死しない構成」 を意識するだけで、
精神的な負担はかなり変わります。


今の正直な感想

昔は、

「月曜が怖い」

という感覚が、正直ありました。

特に、
台風明け・雷明けの月曜は、
会社に着くまでずっと落ち着かなかった記憶があります。

今は、VPS やクラウド化が進み、
そういうストレスから少しずつ解放されつつあります。

社内SE、ひとり情シスの仕事って、
何も起きないことが最大の成果
なんですよね。

今日も何事もなく業務が回る。
それだけで、実はかなり頑張っていると思っています。


※社内向けの業務システムを VPS 上に集約するようになってから、
物理障害対応が激減しました。
実務で使っている環境については、別記事でまとめています。