こんにちはカトーです。
先月から後頭部と生え際が危機的な状況になりつつあるので、ミノキシジル配合の毛生え薬を使い始めましたよ。
なにか飲み薬もあるそうですが、まずは一気に抜け替わる可能があると聞きこれで様子を見てます。
それはそうと、新型肺炎ウィルスCOVID-19の影響で、付近の会社は自宅で作業・リモートワークの影響で、めっきり人が少なくなっております。弊社が保守しているお客様もリモートワークでやVPN接続を導入し、在宅で業務ができる環境への要望が多く、弊社も対応しております。それにともない、社内のサーバに繋がらないっ!というご相談や事例も頻発しております。”なにが悪いかわからないが急に繋がらなくなった”という時に、まずはここをチェックという基本を実例を元に記載しておきますよ。
あくまで急に繋がらくなった……というのがポイントです。
ちなみに、
「何も触ってないのに接続できなくなった!どうにかして」
と聞かれたら、
「何も触ってないなら、接続できませんよ」
と答えると、相手が怒り出すので注意が必要ですよ。
ある日突然ネットワークが繋がらなくなる日
※実際に例を参考にしていますが、社名や色々を変更してあります。
某年、ある夏の日、北関東の某A社でネットワーク障害が発生。
某A社は広い敷地にオフィスビルと商品倉庫があり、管理はオフィスビル内のサーバで管理。商品は販売してる全国の各店舗から毎日夕方に受注データと商品データをやり取りし基幹システムに取り込む。商品は在庫があれば、翌日の配送を手配して、なければメーカーや仕入れ元に発注を掛けるが、突然受注データが取り込みができなくなり、倉庫からのデータも取り込みが出来ない障害発生。翌日の配送が迫る中、倉庫から商品を出すピッキング担当も、手元のハンディに”データが来ないから商品が出せない!”とクレームが入るなか印刷した紙を渡して対応するが、受注データと合わせて全国の店舗のPoSへ商品データを送ることもできない。
Y氏は商品在庫担当だが、兼任でこのシステムを担当していた。
システムの導入はO社に頼み、基幹システムはシステム会社へ保守があるので、まずは電話。「リモートで確認しましたが、サーバとシステムは問題ありません。
回線やインフラ周りの会社にお尋ねください」
「弊社は保守してないので……そうですね、まぁ、もう夕方なので、ご訪問は現在、早くて明日の夕方に訪問ですね 」
社内のLANは大手量販店でハブなど自分で購入して付けたものがある。ここに来て事態の深刻さがじわじわ分かってくる。系列店からは早くデータ処理しろ!と数分前からクレーム電話が鳴り続け、夏の催事で販売が好調な時期でもあり、ワンマン社長は”まだ治らんのか?”とお怒りで、夏の日差しばりにカンカン。配送担当の金髪トラックドライバーはガムをくちゃくちゃ噛みながら、”まだっすか?”とイラつきなら聞いてくる。挙げ句に事務の女性は ”あたし今夜予定あるんで、早く帰りたいんですけど!”と言ってくる。
夏の気温とは別な原因で、汗は止まらない。
「ちきしょう!兼任だって誰もやらないから俺がシステム担当してるだけなのに。その分給与を上げろよ……」Y氏は思う。
そうだ!?なんか保守とかやっている会社、システムガーディアンに電話しよう!
_____ 数時間後、システムガーディアンのスタッフがほいほいやってくる。
1.上位回線が障害じゃないのか確認
そんな時まずは、回線障害を見てみましょう。
いくら社内のVPNルーターが問題なくても、上位の回線が障害があったら繋がりません。こればっかりは無理です。
いきなり障害で、パソコンや端末を散々調べ始めて、挙げ句にVPN設定を調べても解決できず、結局はプロバイダーの障害だったなんて事は良くある話です。
プロバイダーやNTT、もしくは回線公式サイト、SNSをチェックしてみましょう。
便利なのはDowndetector(ダウンデタクター)ですね。
2.基本のPINGと社内状況
ISPからONUまで通信が出来ている状態で、突然に障害が起きた場合の半数以上が内部のネットワーク変更が原因です。
良くあるのは社内の配置換えや同列のネットワークにある会議室で、無線ではなく、有線LANケーブルを使った作業が終わった時に”あれ?このLANケーブル余ってる?とりあえずジャックがあるから差しておこうか”というケース。
この場合ループになって、数分後~数時間後に症状がでます。特にループ検知や不正パケット検知機能のあるスイッチグハブが中間にあった場合、一旦遮断してまた通信を開始させる機能が殆どですので、”なんかわからないけど通信が不定期に止まる”なんてことがあります。この場合、最悪なのはそれぞれの通信部分でIPを持たせてない機器があった場合に回線を追っていかないと障害の原因は見つかりません。
pingを打つと通常Windowsでは4発発射されますが、数発がタイムアウトになり、外部からトレースをかけると、なぜ?と目的と違う場所を読みにいく事があります。また調査として少しつづping範囲を増やしていきますが、それもどこかのタイミングで挙動がおかしくなります。
解決と対応方法
冒頭であった某A社の障害の原因は、きれい好きな女性スタッフが、ご丁寧に普段使われてない資料室のスイッチングハブを一度掃除のために外し、LANをループさせたのが原因でした。
え?そんなのすぐわからないの?と思われるかも知れませんが、LANループは、すぐに障害発生せず、またスイッチングハブにループ予防の機能があると、一定時間ループ検知したポートを止め、また再開させるというタイプがあります。
社内にスイッチングハブがどれくらい設置されてるかケースによりますが、大きい工場だと細かいのも合わせると40~50個なんて良くあります。下手すると場所がわからないので全て回線を追っていく作業が発生します。
調査してる時に、この挙動が発生すると作業自体がループします。
ですので、まずは障害が発生した日時の確認と、VLANがなければ障害が起きている端末から少しつづpingやトレースを増やしていきます。
ちなみに解決策は以下になります。
- ループ検知できるマネージメントなスイッチングハブを使う。
- 不要なLANケーブルは置かない。
- 使ってないスイッチングハブのポートは塞いでおく。
- VLANでネットワークを分けておく。
最後に
「Y氏が辞めると報告があったが……さて、誰かパソコンが詳しいに担当させないとな、ああ、そうだ人事のZ氏にやらせよう!
システムじゃないのだし、インフラってのは誰でもできるだろう」
____ A社の社長はつぶやく。
昨今、数百名規模の会社でも社内SE担当が1名、または兼任という会社も多くあります。今後もクラウド化が進む現在でもオンプレや回線保守は必須です。
また回線保守の責任の区分も難しい点があります。もし貴方が社内で兼任SEなら、極力良いスイッチングハブを使用しVALN設計を行いましょう。