通信障害・ネットワーク障害を起こさないための対策とは
7月2日 (土) の未明から始まったauなどKDDIモバイル通信サービスでの通信障害は本記事執筆次点の7月3日21時現在もまだ続いているようですね。。
障害原因のきっかけとなったのは、全国中継網におけるルーターの定期メンテナンス作業。ルーターを同一機種の新しいものへ変更したところ、ルーターに何らかの不具合があり、音声通信の一部が約15分間不通になった。この問題への対応として音声トラフィックの切り戻しを行ったが、切り戻し後のアクセス集中により、VoLTE交換機で輻輳(ふくそう、混雑により通信がつながりにくくなること)が発生した。 ~ITMediaより引用
今回のKDDIの通信障害は史上最大規模だったようで、スマートフォンなどでの通話や通信が出来なくなった以上に、宅配便の配送状況の更新不可、トヨタ自動車のつながるクルマ向けサービス「T-Connect」の一部利用不可や、セコムのセキュリティサービスへの一部影響、一部のATMが利用できなくなったり、他にも様々な生活インフラ関連サービスにも影響があったようです。
通信障害はしばしば起こっており、時には今回のように大規模で全国的な影響を及ぼす事態に発展する事もあります。
通信障害・ネットワーク障害が起きる原因はデータセンターや通信局舎内で起きる内的要因とインターネットなどの外的要因に分けられます。
今回のKDDIの障害は、コアルーターの機器交換作業を行っている際にルーターで何らかの不具合が起きたことが最初の原因とのことでしたが、データセンターや通信局舎内で起きる障害「内的要因」を分類すると、①ハードウェア故障・不具合と、②作業ミスの二つに大分できると思います。
通信障害・ネットワーク障害を起こさないための対策とは
ハードウェア故障・不具合は予測は難しいかもしれませんが、少なくともシステムのEOLの管理や、サポート窓口、メンテナンス記録などをしっかり記録しておく事で、障害を未然に防げたり、障害が起きても迅速な対処ができるようになります。
作業ミスについても、ミスが起きないよう事前の正確な設備・システムの状態確認や、確実な手順書を踏むことで、障害に繋がるリスクはかなり抑えられるはずです。
ネットワーク管理システム(NMS)での管理と共に、データセンターインフラ管理システム(DCIM)で、システムのEOLの管理や、サポート窓口、メンテナンス記録や、正確な通信配線経路、電源配線経路をしっかり記録し、その確実なデータをもとに作業指示を行うことで、今回のような通信・ネットワーク障害の発生リスクを抑えることが出来るようになります。
具体的なソリューションをお知りになられたい方はお問い合わせください。
データセンターインフラ運用課題解決に向けたご相談は、DCIMのスペシャリストベンダーである弊社までご相談ください。
弊社のDCIMソリューションページはこちら