先日のCrowdStrikeのような大規模障害リスクに備えるために必要なこと
先日2024年7月19日に世界的な大規模IT障害が発生した事件は記憶に新しいかと思います。サイバーセキュリティ企業のCrowdStrikeが、誤って「センサー構成の更新」をFalcon Sensorソフトウェアに配信してしまったことが障害の原因で、およそ850万台のWindowsデバイスがクラッシュしました。この影響は甚大で、航空会社、銀行システム、医療ネットワークなど各方面に及びました。
この災害による損失は、フォーチュン500企業だけでも50億ドル以上に達したようです。今回のように大規模ではなくてもIT障害は頻繁に発生しています。将来のこのような事態がいつ起きるか分かりません。そのリスクに備えるためには、データセンターを常に適切に監視および管理し、障害が発生してもより迅速に対応できるようにし、ダウンタイムを最小化することが求められます。
監視・管理ツールを活用した積極的かつ迅速な対応
最近のクラウドストライクのようなIT災害に備えるために、データセンタープロフェッショナルはDCIM(データセンターインフラ管理)ソフトウェア、インテリジェントラックPDU、およびKVM-over-IPスイッチなどを活用することが推奨されます。これらのツールでは以下の機能がもたらされます。
-
中央集中的なリモート電源制御: DCIMツールでは、インテリジェントPDUが持つリモート電源制御機能と連携し、遠隔で個々のアウトレットの電源をオン/オフすることができます。また緊急時には、特定の機器を迅速かつ安全にシャットダウンまたは再起動することで、損害やデータの損失を防ぎます。
-
リモートアクセス: デバイスの再起動後は、embedded型KVM-over-IP(例:Dell DRACやHP iLO)または外部のKVM-over-IPスイッチ、そしてDell OpenManageやHP Insight Managerのような管理ツールが役に立ちます。
-
迅速なアセット識別: DCIMツールはサイト内の資産情報をリアルタイムに可視化し、障害発生時のトラブルシューティングと復旧を迅速に行えるよう支援します。
-
変更管理の効率化: DCIMでは、ワークフロー(変更管理)プロセスを自動化することで効率化します。
-
電力・環境監視: DCIMは、電力および環境条件を詳細に監視し、さまざまなパラメータの閾値を設定することで、潜在的な問題に対するアラートを通知し、障害を予防します。
-
ヘルスマップ: 電源回路単位やラック単位の電力負荷状態を可視化します。
次のデータセンター障害に備えるためのヒント
将来的にIT障害が「いつ」発生するかは誰も分かりません。皆既に理解されているとは思いますが、障害に備えるために以下のような準備を行う必要があります。
-
検証環境での事前検証
-
冗長化・バックアップ環境の構築
-
災害復旧計画
-
スタッフへの教育と訓練
-
インフラの正確な文書化
※ 今回のブログはSunbird社のブログをベースにDC ASIAが編集しました。
データセンターインフラ運用課題解決に向けたご相談は、DCIMのスペシャリストベンダーである弊社までご相談ください。
弊社のDCIMソリューションページはこちら