頻繁に起きるデータセンター障害、ダウンタイムを最小化するためのポイントとは
近年、データセンターインフラの信頼性は格段に向上し、管理方法も改善されたため、障害の件数は減少していると思われるかもしれません。しかし、現実はそうではありません。
海外での調査結果となりますが、Uptime Instituteの2018年の調査によると、回答者の31%が過去1年間に障害があったと回答し、48%が過去3年間に少なくとも1回の停止があったとの報告がありました。
また、昨年3月のレポート「2020年の年間障害停止分析」では、サービスの重大な中断を引き起こす”最も深刻な障害”が、より深刻になってきているとの事実が明らかになりました。そして海外・国内問わず、大小頻繁にシステム障害が頻繁に発生しています。
なぜそんなに起きているのでしょうか?ひとつの推測として、ITシステムの複雑さや相互依存性が高まっていることが原因である可能性が高いと言われています。たとえば、 Uptime Institute の調査結果では、大規模な停止障害はデータセンターの停電によるものではなく、ITシステムの構成に関係するものが過去よりも多くなっているとされています。
ダウンタイムにはそれによる直接的な損失に加え、改修するにも多大なコストがかかります。Gartnerによると、ダウンタイムには1分あたり平均60万円(5,600ドル)程度のコストがかかると算出しています。仮に上記の基準をベースに考えると、1時間停止したとすると、平均370万円(33.6万ドル)程度のコストがかかることになります。
そして更なる負の影響としては信頼の失墜による顧客離れの懸念もあるでしょう。
データセンターの障害要因の第1位はヒューマンエラー
データセンターの障害原因は、ネットワーク障害、停電、UPSシステムの故障、自然災害、サイバー攻撃などが挙げられますが、最も多い原因はヒューマンエラーです。
ではなぜヒューマンエラーが起きてしまうのでしょうか?理由は様々ありますが、一つは情報の確認不足・確認漏れ、あるいは確認ミスなどがあり、判断がズレた状況で作業を行うことによるものが考えられます。
データセンター運用を例に考えてみましょう。
もし何らかの機器の変更作業の際に、例えば台帳が最新でなかったり、不正確であったりなどの理由で、もしかしたら作業者が事前に正確な情報を得られていない可能性もあるかもしれません。あるいは、必要とする情報がすべて得られていないかもしれません。
多岐にわたる情報を横断的に容量確認しつつ、運用を進めていかなくてはならない複雑なデータセンター運用の場で、Excel台帳のような”方眼紙をスプレッドシートに変えた程度”のものを使った半アナログな運用では、入力や転記の際の入力漏れ・入力ミスが起こりやすいと言えます。あと当然手間暇もかかります。
ヒューマンエラーの防止は、「業務の簡素化・効率化」が重要
ヒューマンエラーの防止は、「業務の簡素化・効率化」が重要であると考えます。
例えば、不必要なデータの転記作業など人間が手作業で入力しなければならない作業を減らす必要があります。業務を簡素化することで、当然ミスをする確率も減ります。そして業務の効率も上がります。
データセンター・インフラストラクチャー・マネージメント(DCIM)ソフトウェアは、人間が手作業で入力しなければならない作業を減らし、また、サーバールーム内に張り巡らせた各種センサーからの実測データも合わせて登録し、ユーザーに分かりやすく必要な情報を教えてくれ、「業務の簡素化・効率化」を実現します。
弊社が取り扱うDCIMソリューションのトップページはこちら