garmit DCIMをより便利に使いこなすTIPSその4 ~設備メンテナンス中のアラーム停止を簡単に
弊社が取り扱うおススメ国産DCIM「garmit」の機能を使いこなすTIPSのご紹介シリーズも第四回目となりました。
今回は「設備メンテナンス中のアラーム停止」を簡単に設定できる機能についてご紹介します。
データセンターでは毎日どこかしらで何らかのメンテナンス作業が行われています。これはサーバーやネットワーク機器のICT関連のソフトウェアやファームウェアのバージョンアップであったり不具合改修作業であったり、あるいはUPSや空調機の定期メンテナンス作業であったりと多岐にわたります。また、システムの増強に伴う拡張工事やリプレース作業の場合もあるでしょう。
ところで、データセンターでは一般的に様々なセンサーが設置され、24時間365日設備やシステムの異常をアラームで管理者に知らせてくれる仕組みが設けられています。
そんな中、サーバールーム内でのメンテナンス作業中に、監視システムから何らかのアラームが発生する場合があります。例えば監視対象の装置の電源を停止させてしまったことに起因するアラームであれば、その原因特定は比較的容易です。しかし、閾値超過に関するアラームであった場合、アラーム発生の原因調査に余計な時間を割いてしまうことがあります。その原因が作業を始めたことに起因するものなのか?それとも作業とは関係ないものなのか?といった具合です。
もし仮にアラームの原因が作業に伴うものであると100%理解していたとしても、立て続けに発報されるアラームはうっとおしいものです。しかしもしその原因がつかめなかったとしたら本来のメンテナンス作業以外にも工数をかけてしまいかねません。
だからと言って、毎回作業のたびにアラームを止めたければソフトウェアの監視設定を一旦削除したりしなければならなくなります。
作業スケジュールを設定して簡単にアラームOFF
そこでgarmitでは、メンテナンス作業をカレンダースケジュールとして登録するといった機能を設けました。
ユーザーはgarmitのスケジュール表にメンテナンス作業を行う日時と作業範囲のラック、監視ポイントを設定し、その作業範囲にかかわるアラームについては発報させないよう設定することができます。
ひとつの活用例をご紹介します。例えば、ラック内機器の搭載作業を行う際に、温度センサーを一時的に取り外さなければ作業ができない場合があります。その場合、左の図のように「作業日の10:00~18:00まで、A列のラックの全ての温度監視を無効にする」といった条件として登録します。そうすると、その指定日時のみgarmitはアラーム発報を停止し、その時間が過ぎたら通常運転に戻りますので、ユーザーに余計な負荷はかかりません。
これで、静観すべきアラームと知らずに、アラーム発生の原因調査などに時間を割いてしまうことを防ぐことができるのです。
ちょっとしたニッチな機能ですが、現場作業をスムーズに遂行するためには欠かせない機能ですね。