ここ数か月の間に、ネットワーク監視のブログで、ネットワーク監視の基本的な要素をいくつか説明してきました。アクティブ監視とパッシブ監視、SNMP、sFlow と NetFlow の比較などです。ですが、全体に関わる重要な要素でありながら、まだあまり言及していなかった機能があります。それは警告機能です。
たとえネットワーク監視ツールそのものがすべて問題なく機能していても、何か問題が発生したときにネットワーク管理者に通知されなかったら、役に立ちません。優れた警告機能があってこそ、問題がユーザーに悪影響を与える前にプロアクティブな対応が可能になります。その一方、警告機能が適切に機能せず、なんでもかんでも警告してしまうような設定になっていると、煩わしいという問題だけにとどまらず、警告の解析のために業務を中断しなければならなくなったり、対処に追われて疲れ果て、最悪の場合には「アラート疲労」を起こしてしまいます。つまり、別の問題が原因のためここで警告された事態には直接対処する必要がないというような警告を何度も受けたために、本当に重要な警告にさえ反応しなくなってしまうということが起こってしまいます。
全般的には、警告機能はネットワーク監視のパズルの最も重要な要素の1つであると言っても差し支えありません。それなのに、警告機能の設定が適切に行われていないケースがよく見受けられます。このブログでは、警告設定における注意事項を確認し、適切に設定された警告機能でどう効率化が図れるかについて説明します。
まず、設定が不適切な場合に、どのような弊害が起きるか、考えてみましょう。不適切な設定が引き起こす可能性のある問題には、誤検知、警告の嵐、そして最も深刻なアラート疲労があります。
誤検知とは、何かがおかしいという警告を受け取ったのに、ログオンしてチェックしてみると何も問題が見つからないという状況を指します。誤検知が真夜中にでも起こったらこれほど落胆することはありません。誤検知は、しきい値、ポーリング期間、またはアクションポリシーの不適切な設定が原因で発生する可能性があります。例えば、監視ツールが60秒ごとにアクティブモニターをポーリングするように設定されている場合、アクションポリシーで何かがダウンしたら直ちに電子メールで警告送信するように記述されていたら、必要以上の警告が送信される可能性があります。
警告の嵐は、1つのデバイスがダウンしたとき、そのデバイスに依存しているすべてのデバイスが、当該デバイスとの接続を失ったとして警告を通知するときに発生します。すでに問題を起こしたデバイスが何であるかが判明したとしても、受信箱に殺到した大量の警告通知が残っています。これを防止するには、依存関係マッピングが役立ちます。
誤検知も、警告の嵐も、警告機能そのもへの信頼性を低下させ、繰り返されると、最悪の問題であるアラート疲労を引き起こします。
アラート疲労は、極めて頻繁に出される警告への対処に忙殺され、しかも本来は対処する必要がなかったような警告だとわかった場合によく起こる症状で、ついには警告に対して鈍感になってしまいます。出される警告がすべて単なるバックグラウンドノイズのようになり、本当に重要な警告までもそのノイズの中にかき消されてしまいます。最悪の場合、アラート用の電子メールフィルタを設定するようになるかもしれませんが、それは大変な過失です。警告メールがスパムフォルダに届いても、何の効果もありません。
設定が不適切な場合の弊害に比して、適切に設定された警告機能には優れたメリットがあります。適切に警告設定されたネットワーク監視システムを使うことで、何がネットワークで起こっているかをチーム全体で把握でき、ユーザーが悪影響を受ける前に対処することが可能になります。警告機能を適切に設定するためには、以下の5つのポイントを押さえる必要があります。
実用的であること: 優先度の低い警告や警戒情報レベルの通知を多忙な技術者に送信して、煩わせるようなことのないように注意する必要があります。警告を設定するときは、不必要な警告を多発しないよう選択することが重要です。たとえば、Windows システムやドメインコントローラーで発生する情報イベントは特に留意しなくてもいいかもしれません。対処する必要のある重要なイベントを警告するよう考慮してください。
信頼性が高いこと: 誤検知と優先度の低い警告の多発は、システムの信頼性を低下させます。アラート疲労を起こさないよう、正確で信頼できる警告を出せるよう設定する必要があります。
依存関係が把握できていること: あるデバイスがダウンしたとき、それに依存しているすべてのデバイスからの警告を受け取るような設定にはしないでください。ゲートウェイ・デバイスがダウンしたとしたら、そのゲートウェイ・デバイスからの警告が唯一の必要な警告です。当該デバイスとの接続が失われたことを通知する依存デバイスからの警告は必要ありません。
適切な担当者に通知されること: 事前定義された順序に従って警告通知を送信できるよう設定する必要があります。各担当者に多数の警告が殺到するのを防ぎ、かつ、警告が適切な担当者に通知されるよう留意してください。例えば、ルーチン的な警告はその担当技術者に送信され、担当者が応答できない場合にだけシステム管理者に警告が送信されるように設定することができます。
様々な方法でチェックできること: 警告は、どこにいても受けられる必要があります。警告ブザーや警告ランプが必要というわけではなく、電子メール、SMS、スラックなど、担当者に最適な警告方法を選択できるオプションがあるべきだということです。最適な方法での警告通知は、より効果的です。
WhatsUp Gold などの優れたネットワーク監視ツールを使用すると、効率的で実用的な警告設定が可能です。プログレスの WhatsUp Gold には、上記のポイントをすべてクリアできる便利な機能が組み込まれています。
警告のエスカレーション: WhatsUp Gold アラートセンターの通知ポリシーは、ネットワークコンポーネントの重要度に基づいて警告をエスカレーションするように設定できます。自動トラブルチケット生成から、事前に指定された管理者への警告送信まで、レベル指定できます。
警告の確認: 最初の応答者が確認すれば、対処中であることを示していると見なされ、通知ポリシーによってトリガーされない限り、さらに警告が送られることはありません。問題が解決された後にログメッセージとして記録されます。問題が妥当な時間枠内で解決できなかった場合は、適切に対処することが可能になります。また、対処のために実行されたアクションに関する情報を確認プロセスに追加して、問題が再発した場合に使用できる問題解決データを収集することもできます。
依存関係を把握した警告: WhatsUp Gold は、強力なレイヤ2/3検出機能を備えており、検出されたデバイスの依存関係ルールを自動的に適用して、警告の嵐を防ぎます。依存関係は手動で設定することもできます。
しきい値ベースの警告: ネットワークやアプリケーションの監視対象となる測定値にしきい値を設定して、それを超えたら必要なアクションを生成するように設定できます。重要なデバイスやアプリケーションには、他のデバイスよりも低いしきい値を設定すれば、より厳重な監視ができます。
Get our latest blog posts delivered in a weekly email.