サーバーというものは、常時稼働していることを期待されています。サーバーが停止すれば、仕事が停滞して生産性が落ち、顧客の心証は悪くなり、普通に機能していれば得られるはずの収益が得られなくなります。サーバーの停止時間を最小限に抑えるには、ただ発生した問題を解決するだけでは不十分です。サーバーをオンラインに保ち、ダウンタイムを回避するには、サーバーで何が起こっているのかを正確に把握する必要があります。
つまり、サーバー監視を実行する必要があり、それにはネットワーク監視ツールが使われます。
ネットワーク監視ツールを利用してサーバーにつながったすべてのシステムリソースを監視することで、リソースの使用パターンを理解することができます。すべてが正常に稼働しているかどうか、問題が発生し始めたときにはどのような兆候が見受けられるのかがわかります。しっかり監視することで、サーバーが最適な形で稼働しているかどうかをチェックし、問題の兆候があれば顕在化する前に対処することができ、エンドユーザーが快適にシステムを使える状況を保持することが可能になります。
すべての情報をチェックして、それをわかりやすく可視化し、すぐ対処できるよう警告すればいい、とは言うものの、では、実際にはどうすればいいのでしょうか?
このブログでは、プログレスのネットワーク監視システム、WhatsUp Gold を使用して物理サーバーを監視 - サーバーの状態から使用率まで - する方法について説明します。WhatsUp Gold の概要については、 オンデマンド・ウェビナーがありますので、是非ご覧ください。
サーバーの稼働状況の監視
通常の使用なのに CPU エラーやメモリの過負荷といった問題が発生し、デバイスが追加されると問題がより頻繁に発生するようになるといった現象に対しては、サーバーの稼働状況を監視する必要があります。サーバーの状態の重要な指標となる CPU、メモリ、ディスク使用率を監視し、アクティブ監視を行って状況が悪化している傾向があればアラート通知を出すよう設定します。
CPU負荷が予期せずピークに達したとき(おそらく、プロセッサのボトルネック、サービス攻撃、またはその他のサービスインシデントが原因)、または異常な形でアイドル状態になったときなどにすぐ把握できるよう、CPU 負荷や稼働状態を追跡します。サーバーがロードバランサー設定から外れた場合も、気づくことができます。使用率が選択したしきい値を超えたときには、アラートを受け取ることができます。
メモリ使用率についても同じように監視できます。ディスクストレージ容量に関してオンディスクストレージを備えたデバイスの実際の使用率を比較するレポートを設定し、容量計画に役立てることもできます。
ハードウェアコンポーネントの監視
サーバーの状態を追跡するためのもう1つの良い方法として、ハードウェアコンポーネントの監視があります。サーバーが長時間高温で動作しているような場合は、より深刻な問題が潜んでいる可能性があります。ハードウェアデバイスの温度センサーのステータスをチェックする温度モニタの利用を検討してください。センサーが「正常」、「良好」、または「OK」の稼働状態インジケータを返せば、センサーは作動していると見なされ、そうでない場合は停止中と見なされます。
WhatsUp Gold では、ファンや電源のステータスなどの詳細を表示するように設定することもできます。サーバーに関して利用可能な情報は、監視されているデバイスによって異なります。通常、Dell、Cisco、HP などのデバイスについてはファンや電源の情報を監視できます。
重要なアラート設定
このような優れた監視機能があったとしても、監視によって得られた情報を正常に稼働しているのか何かがおかしいのかを判断するのに活用できなければ、宝の持ち腐れであり、意味がありません。したがって、アラート機能が大変重要になってきます。WhatsUp Gold では、サーバーまたはネットワーク全体に負荷がかかった場合、電子メール、SMS、またはスラックなどで、速やかに警告を通知できるよう設定可能です。何を、どのような形で通知するかをカスタマイズすることができ、問題につながる兆候が見られれば迅速に対処できるため、深刻な問題に発展する前に解決可能になります。
ただ、もし設定が適切になされていないと、警告通知は頭痛の種になる可能性もあります。例えば、あるデバイスがダウンしたとき、それに依存しているすべてのデバイスから警告を受け取るようなことは避けるべきです。ゲートウェイデバイスがダウンした場合、それが必要な唯一のアラートであり、接続が失われたことを知らせるアラート以外に、接続されているすべてのデバイスからのアラートは必要ありません。
WhatsUp Gold を使用すると、検出されたレイヤ2およびレイヤ3デバイスに自動的に依存関係ルールを適用でき、このような警告の嵐と呼ばれる現象を回避できます。設定は、手動で行うことも可能です。
アラートエスカレーションは、アラートコンポーネントの重要度に基づいてアラートをエスカレートするように設定できる機能です。トラブルチケットの自動生成から事前に指定された管理者への警告通知まで、エスカレート可能です。
アラート確認機能では、第一対応者がアラートを確認すれば問題が解決されたことを示すものと見なされ、通知ポリシーによってまたは問題の解決後にログメッセージとしてトリガーされない限り、それ以上のアラートは送信されません。最初のアラート期間内に解決されなかった問題は、エスカレートされます。また、問題解決のためにどんなアクションが実行されたのかを示す情報を確認応答プロセスに追加して、問題が再発した場合に使用できる問題解決データを蓄積することもできます。