ネットワーク機器がオーバーヒートしたり、ネットワークルームの室温が高過ぎたりすると、機器が故障したり劣化が加速したりする可能性があります。特にサーバーのオーバーヒートは、影響が大きい重要な問題になる可能性があります。
The Verge によると、Netflix は158カ国に17,000 台のサーバーを設置しているとのことです。また、Google には250万台以上のサーバーがあると推定されています。Netflix や Google では、このような膨大な数のサーバーを正常に稼働するよう監視しなければなりません。このブログでは、サーバーを含むハードウェア監視機能について考察します。
ハードウェア監視は、システム内の利用可能なセンサーからデータを収集および分析する、IT インフラストラクチャ監視ソリューションが備えるべき重要な機能です。多くの物理コンポーネント (サーバー、ファン、バッテリーなど) には変化を検出または測定できるセンサーが内蔵されており、センサーからのデータがハードウェア監視に使われます。ハードウェア監視機能は、次のような利点を提供します。
オーバーヒートは、企業のハードウェアに生ずる最も一般的な問題の1つです。例えば、サーバーが過熱し始めると、CPU の故障、プログラムメモリの破損、システムのシャットダウン(他の問題も派生)、ハードウェアパフォーマンスの低下など、様々な短期的、長期的問題が発生する可能性があります。サーバーのオーバーヒートを避けるには、コンポーネントの温度センサーのステータスをチェックする温度モニタを設定するのが効果的です。センサーの状態インジケーターが「正常」または「OK」を返した場合は、正常に動作しているとみなすことができます。
サーバーに限らず、各種ハードウェアの正常性の重要な指標を監視し、問題の兆候が検出されたら自動アラートで通知するようにします。
サーバーに関して利用可能な情報は監視されているデバイスによって異なりますが、通常、Dell、Cisco、HP、および EMC デバイスに関する情報はすべて監視できます。
IT インフラストラクチャ監視ソリューションである WhatsUp Gold のハードウェア監視機能を使うと、ハードウェア機器の動作状態が最適でなく、問題を起こしかねない状況を検出して、解決につなげることができます。
WhatsUp Gold にはしきい値ベースの自動アラート機能があり、顕在化する前にハードウェア問題を通知します。アラートは重要度に基づいてエスカレートするように設定できます。また、アラート受信確認機能を使用すると、最初の応答者が確認すれば、対処中であることを示していると見なされ、通知ポリシーによってトリガーされない限り、さらに警告が送られることはありません。
WhatsUp Gold のハードウェアステータス監視は、以前のバージョンでは手動で設定するようになっていましたが、2022 年 10 月 (WhatsUp Gold 2022.1) にハードウェアのステータス監視が組み込まれ、ハードウェアの状態に関する問題をすぐに通知可能な、組み込みのハードウェアステータス監視機能を利用できるようになりました。Redfish 標準をサポートするすべてのベンダーで動作する Redfish ベースの監視になります。
オフィス内の物理的なハードウェアを監視し、ハードウェア機器の潜在的な問題を検出し、修復することができるハードウェア監視機能は、IT インフラストラクチャ監視ソリューションの重要な機能です。特に、サーバーの数が膨大になってくると、ハードウェア監視はますます重要になってきます。
サーバーのオーバーヒートなどでシステムに問題が生じないよう、ハードウェア監視機能が備わった ITインフラストラクチャ監視ソリューションを導入することをお勧めします。WhatsUp Gold のハードウェア監視機能の詳細は、こちらをご覧ください。
Get our latest blog posts delivered in a weekly email.