IT 統合監視で根本原因分析とトラブルシューティングを迅速化

IT インフラストラクチャの問題の大部分はネットワークに関連しており、IT インフラストラクチャのほとんどはネットワークと言ってもそれほど過言ではありません。ネットワークは広範に広がっており、また極めて複雑に入り組んでいるため、ネットワークのトラブルシューティングや根本原因の分析は、ネットワークの干し草の山から針を見つけることに例えられるほど困難な作業です。

ネットワーク問題の根本原因分析はなぜ困難か?

ネットワーク問題が発生した場合、解決すべき根本原因が何なのかを分析する必要がありますが、根本原因の解明は簡単ではありません。特に、最近ではネットワーク環境がかつてないほど分散化しており、いろいろな要素が絡み合っているため、根本原因の分析は非常に困難になっています。

多くの場合、主要なアプリケーションはオンプレミスとクラウドの SaaS の両方で実行され、両者の間で処理が共有されるハイブリッド型のものもあります。つまり、クラウドとオンプレミスのインフラストラクチャを監視する必要があります。また、サーバーは仮想化されているのが主流であり、単一サーバーであっても仮想的に多数の VM に分散されるので、仮想マシンの監視も行う必要があります。

根本原因を突き止めなければならない問題は、多岐にわたります。最悪なのはネットワークまたはアプリケーションが完全にダウンしてしまう問題ですが、完全にダウンしないまでもパフォーマンスが低下するといった問題も深刻です。パフォーマンス低下の問題は、追跡が難しく、厄介な問題と言えます。

根本原因の特定が難しい断続的に発生する問題

IT 部門にとって最大の頭痛の種は、断続的なパフォーマンス問題に対処することです。この厄介なパフォーマンス問題は不意に出現し、なぜ問題が起きたかを解明する前に消えてしまいます。そして、繰り返し出現するのですが、散発的なのでつかみどころがありません。ネットワークのある特定の場所に原因がありそうに見えながら、実際はまったく別のところに原因が潜んでいたということはよくあります。400人以上の IT 管理者を対象に行われたあるアンケート調査では、約3分の1が数十分以内で断続的なパフォーマンス問題の原因を突き止めて解決できたと回答したものの、ほぼ同数の回答者が問題の原因を突き止めるのに何時間も費やしています。数日以上かかった場合もあり、数か月かかったという回答も1割に及びました。問題の原因がなかなか究明できなければ、解決できないまま問題が放置されることになります。

散発的なパフォーマンス問題は、中断時間が長くなって深刻な問題に発展しないように、できる限り速やかに原因を究明し、解決しなければなりません。そのためには、問題が起きてから対処に四苦八苦するのではなく、問題が業務に悪影響を与える前にそれを検知し、根本原因を迅速に究明できるような仕組みが必要です。

根本原因分析の鍵:ネットワークマップ

ネットワーク問題の根本原因を解明するには、まずネットワークの状況をしっかり把握することが肝要であり、ネットワークマップが重要な分析ツールになります。ネットワークが視覚化されていれば、トラブルシューティングにかかる時間が大幅に短縮できます。

レイヤ2とレイヤ3のネットワーク情報を検出できる IT 監視ツールは、その情報を使って自動的にマップを生成できます。視覚化されたネットワークトポロジーマップは、サーバー室やデータセンターで処理しているネットワークを整然とした形で表示し、個々のデバイスの最新状況を動的に伝えます。

アプリケーション問題の根本原因分析

アプリケーションは、そのソフトウェア単独で存在するものではなく、Web サーバー、データベース、ネットワーク要素など、それを実現させているテクノロジーに依存しています。ほかのアプリケーションに依存することも多く、依存しているアプリケーションの状況が波及するので根本原因の究明が困難になります。

SharePoint の Web ページが表示できなくなると、ユーザーの視点からは SharePoint がダウンしていることになりますが、依存する Microsoft の Internet Information Services (IIS) の障害が原因かもしれません。これらの依存関係を定義して監視し、アプリケーションの状態を追跡できるようにする必要があります。

IT 監視ツールは、アプリケーションの状態 - アップ、ダウン、警戒、メンテナンス中 – を監視できます。アプリケーションの状態は、監視されるパフォーマンス・マトリクスのしきい値によって定義できます。例えば、あるプロセスでサーバーの CPU 使用率が75%を超えたら、アプリケーションは警戒状態にあるとみなすことができます。90%を超えたら、アプリケーションがダウン状態になったとして IT 管理者に警告を出します。こうした設定をして早期警告を受けられるようにすれば、ユーザーや業務に悪影響が及ぶ前に余裕を持ってパフォーマンス問題に対処することができます。

ワイヤレス問題の根本原因分析

昨今では、ネットワークと言えば、まず最初に想起するのは Wi-Fi ではないでしょうか?Wi-Fi はいたるところにあり、接続されるデバイスの数は膨大であり、複雑でもあります。

ワイヤレスネットワークでは、無線 LAN コントローラ (WLC)、アクセスポイント、クライアントを視覚化することが重要になります。マップは、ポーリングサイクルごとに更新されて、新しく無線ネットワークにログオンしたクライアントがいれば即座にマップに反映される必要があります。

無線ネットワーク問題が起きたとき、最初にチェックするべき点は、アクセスポイントに十分な処理能力があるか、です。クライアント数と帯域幅使用量のパターンを表示する履歴データによって、パフォーマンス問題が起きたときの状態をグラフで確認できます。アクセスポイントに接続しているクライアント数と対応する帯域幅使用量のパターンを分析すれば、そのアクセスポイントがピーク時の無線アクセスの量に対応できるかどうかがわかります。

無線アクセスポイントの処理能力が十分だと確認できたら、WLC の容量は十分かどうかをチェックします。パフォーマンス問題の発生と関係しているかもしれないので、WLC、CPU、メモリ使用量の履歴グラフを複数の時間枠でチェックすることも必要です。これらのリソースの使用量が大きくなるということは、WLC が無線ネットワークのピーク時の量に対応し切れないということを示します。

ワイヤレスの容量に問題がなくてもユーザーから苦情が出る場合は、シグナル強度の問題があるのかもしれません。

統合監視で、IT インフラストラクチャ全体の状況を把握

根本原因分析は、サイロ化された個別の監視ツールを組み合わせるような手法では間に合いません。ネットワークのパフォーマンスと可用性の問題は、できる限り迅速に解決する必要があり、IT インフラストラクチャを構成するすべてを可視化して速やかに根本原因を分析できることが求められます。

IT インフラを全体をカバーする統合 IT 監視ソリューションは、次のような要件を満たすべきです。

  • デバイス検出
  • インフラストラクチャのマッピング
  • ネットワーク、アプリケーション、サーバーの監視
  • プロアクティブなアラート
  • レポート作成

統合ネットワーク監視は、ネットワーク上のすべてのデバイス、アプリケーション、サービスを検出し、それらの間の接続と依存関係を追跡することから始まります。存在しない問題を追跡したり、存在する問題を見逃したりする時間的、人員的余裕はありません。求められるのは、洗練された統合ネットワーク監視ツールを使って、ますます複雑化する IT インフラへの完全なコントロールを確保して、問題が顕在化する前に検知・解決するプロアクティブな監視を行うことです。