Ces derniers temps, nous avons beaucoup parlé de la supervision de votre réseau. Nous avons abordé les moniteurs passifs et actifs, SNMP ainsi qu'une comparaison sFlow/Netflow. Mais il y a un élément important de la surveillance que nous avons, jusqu'ici, plutôt passé sous silence : les alertes.
Surveiller votre réseau, c'est bien beau, mais cela ne sert à rien d'avoir quelqu'un qui surveille ce qui se passe sur votre réseau s'il ne vous prévient pas lorsque la situation tourne mal. Un bon système d'alertes vous permet de réagir de façon proactive aux problèmes, avant qu'ils n'affectent les utilisateurs. À l'inverse, une mauvaise configuration peut causer des désagréments, entraînant des perturbations de l'activité, un épuisement professionnel et, pire encore, une « lassitude vis-à-vis des alertes » qui poussera les utilisateurs à ignorer les alertes importantes. Toute personne qui a reçu une rafale d'alertes de son système de surveillance et qui, après s'être connectée, n'a constaté aucun problème peut en témoigner.
Globalement, l'émission d'alertes est incontestablement l'une des pièces les plus importantes dans le puzzle de la supervision réseau. Alors pourquoi est-elle si souvent mal configurée ? Dans ce billet, nous allons passer en revue les choses à faire et à ne pas faire en matière d'alertes, et voir comment une configuration adéquate de l'émission d'alertes peut vous épargner du temps, de l'argent, et des efforts.
Avant de nous pencher sur le profil d'un système d'alertes efficace, examinons les problèmes qu'un système mal configuré peut causer : les faux positifs, les alertes en rafale et, pire que tout, la lassitude vis-à-vis des alertes.
Les faux positifs se produisent lorsque vous recevez une alerte vous indiquant que quelque chose ne va pas, vous vous connectez et constatez que tout est en ordre. Croyez-moi, il n'y a rien de pire qu'un faux positif au milieu de la nuit. Les faux positifs peuvent résulter de seuils, de périodes d'interrogation ou de stratégies d'action mal définis. Par exemple, si votre outil de surveillance est configuré pour interroger les moniteurs actifs toutes les 60 secondes, mais que votre stratégie d'action est configurée pour vous envoyer immédiatement un e-mail en cas de panne, vous risquez de recevoir plus d'alertes que vous ne le souhaitiez.
Une rafale d'alertes se produit lorsqu'un périphérique tombe en panne et que toute sa hiérarchie de périphériques dépendants envoie également des alertes, vous indiquant qu'ils ont perdu la connexion. Bien sûr, vous le savez déjà, mais des dizaines d'alertes inondent maintenant votre messagerie. La cartographie des dépendances peut contribuer à éviter cet inconvénient.
Ces deux problèmes peuvent éroder la confiance des utilisateurs dans votre système d'alertes et conduire à notre dernier problème : la lassitude vis-à-vis des alertes.
La lassitude vis-à-vis des alertes se produit lorsque vous êtes exposé à un grand nombre d'alarmes fréquentes. Vous vous désensibilisez alors à ces alertes. En d'autres termes, toutes ces alertes se transforment tout simplement en bruit de fond, et les alertes qui comptent vraiment sont noyées dans ce vacarme. Dans le pire des cas, les employés peuvent même mettre en place des filtres de messagerie pour les alertes, ce qui constitue une grave erreur. Les alertes qui se retrouvent dans le dossier de messages indésirables ne serviront à rien.
Maintenant que nous savons à quoi ressemble un mauvais système d'alertes, examinons le cas opposé. Un système de surveillance réseau bien configuré doit permettre à votre équipe de savoir précisément ce qu'il se passe sur votre réseau, afin qu'elle puisse agir avant que les utilisateurs ne soient affectés négativement. À quoi ressemble un tel système ? Les alertes doivent présenter ces cinq propriétés :
Exploitabilité : Les techniciens de garde n'ont pas besoin d'être dérangés par des alertes de faible priorité ou à caractère informatif. Il est important d'être sélectif lors de la mise en place des alertes afin de ne pas submerger votre personnel avec des alertes inutiles. Par exemple, les événements informatifs qui se produisent sur vos systèmes Windows ou votre contrôleur de domaine ne vous intéressent peut-être pas. Vous pouvez alors configurer uniquement les alertes critiques sur ces systèmes.
Fiabilité : Les faux positifs et un excès d'alertes de faible priorité érodent la confiance dans le système, ce qui peut conduire à ignorer les alertes importantes.
Prise en compte des dépendances : Vous ne devriez pas recevoir d'alertes pour chaque périphérique dépendant qui tombe en panne. Si un périphérique de passerelle tombe en panne, c'est la seule alerte dont vous avez besoin. Vous n'avez pas besoin d'une alerte de chaque périphérique connecté vous indiquant que sa connexion est perdue.
Hiérarchisation : Vous devriez pouvoir envoyer des notifications d'alertes selon un ordre hiérarchique prédéfini, ce qui permet d'éviter les alertes multiples qui pourraient submerger le personnel, mais aussi de transmettre les alertes au personnel approprié. De cette façon, vos administrateurs système ne seront pas avertis des problèmes de routine qu'un technicien est capable de traiter, à moins que celui-ci manque de réactivité.
Alarmes : Les alertes doivent pouvoir atteindre vos techniciens où qu'ils se trouvent ! Pour autant, vous n'avez pas forcément besoin d'un klaxon et de lumières rouges clignotantes. Mais vous devez disposer de différentes options d'alertes. Que ce soit par e-mail, par SMS ou par Slack, vous devez être au courant du moindre événement.
Comment WhatsUp Gold permet d'éviter les alertes en rafale et la lassitude vis-à-vis des alertes
La configuration d'alertes efficaces et exploitables est beaucoup plus facile avec un outil puissant de monitoring réseau comme WhatsUp Gold (WUG).
WUG est doté de plusieurs fonctionnalités prêtes à l'emploi qui vous aideront à configurer facilement des alertes exploitables pour vos périphériques réseau, notamment :
Escalade des alertes : Les stratégies de notification du Centre d’alertes WUG peuvent être configurées pour faire remonter les alertes en fonction de la criticité des composants du réseau. Les alertes peuvent passer de la génération automatique de tickets d'incident à l'envoi d'alertes à des administrateurs désignés au préalable.
Confirmation de prise en compte des alertes : La confirmation de prise en compte par le premier intervenant indique que le problème est en cours de résolution. Aucune autre alerte n'est alors envoyée, sauf si elle est déclenchée par la stratégie de notification ou sous forme de messages de journal après la résolution du problème. Ainsi, les problèmes qui ne sont pas résolus dans les délais prévus sont traités de façon appropriée. De même, des informations sur les mesures prises peuvent être ajoutées au processus de confirmation de prise en compte. Elles fournissent ainsi des données sur la résolution des problèmes, lesquelles peuvent être utilisées en cas de réapparition d'un problème.
Alertes avec prise en compte des dépendances : WhatsUp applique automatiquement des règles de dépendance aux périphériques de couche 2 et de couche 3 identifiés, afin d'éviter les alertes en rafale. Ces paramètres peuvent également être définis manuellement.
Seuils d'alertes : Chaque aspect surveillé de votre réseau et de vos applications peut être configuré pour générer une action à certains intervalles ou seuils. Les périphériques ou applications critiques peuvent être associés à des seuils inférieurs à ceux des autres périphériques.
Vous souhaitez en savoir plus sur WhatsUp Gold ? Découvrez nos fonctionnalités ici ou essayez-les vous-même avec une version d'évaluation gratuite !
Vous souhaitez en savoir plus sur les systèmes d'alertes ?
Vous souhaitez en savoir plus sur la configuration d'alertes dans WhatsUp Gold ? Regardez notre webinaire à la demande How to Be an On-Call Sysadmin Without Going Crazy. Dans ce webinaire, nous explorons des techniques et technologies d'alertes efficaces qui permettent aux équipes informatiques d'être « en ligne » en cas de nécessité, sans les soumettre à d'incessants faux positifs et alertes en rafale.
Dans ce webinaire, vous découvrirez comment :
Get our latest blog posts delivered in a weekly email.