Qualquer pessoa que trabalhe em uma loja de TI sabe que o tempo de atividade do servidor é crucial. O tempo de inatividade do servidor pode causar grandes problemas, desde a redução da produtividade do trabalhador até problemas que afetam a experiência do cliente e podem até levar à perda de vendas. Mas manter o tempo de inatividade no mínimo não é tão simples quanto apenas corrigir problemas como eles surgem. Para manter seus servidores on-line e evitar o tempo de inatividade, você precisa entender o que está acontecendo com eles.
É aí que entra o monitoramento da rede.
Monitorar todos os recursos do sistema associados a um servidor ajudará você a construir uma compreensão dos padrões de uso de recursos que permitirão que você saiba quando as coisas estão funcionando bem, e quando elas estão começando a dar errado. Dessa forma, você sempre pode garantir que seus servidores sejam otimizados de acordo, cuide dos problemas antes que eles surjam e forneça uma melhor experiência ao usuário final.
Mas acessar todas essas informações e sintetizá-la em alertas e relatórios digestíveis e acionáveis é mais fácil dizer do que fazer.
Neste post no blog, vou levá-lo através de algumas das maneiras que você pode usar o WhatsUp gold para monitorar servidores físicos — da saúde do servidor à utilização. Se você está procurando um olhar mais aprofundado para os tópicos discutidos aqui, também como uma demonstração dos recursos de monitoramento de servidor da WUG em ação, confira nosso webinar.
Monitorando a saúde do servidor
Às vezes pode parecer que há sempre algo errado com o hardware do servidor. Desde erros de CPU até sobrecargas de memória, problemas podem surgir com frequência no uso normal, e só se tornam mais frequentes à medida que sua loja cresce e incorpora cada vez mais dispositivos — que nem sempre podem ser bons um com o outro.
A melhor maneira de ficar por dentro de tudo isso é monitorar os indicadores essenciais de saúde do servidor — CPU, memória e utilização de discos, com monitores ativos e configurar alertas que permitirão que você saiba quando as coisas não estão bem.
Isso significa que você pode fazer coisas como rastrear a carga da CPU através de períodos específicos de tempo para que você possa ver quando a carga da CPU é inesperadamente pico (talvez devido a gargalos de processador, ataques de serviço ou outros incidentes de serviço) ou você pode ver quando é anormalmente ocioso, então se o servidor caiu da configuração do balanceador de carga ou pânico do kernel, você também estará ciente disso. E, claro, você pode ser alertado quando a utilização estiver fora do limiar escolhido.
Você pode fazer o mesmo para utilização de memória e também pode configurar relatórios que irão comparar a capacidade de armazenamento em disco com a utilização real de dispositivos com armazenamento em disco, o que é útil para o planejamento da capacidade.
Monitorando componentes de hardware
Os componentes de hardware são outra boa maneira de acompanhar a saúde de seus servidores — se o servidor estiver operando em alta temperatura por um longo período de tempo, isso pode indicar problemas mais profundos. Se possível, você deve configurar um monitor de temperatura que verificará o estado dos sensores de temperatura de um dispositivo — se o sensor retornar um indicador de estado "normal" ou "ok", ele será considerado para cima. Se não, é considerado para baixo.
O WUG também pode ser configurado para exibir detalhes como o status do ventilador e da fonte de alimentação. As informações disponíveis sobre o servidor dependem do dispositivo ser monitorado. Normalmente, somos capazes de monitorar todas essas informações para Dell, Cisco, HP e Dispositivos EMC.
Configuração de alertas críticos
Claro, nenhuma dessas capacidades de monitoramento legais importa se você não pode dizer quando algo está errado. É aí que entra o alerta. No caso de um servidor ou toda a sua rede estar tensa, a WUG vai dizer imediatamente – via alertas personalizáveis entregues por e-mail, SMS ou até mesmo folga. Você pode, portanto, intervir rapidamente e salvar sua empresa de ter que lidar com consequências potencialmente graves.
Mas alertar também pode ser uma dor de cabeça se mal configurado — você não deve, por exemplo, obter alertas para cada dispositivo dependente que cai. Se um dispositivo de gateway cair, esse é o único alerta que você precisa, você não precisa de um alerta de cada dispositivo único conectado além disso dizendo que sua conexão perdida.
Com o WUG, essas tempestades de alerta são facilmente evitadas, pois aplicam automaticamente regras de dependências a dispositivos de camada 2 e camada 3 para evitar tempestades de alerta. Essas configurações também podem ser definidas manualmente.
Com o Alerta Escalonamento, as políticas de notificação no Centro de Alerta podem ser configuradas para intensificar alertas com base na criticidade dos componentes da rede – os alertas podem passar da geração automática de bilhetes de problemas para o envio de alertas para administradores pré-designados.
Com o recurso Reconhecimento de Alerta, o reconhecimento do socorrista de um alerta é considerado uma indicação de que o problema está sendo abordado, e nenhum outro alerta é enviado, a menos que seja acionado pela política de notificação ou como mensagens de registro após a resolução do problema. Isso garante que os problemas que não são corrigidos dentro do prazo sejam tratados adequadamente. Da mesma forma, informações sobre as ações tomadas podem ser adicionadas ao processo de reconhecimento, fornecendo assim dados de resolução de problemas que podem ser usados caso a questão se repita.