Objetivo
Descrever o que são os sumários de alertas e como visualizá-los.
Público-alvo
Destinado aos administradores do OpMon e as equipes de TI, que necessitam compreender e entender quais são os maiores gerados de alertas no OpMon.
Solução
Os sumários de alertas servem para visualizar quais são os maiores gerados de alertas no OpMon. Aqui temos um módulo que permite gerar uma série de sumários baseados nas alterações de estados e seus alertas. A tela abaixo é dividida em 2 partes: Relatórios Simples e Relatórios Avançados.
Relatório Simples
Para acessar os sumário de alertas acesse o menu “Relatórios” e clique no submódulo “Sumário de Alertas“:
Com opção de relatórios simples temos a possibilidade de emitirmos os relatórios mais comuns, como os da lista mostrada na figura abaixo. Aqui ressaltamos 02 relatórios que são muito importantes:
Onde:
- 25 maiores geradores de alerta de Host: aqui será emitido um relatório onde serão mostrados 25 ICs que estão gerando mais alertas de forma decrescente. Normalmente elencam os elementos mais problemáticos do ambiente.
- 25 maiores geradores de alerta de Serviço: aqui será emitido um relatório onde serão mostrados 25 AICs que estão gerando mais alertas de forma decrescente. Normalmente elencam os elementos mais problemáticos do ambiente, ou aqueles que necessitam ajustes nos “thresholds”.
Abaixo um relatório real (com os dados sensíveis devidamente preservados) dos 25 maiores geradores de alerta de ICs:
Para a lista acima, podemos listar alguns dos problemas possíveis para gerar alertas para ICs. São eles, entre outros:
a) Problemas ou intermitências no link: se o IC for um roteador ou firewall em uma rede remota, o link pelo qual o OpMon efetua a checagem pode estar com quedas frequentes ou ainda perda de pacotes. Alterações no firewall também podem gerar erros de conexão.
b) Problemas de hardware: um IC com problemas na placa-mãe , memórias ou interface de rede pode gerar estes alertas. Interfaces de rede com problemas, conectadas a determinado IC, pode gerar um alto número de alertas (falsos, neste caso).
c) Má administração: um grande número de alertas em um determinado IC pode indicar que o mesmo não está tendo a administração correta, por falha humana.
DICA: Enfim, podemos não ter a causa-raiz exata do problema, mas o simples fato de um IC estar nesta lista, faz com que o mesmo deva ter uma atenção especial. Sugerimos que este relatório seja emitido semanalmente pelos administradores do OpMon.
Abaixo um relatório dos 25 maiores geradores de alerta de AICs:
Observe que após gerar o relatório, é possível “Voltar” para a tela anterior ou até mesmo “Exportar para CSV” o relatório gerado, através dos ícones localizados no cantos inferiores:
Para a lista acima, podemos listar alguns dos problemas possíveis para gerar alertas para AICs. São eles, entre outros:
a) Thresholds: como o ambiente pode mudar constantemente , os parâmetros de warning e critical devem ser ajustados de forma periódica. Ex.: tempos de resposta de aplicação versus número de usuários ativos.
DICA: Conforme vimos anteriormente, podemos visualizar os “thresholds” tanto nos relatórios de SLA quando nos gráficos de performance (capacity planning). Efetue o acompanhamento dos mesmos através deles para aplicar ajustes periódicos.
b) Esgotamento de recursos: um hardware que hoje atende as expectativas pode, ao longo do tempo, se esgotar. Ex.: espaço em disco, CPU, links, etc.
c) Client: clients mal (ou não) instalados geram alertas para todos os AICs de determinados ICs. Deve ser ajustado o mais rapidamente possível, principalmente quando há reinstalação total do equipamento. Portas padrão do client utilizadas por outras aplicações também causam este tipo de problema.
d) Firewalls: alterações nos firewalls, como bloqueio de portas do client ou portas padrão de gerenciamento (como SNMP) causam “connection refused” e impedem a coleta dos dados para os AICs afetados.
e) Alterações na infra-estrutura: alterações nas aplicações, bancos de dados ou sistemas Web podem afetar a monitoração do serviço. Mudanças de senha, IP’s , layouts de sistemas onde existam “robots” Web, geram alertas e indisponibilidade.
DICA: Toda e qualquer alteração no ambiente deve ser pensada tambémsobre o prisma do gerenciamento e monitoração. Planos de mudança , “change management”, etc., devem ser utilizados para que as métricas configuradas no OpMon não gerem alertas, causando indisponibilidades falsas devido a erros dos responsáveis pelos elementos do ambiente.
f) Serviços dispensáveis: muitas vezes, se um serviço aparece constantemente neste relatório, devemos pensar se este é realmente indispensável. Serviços desta natureza devem ser removidos do OpMon quando não estão sendo úteis no gerenciamento do ambiente.
Relatório Avançado
Nesta opção temos a possibilidade de emitirmos os relatórios mais específicos. Para gerá-los, devemos:
a) Escolher o tipo de relatório, escolhendo entre os mais recentes, maiores geradores e totalizações gerais ou por elementos (ICs, AICs e seus grupos). Veja a figura abaixo:
b) Escolher o período desejado, entre as opções pré-definidas (Ex.: “último mês”) ou escolher o período customizado. Se optar pelo período customizado, definir data iniciar e final:
c) Selecionar o número de objetos:
d) (Opcional) Habilitar os filtros, conforme exemplo da figura abaixo:
e) Selecionar objeto específico, conforme o exemplo da figura abaixo:
f) Selecionar estado de IC, conforme exemplo da figura abaixo:
g) Selecionar tipo de estado, conforme exemplo da figura abaixo:
h) Selecionar estado de AIC, conforme exemplo da figura abaixo:
i) Selecionar paradas agendadas. Conforme exemplo da figura abaixo:
j) Clicar no botão “Gerar relatório avançado“:
Observe que após gerar o relatório, é possível “Voltar” para a tela anterior ou até mesmo “Exportar para CSV” o relatório gerado, através dos ícones localizados nos canto inferiores:
DICA: Você pode clicar duas vezes em qualquer elemento da lista gerada para ir até o IC correspondente.