Análise de Entropia e Boas Práticas de Monitoração

Ao longo de mais 20 anos trabalhando com sistemas de gerenciamento de infraestrutura de TI e redes, a OpServices acumulou uma vasta experiência para ajudar seus clientes a utilizar as melhores práticas de gestão em seus ambientes de TI. Um dos itens que consideramos muito importante é a correta manutenção da plataforma de monitoramento.

E como podemos saber se o OpMon, ou o software de gerenciamento de TI utilizado por sua empresa, está com sua configuração ideal? Chamamos isso de entropia do sistema, ou simplificando, o nível de desorganização do sistema.

Análise de entropia do monitoramento

A entropia é a tendência dos sistemas cibernéticos de se desorganizarem, perdendo energia e informação e rumar para a autodestruição. Já a sintropia é a programação dos sistemas cibernéticos para se organizarem e reorganizarem de modo a manter ou repor energia e informação visando a preservar sua configuração e existência, um programa de auto-preservação.

Embora alguns itens no OpMon já possuam o auto-monitoramento, realizado de forma automática, muitos itens precisam de uma análise mais qualitativa. É essa a ideia deste artigo, abordar 10 itens que analisamos de forma qualitativa para nossos clientes.

1. Excesso de incidentes

Em nossa experiência sabemos que ambientes com poucos incidentes são sinais de atenção aos problemas críticos. Excesso de incidentes pode significar alertas/thresholds mal configurados ou itens que não deveriam ser monitorados por não serem importantes, visto que as falhas não estão sendo corrigidas. É importante dar atenção a este item, caso esteja ocorrendo, pois ajuda a priorizar os problemas a serem corrigidos.

2. Muitos dias sem adição/remoção de hosts

Sabemos que os ambientes de nossos clientes estão cada vez mais dinâmicos, principalmente com a utilização de máquinas virtuais, arquiteturas em nuvem e microserviços. Portanto, empresas que constantemente adicionam e removem hosts ao monitoramento possuem probabilidade maior de ter esse ambiente bem gerenciado.

3. Alertas falsos positivos

Uma boa configuração dos alarmes/thresholds gera diversos benefícios para o bom gerenciamento do ambiente. Em regra geral, todos os incidentes devem ser tratados. Caso algum incidente esteja alarmando sem necessidade (comportamento normal do elemento) ele deve ser eliminado da monitoração ou utilizar algum recurso de “acknowledge”.

Um exemplo disso é a CPU ir a 100% no backup que roda na madrugada. Ele pode não estar impactando os usuários e a infraestrutura neste horário. Neste caso, poderíamos sugerir a implementação do monitoramento adaptativo ou a eliminação do threshold.

4. Não estruturar a monitoração (causa raiz)

O monitoramento de disponibilidade e performance é básico, sendo o primeiro passo para qualquer estrutura a ser monitorada. Entretanto, gera pouco valor a TI e ao negócio da empresa, tornando sua atuação mais reativa.

Boas práticas de governança sugerem ir além para criar uma estruturação hierárquica da monitoração. Seu objetivo é descobrir, por exemplo, quando uma loja online está indisponível, qual elemento de infraestrutura está impactando. Para isso é indicado configurar catálogos de serviços, topologia de redes e grupos de hosts e serviços.

5. Tendência de aumento de incidentes

Além de monitorar e tratar as falhas, atuando proativamente e preventivamente, é importante fazer uma análise de tendência de aumento/redução de incidentes. No cenário ideal, é importante que ocorra uma tendência de redução dos incidentes, a partir de reestruturação do ambiente e da monitoração. Algumas exceções podem se dar em casos de crescimento acelerado do ambiente, tornando inevitável e até normal.

6. Plataforma desatualizada

A atualização da solução garante a utilização dos últimos recursos e correções de segurança. Em alguns casos é recomendada a utilização de um ambiente de homologação, principalmente em ambientes muito customizados em que agentes customizados podem ser impactados por novas funcionalidades.

7. Falta de dashboards ou visualização pobre

Um dos principais diferenciais da nossa plataforma são os dashboards, que permitem maior visibilidade do ambiente de TI e de negócio. Empresas que trabalham bem a representação gráfica das visões costumam valorizar sua área perante o restante da organização. É importante, por sua vez, que os dashboards contenham prioridade visual, ou seja, que não haja excesso de elementos e cores.

8. Alertas não escalonáveis

O correto envio de alertas para os responsáveis e sua posterior escalação para outros responsáveis é fundamental para que a plataforma possa enviar os alarmes para as pessoas certas e no tempo certo. Se a plataforma não possuir uma cadeia de envio de alertas devidamente configurada, seus problemas podem ficar sem solução de forma prolongada. Ou seja, problemas sem responsáveis tornam um pequeno incidente em uma porta de entrada para a indisponibilidade de sistemas.

9. Latência da monitoração

A latência na monitoração informa quanto tempo a plataforma está atrasando suas checagens em função de carga excessiva na plataforma. O correto dimensionamento do hardware permite que os dados coletados na monitoração tragam informações acuradas e que não haja perda na confiabilidade das informações.

10. Número de relatórios gerados

A emissão de relatórios regulares para acompanhar a disponibilidade e a saúde do seu ambiente de TI mostra a maturidade da gestão da sua infraestrutura. Além de apontar possíveis gargalos ou problemas, mostra que a gestão está atenta ao planejamento da sua capacidade instalada, exibindo seus recursos e sua utilização. Uma boa prática, caso sua plataforma permita, é o agendamento automático dos relatórios mais importantes.

Enfim, são diversas as boas práticas que podem ser adotadas para avaliar a qualidade do monitoramento de redes e sistemas. Caso tenha interesse em conhecer mais sobre o nosso trabalho, não deixe de entrar em contato conosco!