Menu
Contato Comercial
Por: Pedro César Tebaldi em 13.12.2022

Os 4 sinais de ouro do SRE

Sabemos que na era digital o foco é sempre proporcionar uma boa experiência para os usuários de aplicações e sistemas. Ir cada vez mais a fundo nos status das aplicações, servidores e todas as variáveis envolvidas no seu funcionamento é o que garantirá que os indicadores vitais para uma boa experiência, estejam de acordo com o esperado.

Mas, no meio de tantos dados e informações geradas por esses sistemas, pode acabar se tornando confuso entender o que, de fato, é importante monitorar e alarmar para que o time de TI tome as devidas providências para manter os sistemas confiáveis. A prática de SRE, cita 4 métricas que são essenciais para qualquer estratégia de monitoração eficaz, intituladas de os 4 sinais de ouro da observabilidade em sistemas e aplicações.

 

Os 4 sinais de ouro do SRE

No livro de SRE do Google, é relatado que se você tiver que priorizar apenas 4 métricas para monitorar que elas sejam: latência, tráfego, erros e saturação.

 

1. Latência

Relativo ao tempo de resposta para uma solicitação. Tenha definido o que se enquadra como uma latência de solicitação bem-sucedida ou com falha, com isso em mãos, monitore a relação entre esses dois estados para acompanhar a integridade do seu sistema. Isso te ajuda a identificar quais serviços não estão funcionando da maneira esperada, auxiliando as equipes na identificação de erros mais rapidamente.

Um ponto importante é rastrear de onde está vindo a latência do erro, não apenas filtrar esse erro. Por exemplo, um erro HTTP 500 disparado devido a perda de conexão com banco de dados é de fácil identificação, já um erro que mostra apenas que teve 800 segundos de latência geral é difícil de entender, o que deve ser feito para correção.

 

2. Tráfego

Essa medida se refere ao quanto de demanda tem sido colocada no sistema. Em web services a medição é focada em quantas solicitações HTTP estão sendo feitas por segundo, e que podem ser organizadas por exemplo, em conteúdo estático X conteúdo dinâmico. Já em streamings, a medição deve ter o foco na taxa de I/O da rede ou de sessões de forma simultânea.

Ao monitorar as interações do usuário e o tráfego nas aplicações, você pode saber exatamente como anda a experiência desses usuários e quais pontos o sistema apresenta algum tipo de problema.

 

 

3. Erros

Se trata da quantidade de solicitações para o servidor que está retornando erro. É importante haver a diferenciação entre os erros explícitos como HTTP 500, erros implícitos como HTTP 200, ou por política (por exemplo, foi acordado um tempo de resposta X e respostas acima de X serão consideradas erros). Caso os códigos de respostas não forem suficientes, para expressar todos os tipos de falha, é válido ativar protocolos secundários (internos) para rastreio de modos de falha.

É importante a equipe definir quais são os erros críticos ao sistema, para que a integridade e confiabilidade do não sejam afetadas perante os olhos dos usuários e que quando estes ocorram, a equipe atue rapidamente para saná-los.

 

4. Saturação

Pode ser definida como a capacidade geral do serviço, o quanto de recursos do sistema determinada aplicação utiliza, como CPU, largura de banda entre outros. Em sistemas muito complexos, a saturação pode ser integrada com a medição de carga de alto nível. Sabemos que de alguma forma, a maioria dos serviços acaba tendo uma certa degradação de desempenho, o foco deve ser descobrir onde isso ocorre e estipular metas de monitoramento para que ações corretivas possam ser realizadas à tempo.

 

Conclusão

Os 4 sinais de ouro do SRE, são um ótimo ponto de partida para a monitoração de sistemas, pois são as principais métricas que todo sistema deveria ter alertas e indicadores. Rastrear a latência, tráfego, erros e saturação de todos os serviços em tempo real, ajuda a equipe a visualizar rapidamente os problemas e atuar em suas correções de maneira ágil.

Com esse tipo de monitoramento você não apenas terá uma melhora no gerenciamento de incidentes, como também terá uma melhor performance da equipe, uma vez que essa poderá focar em outras atividades sabendo que seu sistema será alarmado, somente em casos realmente necessários. Quanto mais informações você tiver sobre o seu sistema, mais fácil é mapear e atuar nos erros de forma rápida e efetiva.

Se você quer ajuda para implementar a monitoração dos 4 sinais de ouro, entre outros na sua empresa. Saiba que temos um time especialista em monitoração pronto para te auxiliar. Fale com nossos especialistas e entre em 2023, tendo sistemas e aplicações muito mais confiáveis.

Compartilhe:

ESCRITO POR

Pedro César Tebaldi

Atuei por 10 anos no mercado B2B de tecnologia da informação como gerente de marketing, tendo escrito mais de 500 artigos sobre tecnologia durante esse período. Hoje sou líder do time de dados, dentro da área de Business Intelligence da OpServices, prestando consultoria para grandes empresas em todo o Brasil.

Posts Relacionados

ASSINE NOSSA NEWSLETTER E RECEBA
NOSSOS MELHORES CONTEÚDOS!

ASSINE NOSSA NEWSLETTER!

Entre para nossa lista e receba conteúdos exclusivos