Menu
Contato Comercial
Por: Pedro César Tebaldi em 18.11.2021

Site Reliability Engineering: conheça o conceito de SRE

Devido ao aumento da complexidade dos sites, aplicativos e infraestruturas em nuvem, ter cuidado com a arquitetura e o desenvolvimento é apenas uma pequena parte de todo o universo por trás de um sistema. Após o lançamento de um app, é necessário atualizar, implementar novas funcionalidades e corrigir possíveis bugs. E é aí que deve entrar em cena um profissional que entenda de infraestrutura e operações. Há um novo termo que está surgindo no mercado para denominar o profissional que atua na engenharia de confiabilidade do ambiente, o Site Reliability Engineer (SRE).

Ainda não conhece o conceito da engenharia de confiabilidade de sites (SRE)? Então, fique com a gente e entenda quais as principais funções do profissional que atua nesta área e como ele pode agregar valor à sua empresa.

 

Como surgiu o Site Reliability Engineering

O termo Site Reliability Engineering nasceu em 2003, por meio de Ben Treynor Sloos, hoje atual vice-presidente de engenharia da Google nos EUA. O SRE nasceu no momento em que Ben teve que comandar uma equipe de operações com 7 engenheiros de software e desenvolveu uma metodologia de gerenciamento de operação para todo o serviço dentro da plataforma do Google, fazendo uso de recursos eficientes e foco na confiabilidade do usuário.

A partir daí, a confiabilidade do sistema passou a ser o fator mais importante de um projeto e do gerenciamento do time, o impacto é tão positivo que empresas como Amazon, Netflix e LinkedIn também passaram a adotar o conceito de SRE.

O SRE é tanto uma prática quanto uma função de trabalho, onde a engenharia suporta diretamente as operações de software. No Google, o SRE é descrito por seu fundador como “o que acontece quando você pede a um engenheiro de software para projetar uma equipe de operações.”

 

O que faz um SRE?

A função de um Site Reliability Engineer é aprimorar o design e a operação dos sistemas, assegurando que todos os serviços online operem de forma contínua, confiável e ágil. A confiabilidade (reliability) é o foco principal, pois agrega métricas e operações de TI.

Como principal skill profissional de um SRE se destaca a habilidade de identificar quais processos devem ser facilitados e otimizados, trazendo assim maior auto suficiência e desempenho possível ao software, removendo do sistema trabalhos manuais e repetitivos.

De acordo com as recomendações do próprio Google, os engenheiros de confiabilidade devem dividir seu tempo entre tarefas operacionais e projetos. Nesse sentido, 50% do tempo deve ser trabalhando nas operações e os outros 50% em tarefas de desenvolvimento, como na criação de funcionalidades novas, automações e escalonamento do sistema.

Os times SRE do Google, seguem alguns princípios básicos como abraçar o risco, seguir Objetivos de Nível de Serviço (SLOs), eliminar possíveis trabalhos repetitivos, monitorar sistemas distribuídos, automação, engenharia de lançamento e simplicidade.

 

SRE e DevOps

Assim como o DevOps, o SRE tem o foco na cultura e nos relacionamentos, tendo como objetivo aproximar equipes de operação e desenvolvimento com o intuito de acelerar a entrega de serviços. O engenheiro de confiabilidade combina habilidades da equipe de desenvolvimento com as de operação, pois suas responsabilidades são relativas às duas áreas. A SRE pode vir a ajudar equipes de DevOps, quando esta estiver sobrecarregada com tarefas operacionais.

Enquanto o SRE é direcionado ao desenvolvimento e entrega de melhorias e novas funcionalidades nos sistemas, assim como a mitigação de erros e bugs, o DevOps é uma cultura que conta com práticas que visam melhorar constantemente a entrega da qualidade do produto.

 

Guidelines do Google para sistemas de monitoramento

Como a função do SRE é se tornar responsável pela confiabilidade dos sistemas em produção, estes muitas vezes precisam estar intimamente familiarizados com o sistema de monitoramento de um serviço e seus recursos. Sem esse conhecimento os SREs podem não saber onde procurar, como identificar um comportamento anormal ou como encontrar as informações de que precisam durante uma emergência.

Recentemente, publicamos um e-book abordando as principais guidelines do google, utilizadas internamente, para uso de sistemas de monitoramento. Este material pode ser baixado gratuitamente aqui.

E-book sobre Site Reliability Engineering

Caso você precise de ajuda para implementar uma boa solução de monitoramento e que atenda as especificidades do seu negócio, não hesite e entrar em contato com nossos especialistas. Possuímos quase 20 anos de experiência na monitoração de ambientes complexos, do sistema financeiro ao varejo.

Compartilhe:

ESCRITO POR

Pedro César Tebaldi

Atuei por 10 anos no mercado B2B de tecnologia da informação como gerente de marketing, tendo escrito mais de 500 artigos sobre tecnologia durante esse período. Hoje sou líder do time de dados, dentro da área de Business Intelligence da OpServices, prestando consultoria para grandes empresas em todo o Brasil.

Posts Relacionados

ASSINE NOSSA NEWSLETTER E RECEBA
NOSSOS MELHORES CONTEÚDOS!

ASSINE NOSSA NEWSLETTER!

Entre para nossa lista e receba conteúdos exclusivos