No contexto de TI, war rooms (ou “salas de guerra”) são espaços físicos ou virtuais criados para resolver incidentes críticos, coordenar projetos complexos ou conduzir esforços de alta prioridade. Esses ambientes são projetados para reunir equipes multidisciplinares e centralizar a comunicação e a tomada de decisões, mas especialmente quando é necessário resolver alguma crise. Mas neste post não vou me deter em analisar a prática de lidar com as war rooms, mas apenas em como tentar reduzir a quantidade necessárias das mesmas.
Uma das métricas que observamos em nossos clientes é a quantidade de war rooms que acontecem na TI. Muitas vezes só percebemos que uma organização possui um excesso de salas de guerra estabelecidas, por vias indiretas. Reuniões e contatos com algumas destas infraestruturas de TI estão constantemente com suas equipes alocadas em reuniões de crise e não estão disponíveis. Essa é uma métrica que consideramos muito importante e revela algum (ou mais de um) problema profundo.
Não me entenda mal, war rooms são excelentes ferramentas para resolução de crises por poder reunir diversos especialistas em uma sala e focar tempo e recursos na resolução do problema. E os problemas (ou crises) acontecem, não importa o quão resiliente sejam suas aplicações ou infraestrutura de TI. A indisponibilidade ou mesmo a baixa performance de uma aplicação tem impacto direto nos seus negócios, é dinheiro que vai pro ralo se não for solucionado rapidamente ou até mesmo um dano permanente na imagem de sua empresa. Pior ainda é quando são as duas coisas juntas.
Mas, quando suas war rooms acontecem com uma frequência muito alta, acima de 1 vez por semana, por exemplo, essa é uma métrica clara que algo não vai bem em sua TI e é preciso planejar ações mais profundas para que sua equipe não vire um permanente resolvedor de crises.
Os impactos negativos de um excesso de salas de guerra certamente estão trazendo prejuízos para seu negócio:
- Indisponibilidade de aplicações que com frequência afetam um número grande de clientes, certamente vão fazer com que eles busquem alternativas de produtos ou serviços, a internet é implacável com serviços de baixa qualidade. Pensem em quantos cliente mudariam de uma plataforma como a Netflix (e eles são um exemplo de qualidade nos serviços prestados, pelo menos até hoje) caso ela começasse a apresentar problemas de indisponibilidade ou mesmo baixa performance. A concorrência está de olho no seu cliente.
- Quanto maior a dependência do seu negócio de plataformas digitais (alô, a “transformação digital” já está entre nós), maior é o prejuízo na imagem de sua empresa quando os serviços e produtos fornecidos por ela não performam adequadamente. Pense no prejuízo da imagem da Uber caso os motoristas e usuários da plataforma não consigam se conectar ?
- Pense e se possível meça, em quanto tempo você precisa retirar profissionais altamente qualificados (e caros) de suas tarefas normais. Que deveriam estar entregando novos produtos ou features para seus clientes ao invés de ficarem horas tentando encontrar a causa raiz (expressão batida e desgastada) de uma crise. Pense por um momento nos profissionais e gestores que estiveram reunidos na última war room em sua empresa ? Quanto tempo foi utilizado (e qual o custo) destas pessoas.
- Esta mesma equipe, qualificada (e cara), além de não estar focada em suas tarefas normais, acabará se desgastando e sua empresa corre um risco muito grande de perder profissionais para o mercado pois trabalhar constantemente sob pressão e stress é para poucos e a médio prazo traz impactos significativos na saúde de qualquer pessoa.
Mas nem pense em eliminar as war rooms, elas são muito úteis e vão continuar a existir, a não ser que a IA cumpra sua promessa e nos substitua a todos. Talvez venha a existir salas de guerra só de IAs, vai saber… O que temos que pensar é em como reduzir as crises e automatizar processos de forma que as crises não voltem a se repetir, pelo menos aquelas onde já existam soluções que foram aplicadas anteriormente.
A prática do SRE (Site Reliability Engineering) da Google trata com profundidade em como tornar suas aplicações e infraestrutura mais confiáveis com foco na aplicação de ferramentas e metodologias que produzem resultados excelentes. A introdução da cultura do SRE irá transformar sua organização no sentido de trazer uma maior confiabilidade para suas plataformas digitais, sem impedir a inovação, traduzida em que a área de negócios de sua empresa tanto precisa.
Se você seguidamente precisar chamar ou participar de war rooms, quem sabe não está na hora de avaliar a introdução do SRE com sua equipe de TI ?
Por Dario Brandão Bestetti, CEO da OpServices.