Como sistemas complexos falham ⋆ OpServices | Gerenciamento de TI & Dashboards em tempo real

Dando seguimento ao último post sobre o excesso de salas de guerra (war rooms) nas quais suas equipes de TI estão envolvidas, meu amigo Alessandro Ren me enviou este artigo muito interessante sobre como os sistemas complexo falham.

O artigo foi escrito por um médico, Dr. Richard I. Cook do Laboratório de Tecnologias Cognitivas da Universidade de Chicago. Tomei a liberdade de traduzí-lo para o português e reproduzí-lo abaixo. É longo mas bastante elucidativo em tentar explicar como os sistemas falham e que é importante termos a clareza de eles vão falhar e que devemos trabalhar sempre no sentido de mitigá-las e compreender suas causas, bem como aplicar soluções para que elas não voltem a acontecer. Lembrou do SRE ? É bem por aí.

O artigo original está aqui (https://how.complexsystems.fail/)

Como sistemas complexos falham

(Sendo um breve tratado sobre a natureza da falha; como a falha é avaliada; como a falha é atribuída à causa próxima; e a nova compreensão resultante da segurança do paciente)

Richard I. Cook, MD

Laboratório de tecnologias cognitivas

Universidade de Chicago

Sistemas complexos são sistemas intrinsecamente perigosos.

Todos os sistemas interessantes (por exemplo, transporte, assistência médica, geração de energia) são inerentemente e inevitavelmente perigosos por sua própria natureza. A frequência de exposição ao risco pode às vezes ser alterada, mas os processos envolvidos no sistema são eles próprios intrinsecamente e irredutivelmente perigosos. É a presença desses riscos que impulsiona a criação de defesas contra riscos que caracterizam esses sistemas.

Sistemas complexos são fortemente e com sucesso defendidos contra falhas

As altas consequências da falha levam ao longo do tempo à construção de múltiplas camadas de defesa contra falhas. Essas defesas incluem componentes técnicos óbvios (por exemplo, sistemas de backup, recursos de “segurança” do equipamento) e componentes humanos (por exemplo, treinamento, conhecimento), mas também uma variedade de defesas organizacionais, institucionais e regulatórias (por exemplo, políticas e procedimentos, certificação, regras de trabalho, treinamento de equipe). O efeito dessas medidas é fornecer uma série de escudos que normalmente desviam as operações de acidentes.

A catástrofe requer várias falhas — falhas pontuais únicas não são suficientes.

A variedade de defesas funciona. As operações do sistema geralmente são bem-sucedidas. A falha catastrófica aberta ocorre quando pequenas falhas aparentemente inócuas se juntam para criar oportunidade para um acidente sistêmico. Cada uma dessas pequenas falhas é necessária para causar uma catástrofe, mas apenas a combinação é suficiente para permitir a falha. Em outras palavras, há muito mais oportunidades de falha do que acidentes de sistema abertos. A maioria das trajetórias de falha inicial é bloqueada por componentes de segurança do sistema projetados. As trajetórias que atingem o nível operacional são bloqueadas principalmente, geralmente por profissionais.

Os sistemas complexos contêm misturas mutáveis de falhas latentes dentro deles.

A complexidade desses sistemas torna impossível que eles funcionem sem múltiplas falhas presentes. Como elas são individualmente insuficientes para causar falhas, elas são consideradas fatores menores durante as operações. A erradicação de todas as falhas latentes é limitada principalmente pelo custo econômico, mas também porque é difícil antes do fato ver como tais falhas podem contribuir para um acidente. As falhas mudam constantemente devido à mudança de tecnologia, organização do trabalho e esforços para erradicar falhas.

Sistemas complexos funcionam em modo degradado.

Um corolário do ponto anterior é que sistemas complexos funcionam como sistemas quebrados. O sistema continua a funcionar porque contém muitas redundâncias e porque as pessoas podem fazê-lo funcionar, apesar da presença de muitas falhas. Após as revisões de acidentes, quase sempre observam que o sistema tem um histórico de “protoacidentes” anteriores que quase geraram uma catástrofe. Argumentos de que essas condições degradadas deveriam ter sido reconhecidas antes do acidente evidente geralmente são baseados em noções ingênuas de desempenho do sistema. As operações do sistema são dinâmicas, com componentes (organizacionais, humanos, técnicos) falhando e sendo substituídos continuamente.

Os profissionais humanos são o elemento adaptável de sistemas complexos.

Os profissionais e a gerência de primeira linha adaptam ativamente o sistema para maximizar a produção e minimizar acidentes. Essas adaptações geralmente ocorrem a cada momento. Algumas dessas adaptações incluem: (1) Reestruturar o sistema para reduzir a exposição de partes vulneráveis a falhas. (2) Concentrar recursos críticos em áreas de alta demanda esperada. (3) Fornecer caminhos para recuo ou recuperação de falhas esperadas e inesperadas. (4) Estabelecer meios para detecção precoce de desempenho alterado do sistema para permitir cortes graciosos na produção ou outros meios de aumentar a resiliência.

A experiência humana em sistemas complexos está em constante mudança

Os sistemas complexos exigem experiência humana substancial em sua operação e gestão. Essa experiência muda de caráter conforme a tecnologia muda, mas também muda devido à necessidade de substituir especialistas que saem. Em todos os casos, o treinamento e o refinamento de habilidade e experiência são uma parte da função do próprio sistema. A qualquer momento, portanto, um determinado sistema complexo conterá profissionais e estagiários com vários graus de experiência. Questões críticas relacionadas à expertise surgem de (1) a necessidade de usar expertise escassa como um recurso para as necessidades de produção mais difíceis ou exigentes e (2) a necessidade de desenvolver expertise para uso futuro.

A mudança introduz novas formas de falha.

A baixa taxa de acidentes evidentes em sistemas confiáveis pode encorajar mudanças, especialmente o uso de novas tecnologias, para diminuir o número de falhas de baixa consequência, mas de alta frequência. Essas mudanças podem realmente criar oportunidades para novas falhas de baixa frequência, mas de alta consequência. Quando novas tecnologias são usadas para eliminar falhas de sistema bem compreendidas ou para obter desempenho de alta precisão, elas geralmente introduzem novos caminhos para falhas catastróficas em larga escala. Não é incomum que essas novas catástrofes raras tenham um impacto ainda maior do que aquelas eliminadas pela nova tecnologia. Essas novas formas de falha são difíceis de ver antes do fato; a atenção é dada principalmente às supostas características benéficas das mudanças. Como esses novos acidentes de alta consequência ocorrem em uma taxa baixa, várias mudanças no sistema podem ocorrer antes de um acidente, dificultando a visualização da contribuição da tecnologia para a falha.

As visões de “causa” limitam a eficácia das defesas contra eventos futuros.

Soluções pós-acidente para “erro humano” geralmente são baseadas em atividades obstrutivas que podem “causar” acidentes. Essas medidas de fim de cadeia fazem pouco para reduzir a probabilidade de novos acidentes. Na verdade, a probabilidade de um acidente idêntico já é extraordinariamente baixa porque o padrão de falhas latentes muda constantemente. Em vez de aumentar a segurança, as soluções pós-acidente geralmente aumentam o acoplamento e a complexidade do sistema. Isso aumenta o número potencial de falhas latentes e também dificulta a detecção e o bloqueio de trajetórias de acidentes.

A segurança é uma característica dos sistemas e não de seus componentes

A segurança é uma propriedade emergente dos sistemas; ela não reside em uma pessoa, dispositivo ou departamento de uma organização ou sistema. A segurança não pode ser comprada ou fabricada; não é um recurso separado dos outros componentes do sistema. Isso significa que a segurança não pode ser manipulada como uma matéria-prima ou matéria-prima. O estado de segurança em qualquer sistema é sempre dinâmico; a mudança sistêmica contínua garante que o risco e seu gerenciamento estejam mudando constantemente.

As pessoas criam segurança continuamente.

Operações sem falhas são o resultado de atividades de pessoas que trabalham para manter o sistema dentro dos limites de desempenho tolerável. Essas atividades são, na maior parte, parte de operações normais e superficialmente diretas. Mas como as operações do sistema nunca são livres de problemas, as adaptações do praticante humano às condições de mudança realmente criam segurança de momento a momento. Essas adaptações geralmente equivalem apenas à seleção de uma rotina bem ensaiada de um estoque de respostas disponíveis; às vezes, no entanto, as adaptações são combinações novas ou criações de novo de novas abordagens.

As pessoas criam segurança continuamente.

Operações sem falhas são o resultado de atividades de pessoas que trabalham para manter o sistema dentro dos limites de desempenho tolerável. Essas atividades são, na maioria das vezes, parte de operações normais e superficialmente diretas. Mas como as operações do sistema nunca são livres de problemas, as adaptações do profissional humano às condições de mudança realmente criam segurança de momento a momento. Essas adaptações geralmente equivalem apenas à seleção de uma rotina bem ensaiada de um estoque de respostas disponíveis; às vezes, no entanto, as adaptações são combinações novas ou criações de novo de novas abordagens.

Operações sem falhas exigem experiência com falhas.

Reconhecer o risco e manipular com sucesso as operações do sistema para permanecer dentro dos limites de desempenho toleráveis requer contato íntimo com a falha. É provável que o desempenho mais robusto do sistema surja em sistemas onde os operadores podem discernir a “borda do envelope”. É aqui que o desempenho do sistema começa a se deteriorar, se torna difícil de prever ou não pode ser prontamente recuperado. Em sistemas intrinsecamente perigosos, espera-se que os operadores encontrem e apreciem os riscos de maneiras que levem ao desempenho geral desejável. A segurança aprimorada depende de fornecer aos operadores visões calibradas dos riscos. Também depende de fornecer calibração sobre como suas ações movem o desempenho do sistema em direção ou para longe da “borda do envelope”.

Por Dario Brandão Bestetti.