Uma atualização com falha. 8,5 milhões de máquinas. 5,4 mil milhões de dólares.

Uma única atualização de conteúdo com falha da CrowdStrike bloqueou milhões de máquinas Windows em todo o mundo, naquilo que a Microsoft e investigadores externos classificaram como a maior interrupção de TI da história — voos em terra, hospitais encerrados e emissoras fora do ar.

custo da interrupção da CrowdStrike maior interrupção de TI da história processo da Delta contra a CrowdStrike interrupção global de TI em 2024
Deslize para ver a cronologia
8,5 M dispositivos Windows bloqueados (estimativa da Microsoft)
5,4 mil M$ perda direta estimada, Fortune 500 dos EUA (Parametrix)

O que aconteceu, numa tabela.

As fontes estão ligadas no texto; os valores são as estimativas públicas mais recentes disponíveis na última atualização desta página.

Data 19 de julho de 2024.
O que falhou Uma atualização de conteúdo de rotina do sensor Falcon da CrowdStrike, utilizado por equipas de segurança de endpoints em todo o mundo, continha um defeito que fazia as máquinas Windows falharem com o "ecrã azul da morte" ao iniciar — não foi um ciberataque, mas sim uma atualização com falha do próprio software de segurança.
Escala Cerca de 8,5 milhões de dispositivos Windows foram afetados, de acordo com a própria estimativa da Microsoft — menos de 1% de todas as máquinas Windows, mas concentrados nas frotas empresariais que sustentam companhias aéreas, hospitais e bancos.
Recuperação A CrowdStrike identificou e reverteu a atualização com falha em cerca de 80 minutos, mas essa correção não conseguiu chegar às máquinas que já tinham falhado — cada uma precisava de intervenção manual (iniciar em Modo de Segurança e remover o ficheiro com falha) para recuperar, razão pela qual os efeitos da interrupção duraram dias, e não minutos.
Custo reportado A Parametrix, uma empresa de análise de seguros, estimou 5,4 mil milhões de dólares em perdas financeiras diretas para empresas da Fortune 500 dos EUA (excluindo a Microsoft), com perdas seguradas prováveis de apenas 540 milhões a 1,08 mil milhões de dólares, dados os limites típicos das apólices. Só a Delta Air Lines reportou cerca de 500 milhões de dólares em custo total, valor mais tarde ajustado numa apresentação à SEC para cerca de 380 milhões de dólares em impacto direto na receita, mais cerca de 170 milhões de dólares em custos adicionais.

A correção foi rápida. A recuperação não.

Este incidente é um caso escolar de como o MTTR é dominado pela etapa de recuperação, e não pela etapa de diagnóstico.

01

Uma atualização de confiança, não um ataque

O software responsável por impedir invasões foi a causa da interrupção — um lembrete de que ferramentas de segurança com acesso ao nível do kernel são também um ponto único de falha, e de que os pipelines de atualização merecem a mesma disciplina de lançamento faseado que qualquer outra alteração em produção.

02

A correção não podia ser enviada remotamente

Como as máquinas afetadas não conseguiam iniciar, as equipas de TI tiveram de intervir física ou manualmente em cada dispositivo — o fator decisivo que transformou um defeito de 80 minutos numa recuperação de vários dias para grandes frotas, especialmente as que têm discos encriptados que exigem chaves de recuperação.

03

O risco de concentração agrava o custo

As companhias aéreas sofreram a maior perda por empresa de qualquer setor na estimativa da Parametrix, não por terem mais máquinas, mas porque um voo cancelado desencadeia dias de custos com escalas de tripulação e remarcação de passageiros — a mesma dinâmica de atrasos em cascata modelada na calculadora do setor aéreo.

A interrupção da CrowdStrike, explicada.

Perguntas que surgem ao citar este incidente numa conversa sobre resiliência ou risco de fornecedores.

Isto foi um ciberataque? Não — a CrowdStrike e investigadores externos atribuíram-no a um defeito numa atualização de conteúdo de rotina, e não a atividade maliciosa.
A Delta processou a CrowdStrike? Sim — a Delta moveu uma ação civil contra a CrowdStrike nos meses seguintes à interrupção, alegando que os custos e a disrupção da companhia aérea foram desproporcionados face aos tempos de recuperação de outras transportadoras.
Porque é que os custos da Delta excederam os de outras companhias aéreas? Os sistemas de escala de tripulação da Delta ficaram especialmente expostos, prolongando a sua recuperação bem para além da correção inicial — um exemplo de como o MTTR do problema de software subjacente e o MTTR da recuperação operacional total podem divergir drasticamente.
Como é que isto se traduz na calculadora? Modele a interrupção técnica na calculadora de tempo de inatividade de TI e o impacto operacional em cascata na calculadora do setor aéreo — juntas, aproximam o motivo pelo qual o mesmo incidente custou muito mais a uma companhia aérea do que a uma empresa típica.

Quanto custaria à sua frota uma interrupção causada por um fornecedor?

Modele o seu próprio número de dispositivos, tempo de recuperação e impacto no negócio usando a mesma fórmula.

Modo

Cor de destaque