Um interruptor de energia falhou. 150 milhões de dólares e três dias de caos.

Um único equipamento de energia do centro de dados não comutou corretamente, e os sistemas de reserva da Delta não compensaram totalmente. O resultado: cerca de 2.000 voos cancelados e uma recuperação de vários dias, apesar de a falha de energia em si ter durado apenas algumas horas.

custo da falha no centro de dados da Delta cancelamentos de voos da Delta em 2016 falha no centro de dados de uma companhia aérea exemplo de custo de falha de energia de reserva
Deslize para ver a cronologia
2.300 Voos cancelados em três dias
150 M$ Redução do resultado antes de impostos

O que aconteceu, numa tabela.

As fontes estão ligadas no texto, retiradas principalmente das próprias apresentações da Delta à SEC e de divulgações a investidores.

Data 8 de agosto de 2016, com a recuperação a estender-se até 10 de agosto.
O que falhou Um equipamento crítico de controlo de energia no centro de dados da Delta em Atlanta falhou, e alguns sistemas não comutaram para energia de reserva conforme previsto — uma falha parcial da redundância que os centros de dados são especificamente concebidos para evitar.
Escala A interrupção obrigou a Delta a cancelar cerca de 2.300 voos em três dias, deixando passageiros retidos em todo o mundo, embora o problema de energia subjacente tenha sido resolvido em poucas horas.
Diferença na recuperação A falha técnica central — um interruptor de energia — demorou horas a corrigir. Restaurar a operação aérea completa, incluindo o posicionamento de aeronaves e tripulações, demorou dias, ilustrando como a recuperação das operações físicas pode superar em muito a causa técnica raiz.
Custo reportado A Delta revelou nas suas apresentações à SEC que a interrupção e a sua recuperação reduziram o resultado antes de impostos em aproximadamente 150 milhões de dólares, divididos entre o impacto imediato na receita de agosto e custos adicionais de recuperação no trimestre seguinte.

Redundância que não é testada não é redundância.

Este incidente é o exemplo mais claro desta lista da diferença entre "a falha está resolvida" e "o negócio está recuperado".

01

A energia de reserva só é tão boa quanto o seu último teste

Os sistemas de failover foram concebidos exatamente para este cenário e, mesmo assim, não ativaram totalmente — um lembrete de que a redundância precisa de ser testada em condições de falha realistas, e não apenas verificada como instalada.

02

As operações de uma companhia aérea recuperam mais devagar do que os sistemas

Assim que os sistemas voltaram a estar online, aeronaves e tripulações continuavam fora de posição em toda a rede — a mesma dinâmica de cascata nos horários que torna as falhas de companhias aéreas sistematicamente mais dispendiosas por hora do que a sua causa raiz de TI, por si só, sugeriria.

03

Uma interrupção curta ainda pode custar nove dígitos

A própria falha de energia foi resolvida em horas, mas o custo total atingiu 150 milhões de dólares — o custo aumenta com a cascata operacional e a complexidade da recuperação, não apenas com a duração da falha original.

Delta 2016, explicado.

Perguntas que surgem ao citar este incidente num caso de resiliência de centros de dados ou recuperação de desastres.

Isto foi um ciberataque ou uma falha de hardware? Uma falha de hardware e do sistema de energia — a Delta atribuiu-a a uma avaria de equipamento na infraestrutura de energia do seu centro de dados, e não a um ataque externo.
Porque é que demorou três dias a recuperar de um problema de energia de apenas horas? Os voos cancelados e atrasados deixaram aeronaves e tripulações fora de posição em toda a rede da Delta; reconstruir um horário legal e funcional a partir desse estado demora substancialmente mais tempo do que restaurar o sistema subjacente.
A Delta alterou a sua infraestrutura depois disso? A Delta comprometeu-se publicamente a rever e reforçar a resiliência dos seus centros de dados e os testes de energia de reserva na sequência do incidente.
Como é que isto se traduz na calculadora? A calculadora de companhias aéreas modela diretamente esta dinâmica de atraso em cascata — um MTTR de entrada curto ainda assim produz um custo anual elevado, uma vez consideradas a frequência e a cascata.

Quanto custaria uma falha de centro de dados à sua operação?

Modele os seus próprios sistemas, receita e tempo de recuperação usando a mesma fórmula.

Modo

Cor de destaque