Uma alteração de configuração de rotina apagou o Facebook da internet.

Um comando de manutenção retirou as rotas de rede para os próprios servidores de nomes de domínio do Facebook — e como as ferramentas internas do Facebook dependiam desse mesmo DNS, a correção exigiu que os engenheiros acedessem fisicamente aos centros de dados que os tinham deixado de fora.

custo da falha do Facebook falha de BGP do Facebook em 2021 custo da falha do Instagram e WhatsApp exemplo de custo de uma falha de DNS
Deslize para ver a cronologia
~6 h Facebook, Instagram e WhatsApp fora do ar
60–100 M$ Receita publicitária perdida estimada (varia conforme o analista)

O que aconteceu, numa tabela.

As fontes estão ligadas no texto; o valor de receita é uma estimativa externa, uma vez que a Meta não divulgou um custo oficial para este incidente específico.

Data 4 de outubro de 2021, com início por volta das 15h39 UTC.
O que falhou Uma alteração de configuração feita durante uma manutenção de rotina na rede principal do Facebook retirou acidentalmente as rotas BGP para os seus servidores DNS autoritativos, segundo o registo do incidente — apagando, na prática, o próprio endereço do Facebook das tabelas de encaminhamento da internet.
Escala Facebook, Instagram, WhatsApp, Messenger e Oculus ficaram inacessíveis a nível global durante cerca de seis a sete horas — uma das falhas mais longas alguma vez registadas para um serviço desta escala.
Estrangulamento na recuperação As ferramentas internas e os sistemas de acesso aos edifícios do Facebook também dependiam do mesmo DNS interno que tinha acabado de falhar, pelo que os engenheiros remotos, segundo relatos, não conseguiram diagnosticar nem corrigir o problema remotamente — a recuperação exigiu acesso físico aos centros de dados afetados.
Custo reportado As estimativas de receita publicitária perdida variam consoante a metodologia: a Snopes estimou cerca de 79 milhões de dólares, enquanto uma análise da Fortune baseada nos resultados trimestrais apontou para um valor mais próximo de 99,75 milhões de dólares — a própria Meta não publicou um valor de custo oficial para esta falha específica.

A falha também deixou de fora os seus próprios engenheiros.

Este é o exemplo mais claro desta lista de um ponto único de falha escondido dentro de sistemas supostamente independentes.

01

As ferramentas internas partilhavam o mesmo domínio de falha

Os sistemas de diagnóstico e de controlo de acesso que dependiam do mesmo DNS interno caíram juntamente com o produto voltado para o público — um lembrete para verificar se as suas ferramentas de resposta a incidentes têm um caminho independente que sobreviva a uma falha do seu sistema principal.

02

Uma alteração de encaminhamento tem um raio de impacto global e instantâneo

Ao contrário de uma falha de servidor que afeta um único centro de dados, a retirada de uma rota BGP remove a acessibilidade em todo o lado de uma só vez — as alterações a nível de rede merecem processos de revisão tão rigorosos como as implementações de aplicações, senão mais.

03

O acesso físico tornou-se o estrangulamento

Quando as ferramentas remotas estão inacessíveis, o tempo de recuperação fica limitado pela rapidez com que alguém consegue chegar fisicamente ao hardware — um cenário que vale a pena planear e ensaiar explicitamente, e não simplesmente presumir.

A falha do Facebook de 2021, explicada.

Perguntas que surgem ao citar este incidente num caso de resiliência de rede ou de ponto único de falha.

Isto foi um ataque de hackers? Não — o Facebook atribuiu-o a um erro de configuração interno durante uma manutenção de rotina, e não a qualquer ataque externo.
Porque é que as estimativas de custo desta falha variam tanto? A Meta nunca publicou um valor oficial, pelo que todos os números públicos são estimativas externas derivadas das taxas de receita publicitária trimestrais — uma boa ilustração de por que o "custo reportado" de plataformas de consumo é frequentemente modelado em vez de divulgado.
Isto afetou apenas a aplicação principal do Facebook? Não — o Instagram, o WhatsApp, o Messenger e o Oculus ficaram todos em baixo simultaneamente, uma vez que partilhavam a mesma infraestrutura de rede subjacente.
Como é que isto se traduz na calculadora? Use a calculadora de tempo de inatividade do site para a abordagem de perda de receita publicitária e de tráfego que este incidente representa.

Quanto custaria uma falha de seis horas à sua plataforma?

Modele o seu próprio tráfego, receita publicitária ou de transações, e tempo de recuperação usando a mesma fórmula.

Modo

Cor de destaque