Un cambio de configuración rutinario borró a Facebook de internet.

Un comando de mantenimiento retiró las rutas de red hacia los propios servidores de nombres de dominio de Facebook, y como las herramientas internas de Facebook dependían de ese mismo DNS, la solución exigió que los ingenieros accedieran físicamente a los centros de datos que los habían dejado fuera.

costo de la interrupción de Facebook interrupción de BGP de Facebook en 2021 costo de la interrupción de Instagram y WhatsApp ejemplo de costo de una interrupción de DNS
Desplácese para ver la cronología
~6 h Facebook, Instagram y WhatsApp fuera de servicio
60–100 M$ Ingresos publicitarios perdidos estimados (varía según el analista)

Lo que ocurrió, en una tabla.

Las fuentes están enlazadas en el texto; la cifra de ingresos es una estimación externa, ya que Meta no divulgó un costo oficial para este incidente en particular.

Fecha 4 de octubre de 2021, comenzando alrededor de las 15:39 UTC.
Qué falló Un cambio de configuración realizado durante un mantenimiento rutinario en la red troncal de Facebook retiró accidentalmente las rutas BGP hacia sus servidores DNS autoritativos, según el registro del incidente, borrando en la práctica la propia dirección de Facebook de las tablas de enrutamiento de internet.
Escala Facebook, Instagram, WhatsApp, Messenger y Oculus quedaron inaccesibles a nivel mundial durante aproximadamente seis a siete horas, una de las interrupciones más largas jamás registradas para un servicio de esta magnitud.
Cuello de botella en la recuperación Las herramientas internas de Facebook y los sistemas de acceso a los edificios también dependían del mismo DNS interno que acababa de caer, por lo que, según se informó, los ingenieros remotos no pudieron diagnosticar ni solucionar el problema de forma remota; la recuperación requirió acceso físico a los centros de datos afectados.
Costo reportado Las estimaciones de ingresos publicitarios perdidos varían según la metodología: Snopes estimó unos 79 millones de dólares, mientras que un análisis de Fortune basado en los resultados trimestrales situó la cifra más cerca de los 99,75 millones de dólares; Meta no ha publicado una cifra de costo oficial para esta interrupción en particular.

La interrupción también dejó fuera a sus propios ingenieros.

Este es el ejemplo más claro de esta lista de un único punto de fallo oculto dentro de sistemas supuestamente independientes.

01

Las herramientas internas compartían el mismo dominio de fallo

Los sistemas de diagnóstico y de control de acceso que dependían del mismo DNS interno cayeron junto con el producto de cara al público, un recordatorio para comprobar si sus herramientas de respuesta a incidentes cuentan con una vía independiente que sobreviva a un fallo de su sistema principal.

02

Un cambio de enrutamiento tiene un radio de impacto global e instantáneo

A diferencia de una caída de servidor que afecta a un solo centro de datos, la retirada de una ruta BGP elimina la accesibilidad en todas partes a la vez; los cambios a nivel de red merecen procesos de revisión tan rigurosos como los despliegues de aplicaciones, si no más.

03

El acceso físico se convirtió en el cuello de botella

Cuando las herramientas remotas son inaccesibles, el tiempo de recuperación queda limitado por la rapidez con la que alguien puede llegar físicamente al hardware, un escenario que merece planificarse y ensayarse de forma explícita, no darse por descontado.

La interrupción de Facebook en 2021, explicada.

Preguntas que surgen al citar este incidente en un caso de resiliencia de red o de punto único de fallo.

¿Fue esto un ataque de hackers? No: Facebook lo atribuyó a un error de configuración interno durante un mantenimiento rutinario, no a ningún ataque externo.
¿Por qué varían tanto las estimaciones de costo de esta interrupción? Meta nunca publicó una cifra oficial, por lo que todos los números públicos son estimaciones externas derivadas de las tasas de ingresos publicitarios trimestrales, una buena muestra de por qué el "costo reportado" de las plataformas de consumo suele modelarse en lugar de divulgarse.
¿Esto afectó solo a la aplicación principal de Facebook? No: Instagram, WhatsApp, Messenger y Oculus cayeron todos simultáneamente, ya que compartían la misma infraestructura de red subyacente.
¿Cómo se traduciría esto a la calculadora? Use la calculadora de tiempo de inactividad del sitio web para el planteamiento de pérdida de ingresos publicitarios y tráfico que representa este incidente.

¿Cuánto le costaría a su plataforma una interrupción de seis horas?

Modele su propio tráfico, ingresos publicitarios o por transacciones, y tiempo de recuperación usando la misma fórmula.

Modo

Acento