El cambio de configuración de un solo cliente rompió una quinta parte de la web.

Un único cambio de configuración, válido en sí mismo, realizado por un cliente de Fastly, activó un error latente de cinco semanas de antigüedad y dejó fuera de línea al 85 % de la red de Fastly, arrastrando con él a Reddit, Amazon, Twitch, sitios gubernamentales y grandes medios de noticias en todo el mundo y al mismo tiempo.

costo de la interrupción de Fastly causa de la interrupción de CDN interrupción de Fastly de junio de 2021 riesgo de dependencia de un solo proveedor
Desplácese para ver la cronología
49 min Desde la detección hasta el 95 % de recuperación
85 % De la red de Fastly devolviendo errores

Lo que ocurrió, en una sola tabla.

Fastly nunca reveló un costo financiero para este incidente, lo cual es en sí mismo digno de mención: este caso de estudio se incluye por su lección sobre la velocidad de respuesta, no por su cifra en dólares.

Fecha 8 de junio de 2021, aproximadamente entre las 05:50 y las 06:45, hora del este de EE. UU.
Qué falló Una implementación de software el 12 de mayo había introducido un error latente que solo podía activarse con una configuración de cliente específica. El 8 de junio, un cliente aplicó un cambio de configuración válido que coincidió exactamente con esas condiciones, según el resumen de la propia Fastly.
Alcance Aproximadamente el 85 % de la red de Fastly comenzó a devolver errores, derribando Reddit, Twitch, Spotify, PayPal, Shopify, Stripe, gov.uk y grandes medios de noticias, incluidos CNN, The Guardian y The New York Times, sitios sin ninguna relación entre sí más allá de compartir la misma CDN.
Recuperación Fastly detectó la interrupción en menos de un minuto, identificó y desactivó el desencadenante, y logró que el 95 % de su red volviera a funcionar con normalidad en 49 minutos, una de las recuperaciones más rápidas de una interrupción de escala global en esta lista.
Costo reportado A diferencia de los demás casos de estudio aquí presentados, no se ha divulgado públicamente ni estimado de forma independiente ningún costo financiero agregado para este incidente por parte de Fastly, un recordatorio de que muchas interrupciones de alta visibilidad nunca llegan a producir una cifra en dólares citable.

El error era antiguo. El desencadenante era nuevo.

Este incidente muestra tanto el riesgo de la infraestructura compartida como el aspecto que tiene una respuesta a incidentes bien ensayada.

01

Los errores latentes esperan el desencadenante adecuado

El defecto llevaba casi cuatro semanas activo en producción antes de que la configuración de algún cliente lo activara por casualidad: un recordatorio de que "todavía no ha habido incidentes" no es lo mismo que "no hay riesgo presente".

02

La acción de un cliente, la interrupción de todos

Un único cambio de configuración válido y permitido de un solo cliente bastó para degradar la plataforma compartida para todos los demás clientes: la infraestructura multiinquilino necesita controles de radio de impacto que no dependan de que ningún cliente en particular actúe con cautela.

03

La detección rápida cambia toda la curva de costos

Un tiempo de detección de un minuto y una recuperación de 49 minutos mantuvieron este incidente lo suficientemente breve como para que, al parecer, ninguna de las empresas involucradas haya revelado una pérdida específica: la prueba de que invertir en el MTTR da sus frutos justo cuando más se necesita.

La interrupción de Fastly, explicada.

Preguntas que surgen al citar este incidente en un caso de dependencia de CDN o de respuesta a incidentes.

¿Fue esto un ciberataque? No: Fastly lo atribuyó a un error de software desencadenado por un cambio de configuración legítimo de un cliente, no a ningún ataque externo.
¿Por qué no hay una cifra de costo para este incidente? Ni Fastly ni los sitios de los clientes afectados han divulgado públicamente un impacto financiero: la corta duración de la interrupción probablemente limitó el incentivo o la necesidad de cuantificarlo públicamente.
¿Por qué cayeron juntos tantos sitios sin relación entre sí? Todos ellos utilizaban Fastly como su red de distribución de contenido, por lo que una falla en la infraestructura compartida de Fastly afectó a todos los clientes que dependían de la misma capacidad afectada, independientemente de las propias prácticas de fiabilidad de cada sitio.
¿Cómo se traduciría esto a la calculadora? Use la calculadora de tiempo de inactividad del sitio web con un MTTR corto para ver cuánto limita una recuperación rápida la exposición total, incluso a gran escala.

¿Cuánto le costaría una interrupción detectada y resuelta rápidamente?

Modele su propio tráfico, ingresos y un MTTR corto usando la misma fórmula.

Modo

Acento