Caso de estudio · Febrero de 2017

Un comando mal escrito tumbó una parte de internet.

Q: ¿Qué cambió AWS después?

AWS describió cambios, incluidas salvaguardas para evitar eliminar capacidad por debajo de un nivel mínimo y mejoras en el tiempo de reinicio de los subsistemas.

Una única entrada incorrecta en un comando de depuración rutinario eliminó más servidores de los previstos en un subsistema de AWS S3, y el reinicio tardó horas más de lo esperado porque los sistemas afectados no se habían reiniciado por completo en años.

costo de la interrupción de AWS S3 interrupción de AWS us-east-1 en 2017 causa de la interrupción de S3 ejemplo de costo de interrupción de un proveedor de nube

Leer los datos rápidos Modelar una interrupción de infraestructura

Desplácese para ver la cronología

~4 h Duración en la región US-EAST-1

150 M$ Costo estimado para empresas del S&P 500

Datos rápidos

Lo que ocurrió, en una tabla.

Las fuentes están enlazadas en el texto, incluido el propio resumen público de AWS tras el incidente.

Fecha 28 de febrero de 2017, comenzando alrededor de las 9:37 a. m. hora del Pacífico.

Qué falló Un ingeniero autorizado, siguiendo un manual establecido para depurar el sistema de facturación de S3, ejecutó un comando destinado a eliminar un pequeño número de servidores, pero una entrada se introdujo incorrectamente, eliminando un conjunto de servidores mucho mayor de lo previsto y dejando fuera de línea dos subsistemas centrales de S3, según el propio resumen de AWS.

Escala La interrupción duró aproximadamente cuatro horas en la región US-EAST-1 y afectó a una gran parte de internet, ya que una amplia variedad de sitios web, aplicaciones e incluso otras herramientas de estado de AWS dependían de S3 para almacenamiento o configuración, hasta el punto de que AWS no pudo actualizar su propio panel de estado del servicio porque el propio panel dependía de la región afectada.

Cuello de botella en la recuperación Los subsistemas afectados habían crecido tanto a lo largo de años de funcionamiento que nunca se habían reiniciado por completo a esa escala, y el proceso de reinicio tardó considerablemente más de lo previsto como resultado, una brecha de capacidad y pruebas operativas, no una repetición del error original.

Costo reportado The Wall Street Journal reportó una estimación de la firma de modelado de riesgo cibernético Cyence según la cual la interrupción costó a las empresas del S&P 500 unos 150 millones de dólares en conjunto, una cifra ampliamente citada pero modelada por un tercero, no una suma de divulgaciones individuales de las empresas.

Por qué costó tanto

El radio de impacto fue el grafo de dependencias de todo internet.

Casi nada de este costo correspondió a los propios clientes de AWS del subsistema de facturación: correspondió a todos los demás que dependían de S3 sin darse cuenta de cuán profundamente.

Un comando rutinario sigue siendo un cambio en producción

El operador seguía un manual establecido, no improvisaba, y aun así una única entrada mal escrita tuvo un radio de impacto desproporcionado, razón por la cual la validación de entradas y los límites al radio de impacto importan incluso en comandos operativos "rutinarios".

Los sistemas que nunca se reinician son sistemas que no se han probado

La recuperación tardó más de lo esperado precisamente porque los subsistemas afectados no se habían reiniciado antes a su escala actual: las rutas de recuperación no probadas son una fuente oculta de riesgo de MTTR que el crecimiento de capacidad crea silenciosamente.

La dependencia de terceros es invisible hasta que falla

Empresas sin relación directa con el subsistema de facturación de AWS aun así quedaron inoperativas, porque su propia infraestructura dependía silenciosamente de la misma capa de almacenamiento regional, un recordatorio para mapear, no asumir, su radio de impacto real ante la región de un único proveedor.

Preguntas frecuentes

Interrupción de AWS S3, explicada.

Preguntas que surgen al citar este incidente en un caso de dependencia de la nube o riesgo de proveedores.

¿Fue esto un ataque contra AWS? No: AWS lo atribuyó a un error operativo interno durante un procedimiento de depuración rutinario, no a ningún ataque externo.

¿Por qué la cifra de 150 millones de dólares es una estimación de terceros y no la cifra propia de AWS? AWS no publica una estimación de costo para sus propias interrupciones; la cifra de 150 millones de dólares proviene del modelado de riesgo cibernético de Cyence, según lo reportado por The Wall Street Journal, lo que la convierte en una cifra orientativa y no en un total auditado.

¿Qué cambió AWS después? El resumen público de AWS describió cambios en sus herramientas, incluidas salvaguardas para evitar eliminar capacidad por debajo de un nivel mínimo requerido y mejoras en el tiempo de reinicio de los subsistemas.

¿Cómo se traduciría esto a la calculadora? Use la calculadora de tiempo de inactividad de TI o la calculadora de tiempo de inactividad del sitio web según si está modelando infraestructura interna o el impacto de cara al cliente de una interrupción de un proveedor.

Su turno

¿Cuánto le costaría una interrupción de un proveedor de nube?

Modele su propia huella de dependencias, ingresos y tiempo de recuperación usando la misma fórmula.

Abrir la calculadora de tiempo de inactividad de TI Todos los casos de estudio