Fallstudie · Februar 2017

Ein Tippfehler in einem Befehl legte ein Stück des Internets lahm.

Q: Was hat AWS danach geändert?

AWS beschrieb Änderungen, einschließlich Schutzmaßnahmen gegen das Entfernen von Kapazität unter ein Mindestniveau und verbesserte Neustartzeiten der Subsysteme.

Eine einzelne fehlerhafte Eingabe in einen routinemäßigen Debugging-Befehl entfernte mehr Server als beabsichtigt aus einem AWS-S3-Subsystem — und der Neustart dauerte deutlich länger als erwartet, weil die betroffenen Systeme jahrelang nicht vollständig neu gestartet worden waren.

Kosten des AWS-S3-Ausfalls AWS us-east-1 Ausfall 2017 Ursache des S3-Ausfalls Beispiel für Kosten eines Cloud-Anbieter-Ausfalls

Kurzübersicht lesen Einen Infrastrukturausfall modellieren

Scrollen für die Zeitleiste

~4 Std. Dauer in der Region US-EAST-1

150 Mio. $ Geschätzte Kosten für S&P-500-Unternehmen

Kurzübersicht

Was passiert ist, in einer Tabelle.

Quellen sind im Text verlinkt, einschließlich der öffentlichen Zusammenfassung von AWS selbst nach dem Vorfall.

Datum 28. Februar 2017, beginnend gegen 9:37 Uhr PST.

Was ausfiel Ein autorisierter Techniker führte gemäß einem etablierten Playbook zur Fehlerbehebung im S3-Abrechnungssystem einen Befehl aus, der eigentlich nur eine kleine Anzahl von Servern entfernen sollte — doch eine Eingabe wurde falsch eingegeben, wodurch weit mehr Server als beabsichtigt entfernt wurden und zwei zentrale S3-Subsysteme offline gingen, laut AWS' eigener Zusammenfassung.

Ausmaß Der Ausfall dauerte etwa vier Stunden in der Region US-EAST-1 und störte einen großen Teil des Internets, da eine Vielzahl unabhängiger Websites, Apps und sogar andere AWS-Statustools für Speicherung oder Konfiguration von S3 abhingen — AWS konnte nicht einmal sein eigenes Service-Dashboard aktualisieren, weil das Dashboard selbst von der betroffenen Region abhing.

Wiederherstellungs-Engpass Die betroffenen Subsysteme waren über Jahre des Betriebs so groß geworden, dass sie in diesem Umfang nie vollständig neu gestartet worden waren, weshalb der Neustartprozess erheblich länger dauerte als erwartet — eine Lücke bei Kapazität und Betriebstests, nicht eine Wiederholung des ursprünglichen Fehlers.

Gemeldete Kosten Das Wall Street Journal berichtete über eine Schätzung der Cyber-Risikomodellierungsfirma Cyence, wonach der Ausfall S&P-500-Unternehmen insgesamt etwa 150 Millionen US-Dollar kostete — eine vielzitierte, aber von Dritten modellierte Zahl, keine Summe individueller Unternehmensangaben.

Warum es so teuer wurde

Der Wirkungsradius war der Abhängigkeitsgraph des gesamten Internets.

Fast nichts von diesen Kosten entfiel auf AWS' eigene Kunden des Abrechnungssubsystems — sie entfielen auf alle anderen, die von S3 abhingen, ohne zu wissen, wie sehr.

Ein Routinebefehl ist trotzdem eine Änderung an der Produktivumgebung

Der Bediener folgte einem etablierten Playbook und improvisierte nicht — dennoch hatte eine einzige fehlerhafte Eingabe einen überproportionalen Wirkungsradius, weshalb Eingabevalidierung und Begrenzungen des Wirkungsradius auch bei „routinemäßigen" Betriebsbefehlen wichtig sind.

Systeme, die nie neu gestartet werden, sind Systeme, die nicht getestet wurden

Die Wiederherstellung dauerte länger als erwartet, gerade weil die betroffenen Subsysteme zuvor nie in ihrem aktuellen Umfang neu gestartet worden waren — ungetestete Wiederherstellungspfade sind eine versteckte MTTR-Risikoquelle, die durch Kapazitätswachstum still entsteht.

Abhängigkeit von Drittanbietern ist unsichtbar, bis sie versagt

Unternehmen ohne direkte Beziehung zu AWS' Abrechnungssubsystem fielen dennoch aus, weil ihre eigene Infrastruktur stillschweigend von derselben regionalen Speicherschicht abhing — eine Erinnerung daran, den tatsächlichen Wirkungsradius einer einzelnen Anbieterregion zu kartieren, statt ihn anzunehmen.

FAQ

AWS-S3-Ausfall, erklärt.

Fragen, die aufkommen, wenn dieser Vorfall in einem Fall zur Cloud-Abhängigkeit oder zum Anbieterrisiko zitiert wird.

War das ein Angriff auf AWS? Nein — AWS führte es auf einen internen Betriebsfehler während einer routinemäßigen Debugging-Prozedur zurück, nicht auf einen externen Angriff.

Warum ist die Zahl von 150 Millionen US-Dollar eine Schätzung Dritter und nicht AWS' eigene Zahl? AWS veröffentlicht keine Kostenschätzung für seine eigenen Ausfälle; die Zahl von 150 Millionen US-Dollar stammt aus der Cyber-Risikomodellierung von Cyence, wie vom Wall Street Journal berichtet, und ist daher eher richtungsweisend als eine geprüfte Gesamtsumme.

Was hat AWS danach geändert? AWS' öffentliche Zusammenfassung beschrieb Änderungen an seinen Tools, einschließlich Schutzmaßnahmen, die verhindern, dass Kapazität unter ein Mindestniveau entfernt wird, sowie Verbesserungen der Neustartzeit von Subsystemen.

Wie lässt sich das auf den Rechner übertragen? Verwenden Sie den IT-Ausfallzeitrechner oder den Website-Ausfallzeitrechner, je nachdem, ob Sie interne Infrastruktur oder kundenseitige Auswirkungen eines Anbieterausfalls modellieren.

Sie sind dran

Was würde ein Ausfall eines Cloud-Anbieters Sie kosten?

Modellieren Sie Ihre eigene Abhängigkeitslandschaft, Umsätze und Wiederherstellungszeit mit derselben Formel.

IT-Ausfallzeitrechner öffnen Alle Fallstudien