Ein Stromschalter versagte. 150 Millionen US-Dollar und drei Tage folgten.

Ein einzelnes Stromversorgungsgerät im Rechenzentrum schaltete nicht korrekt um, und Deltas Backup-Systeme glichen dies nicht vollständig aus. Das Ergebnis: rund 2.000 gestrichene Flüge und eine mehrtägige Wiederherstellung, obwohl der eigentliche Stromausfall nur wenige Stunden dauerte.

Kosten des Delta-Rechenzentrumsausfalls Delta 2016 Flugstreichungen Rechenzentrumsausfall einer Fluggesellschaft Beispiel für Kosten eines Backup-Stromausfalls
Scrollen für die Zeitleiste
2.300 Gestrichene Flüge über drei Tage
150 Mio. $ Minderung des Vorsteuerergebnisses

Was passiert ist, in einer Tabelle.

Quellen sind im Text verlinkt und stammen hauptsächlich aus Deltas eigenen SEC-Einreichungen und Investorenmitteilungen.

Datum 8. August 2016, wobei sich die Wiederherstellung bis zum 10. August hinzog.
Was ausfiel Ein kritisches Stromsteuerungsgerät in Deltas Rechenzentrum in Atlanta fiel aus, und einige Systeme schalteten nicht wie vorgesehen auf Backup-Strom um — ein teilweises Versagen genau der Redundanz, die Rechenzentren speziell verhindern sollen.
Ausmaß Der Ausfall zwang Delta, rund 2.300 Flüge über drei Tage zu streichen, wodurch Passagiere weltweit gestrandet waren, obwohl das zugrunde liegende Stromproblem innerhalb weniger Stunden behoben war.
Wiederherstellungslücke Der technische Kernausfall — ein Stromschalter — war innerhalb weniger Stunden behoben. Die vollständige Wiederherstellung des Flugbetriebs, einschließlich der Positionierung von Flugzeugen und Besatzungen, dauerte hingegen Tage und zeigt, wie die Wiederherstellung des physischen Betriebs die technische Grundursache um eine Größenordnung überdauern kann.
Gemeldete Kosten Delta gab in SEC-Einreichungen bekannt, dass der Ausfall und seine Behebung das Vorsteuerergebnis um etwa 150 Millionen US-Dollar minderten, aufgeteilt zwischen dem unmittelbaren Umsatzeinbruch im August und zusätzlichen Wiederherstellungskosten im folgenden Quartal.

Redundanz, die nicht getestet wird, ist keine Redundanz.

Dieser Vorfall ist das klarste Beispiel auf dieser Liste für die Lücke zwischen „der Ausfall ist behoben" und „das Geschäft ist wiederhergestellt".

01

Backup-Strom ist nur so gut wie sein letzter Test

Failover-Systeme sind genau für dieses Szenario ausgelegt und aktivierten sich dennoch nicht vollständig — eine Erinnerung daran, dass Redundanz unter realistischen Ausfallbedingungen getestet werden muss und nicht nur als installiert bestätigt werden darf.

02

Der Flugbetrieb erholt sich langsamer als die Flugsysteme

Als die Systeme wieder online waren, befanden sich Flugzeuge und Besatzungen im gesamten Netzwerk immer noch nicht an ihrem vorgesehenen Ort — dieselbe kaskadierende Dynamik im Flugplan, die Ausfälle bei Fluggesellschaften pro Stunde durchweg teurer macht, als es allein die IT-Grundursache vermuten ließe.

03

Ein kurzer Ausfall kann trotzdem einen neunstelligen Betrag kosten

Der Stromausfall selbst war innerhalb weniger Stunden behoben, doch die Gesamtkosten erreichten 150 Millionen US-Dollar — die Kosten skalieren mit der betrieblichen Kaskade und der Komplexität der Wiederherstellung, nicht nur mit der Dauer des ursprünglichen Fehlers.

Delta 2016, erklärt.

Fragen, die aufkommen, wenn dieser Vorfall in einem Fall zur Resilienz von Rechenzentren oder zur Notfallwiederherstellung zitiert wird.

War das ein Cyberangriff oder ein Hardwareausfall? Ein Hardware- und Stromsystemausfall — Delta führte ihn auf eine Gerätefehlfunktion in der Stromversorgungsinfrastruktur des Rechenzentrums zurück, nicht auf einen externen Angriff.
Warum dauerte die Wiederherstellung nach einem nur stundenlangen Stromproblem drei Tage? Gestrichene und verspätete Flüge brachten Flugzeuge und Besatzungen im gesamten Delta-Netzwerk aus ihrer vorgesehenen Position; einen rechtlich zulässigen, funktionierenden Flugplan aus diesem Zustand wiederherzustellen, dauert wesentlich länger als die Wiederherstellung des zugrunde liegenden Systems.
Hat Delta seine Infrastruktur danach geändert? Delta verpflichtete sich öffentlich, nach dem Vorfall die Resilienz seiner Rechenzentren und das Testen der Backup-Stromversorgung zu überprüfen und zu stärken.
Wie lässt sich das auf den Rechner übertragen? Der Rechner für Fluggesellschaften bildet diese kaskadierende Verzögerungsdynamik direkt ab — ein kurzer MTTR-Wert führt trotzdem zu hohen Jahreskosten, sobald Häufigkeit und Kaskadeneffekt berücksichtigt werden.

Was würde ein Rechenzentrumsausfall Ihren Betrieb kosten?

Modellieren Sie Ihre eigenen Systeme, Umsätze und Wiederherstellungszeiten mit derselben Formel.

Modus

Akzentfarbe