Die Konfigurationsänderung eines einzigen Kunden legte ein Fünftel des Webs lahm.

Eine einzelne, für sich genommen gültige Konfigurationsänderung eines Fastly-Kunden löste einen fünf Wochen alten latenten Fehler aus und brachte 85 % von Fastlys Netzwerk zum Erliegen — und riss dabei Reddit, Amazon, Twitch, Regierungswebsites und große Nachrichtenportale weltweit gleichzeitig mit in die Tiefe.

Kosten des Fastly-Ausfalls Ursache des CDN-Ausfalls Fastly-Ausfall Juni 2021 Risiko der Abhängigkeit von einem einzigen Anbieter
Scrollen Sie für die Zeitleiste
49 Min. Von der Erkennung bis zu 95 % Wiederherstellung
85 % Von Fastlys Netzwerk mit Fehlermeldungen

Was geschah, in einer Tabelle.

Fastly hat für diesen Vorfall nie einen finanziellen Schaden beziffert, was an sich schon bemerkenswert ist — diese Fallstudie wird wegen ihrer Lehre zur Reaktionsgeschwindigkeit aufgeführt, nicht wegen einer Dollarzahl.

Datum 8. Juni 2021, von etwa 05:50 bis 06:45 Uhr US-Ostküstenzeit.
Was ausfiel Ein Software-Deployment am 12. Mai hatte einen latenten Fehler eingeführt, der nur durch eine bestimmte Kundenkonfiguration ausgelöst werden konnte. Am 8. Juni pushte ein Kunde eine gültige Konfigurationsänderung, die zufällig genau diesen Bedingungen entsprach, laut Fastlys eigener Zusammenfassung.
Ausmaß Etwa 85 % von Fastlys Netzwerk begannen, Fehler zurückzugeben, was Reddit, Twitch, Spotify, PayPal, Shopify, Stripe, gov.uk und große Nachrichtenportale einschließlich CNN, The Guardian und der New York Times lahmlegte — Websites, die außer der gemeinsamen Nutzung desselben CDN in keiner Beziehung zueinander standen.
Wiederherstellung Fastly erkannte die Störung innerhalb einer Minute, identifizierte und deaktivierte den Auslöser und hatte 95 % seines Netzwerks innerhalb von 49 Minuten wieder im normalen Betrieb — eine der schnellsten Wiederherstellungen nach einem Ausfall globalen Ausmaßes auf dieser Liste.
Gemeldete Kosten Anders als bei den anderen Fallstudien hier wurde für diesen Vorfall nie ein finanzieller Gesamtschaden öffentlich bekannt gegeben, weder von Fastly noch von unabhängiger Seite geschätzt — eine Erinnerung daran, dass viele öffentlichkeitswirksame Ausfälle überhaupt keine zitierfähige Dollarzahl hervorbringen.

Der Fehler war alt. Der Auslöser war neu.

Dieser Vorfall zeigt sowohl das Risiko gemeinsam genutzter Infrastruktur als auch, wie eine gut eingeübte Incident-Response aussieht.

01

Latente Fehler warten auf den richtigen Auslöser

Der Defekt war fast vier Wochen lang in Produktion aktiv, bevor die Konfiguration eines Kunden ihn zufällig auslöste — eine Erinnerung daran, dass „bisher keine Vorfälle" nicht dasselbe ist wie „kein Risiko vorhanden".

02

Die Aktion eines Kunden, der Ausfall aller

Die gültige, zulässige Konfigurationsänderung eines einzigen Mandanten reichte aus, um die gemeinsam genutzte Plattform für jeden anderen Kunden zu beeinträchtigen — Multi-Tenant-Infrastrukturen brauchen Kontrollen für den Explosionsradius, die nicht davon abhängen, dass sich ein einzelner Kunde vorsichtig verhält.

03

Schnelle Erkennung verändert die gesamte Kostenkurve

Eine Erkennungszeit von einer Minute und eine Wiederherstellung nach 49 Minuten hielten diesen Vorfall kurz genug, dass offenbar kein beteiligtes Unternehmen einen konkreten Verlust bekannt gegeben hat — der Beweis, dass sich Investitionen in die MTTR genau dann auszahlen, wenn sie am dringendsten gebraucht werden.

Der Fastly-Ausfall, erklärt.

Fragen, die aufkommen, wenn dieser Vorfall in einem Fall zu CDN-Abhängigkeit oder Incident-Response zitiert wird.

War das ein Cyberangriff? Nein — Fastly führte es auf einen Softwarefehler zurück, der durch eine legitime Konfigurationsänderung eines Kunden ausgelöst wurde, nicht auf einen externen Angriff.
Warum gibt es für diesen Vorfall keine Kostenangabe? Weder Fastly noch die betroffenen Kundenseiten haben eine finanzielle Auswirkung öffentlich bekannt gegeben — die kurze Dauer des Ausfalls dürfte den Anreiz oder die Notwendigkeit, sie öffentlich zu beziffern, verringert haben.
Warum fielen so viele voneinander unabhängige Websites gleichzeitig aus? Sie alle nutzten Fastly als Content Delivery Network, sodass ein Fehler in Fastlys gemeinsam genutzter Infrastruktur jeden Kunden betraf, der auf dieselbe betroffene Kapazität angewiesen war, unabhängig von den eigenen Zuverlässigkeitspraktiken der jeweiligen Website.
Wie lässt sich das auf den Rechner übertragen? Verwenden Sie den Website-Ausfallzeitrechner mit einer kurzen MTTR-Eingabe, um zu sehen, wie stark eine schnelle Wiederherstellung die Gesamtauswirkung selbst bei großem Ausmaß begrenzt.

Was würde Sie ein schnell erkannter, schnell behobener Ausfall kosten?

Modellieren Sie Ihren eigenen Traffic, Umsatz und eine kurze MTTR mit derselben Formel.

Modus

Akzent