Ein routinemäßiges Konfigurations-Update löschte Facebook aus dem Internet.

Ein Wartungsbefehl zog die Netzwerkrouten zu Facebooks eigenen Domain-Nameservern zurück — und weil Facebooks interne Tools auf genau dieses DNS angewiesen waren, mussten Techniker die Behebung des Fehlers vor Ort in den Rechenzentren vornehmen, aus denen sie selbst ausgesperrt waren.

Kosten des Facebook-Ausfalls Facebook BGP-Ausfall 2021 Kosten des Instagram-WhatsApp-Ausfalls Beispiel für Kosten eines DNS-Ausfalls
Scrollen für die Zeitleiste
~6 Std. Facebook, Instagram und WhatsApp offline
60–100 Mio. $ Geschätzter entgangener Werbeumsatz (je nach Analyst unterschiedlich)

Was passiert ist, in einer Tabelle.

Quellen sind im Text verlinkt; die Umsatzzahl ist eine externe Schätzung, da Meta keine offizielle Kostenangabe zu diesem konkreten Vorfall veröffentlicht hat.

Datum 4. Oktober 2021, beginnend gegen 15:39 Uhr UTC.
Was ausfiel Eine Konfigurationsänderung während einer routinemäßigen Wartung an Facebooks Backbone-Netzwerk zog versehentlich die BGP-Routen zu seinen autoritativen DNS-Servern zurück, laut dem Vorfallsbericht — wodurch Facebooks eigene Adresse effektiv aus den Routing-Tabellen des Internets gelöscht wurde.
Ausmaß Facebook, Instagram, WhatsApp, Messenger und Oculus waren weltweit für etwa sechs bis sieben Stunden nicht erreichbar — einer der längsten jemals verzeichneten Ausfälle für einen Dienst dieser Größenordnung.
Wiederherstellungs-Engpass Facebooks interne Tools und Gebäudezugangssysteme waren ebenfalls auf dasselbe interne DNS angewiesen, das gerade ausgefallen war, sodass Techniker das Problem Berichten zufolge weder remote diagnostizieren noch beheben konnten — die Wiederherstellung erforderte physischen Zugang zu den betroffenen Rechenzentren.
Gemeldete Kosten Schätzungen zum entgangenen Werbeumsatz variieren je nach Methodik: Snopes schätzte rund 79 Millionen US-Dollar, während eine Fortune-Analyse auf Basis der Quartalszahlen einen Wert näher an 99,75 Millionen US-Dollar ergab — Meta selbst hat für diesen konkreten Ausfall keine offizielle Kostenzahl veröffentlicht.

Der Ausfall sperrte auch die eigenen Techniker aus.

Dies ist das deutlichste Beispiel auf dieser Liste für einen einzelnen Fehlerpunkt, der sich in scheinbar unabhängigen Systemen versteckt.

01

Interne Tools teilten sich denselben Fehlerbereich

Diagnose- und Zugangskontrollsysteme, die von demselben internen DNS abhingen, fielen zusammen mit dem öffentlich zugänglichen Produkt aus — eine Erinnerung daran, zu prüfen, ob Ihre Incident-Response-Tools über einen unabhängigen Pfad verfügen, der einen Ausfall Ihres Primärsystems übersteht.

02

Eine Routing-Änderung hat einen globalen, sofortigen Wirkungsradius

Anders als ein Serverausfall, der nur ein Rechenzentrum betrifft, entzieht ein BGP-Rückzug die Erreichbarkeit überall gleichzeitig — Änderungen auf Netzwerkebene verdienen Überprüfungsprozesse, die ebenso streng sind wie bei Anwendungs-Deployments, wenn nicht noch strenger.

03

Physischer Zugang wurde zum Engpass

Wenn Remote-Tools nicht erreichbar sind, wird die Wiederherstellungszeit dadurch begrenzt, wie schnell jemand physisch zur Hardware gelangen kann — ein Szenario, das es wert ist, explizit geplant und geübt zu werden, statt es einfach vorauszusetzen.

Facebooks Ausfall 2021, erklärt.

Fragen, die aufkommen, wenn dieser Vorfall in einem Fall zur Netzwerk-Resilienz oder zu Single Points of Failure zitiert wird.

War das ein Hackerangriff? Nein — Facebook führte es auf einen internen Konfigurationsfehler während routinemäßiger Wartungsarbeiten zurück, nicht auf einen externen Angriff.
Warum variieren die Kostenschätzungen für diesen Ausfall so stark? Meta hat nie eine offizielle Zahl veröffentlicht, daher sind alle öffentlichen Zahlen externe Schätzungen, die aus den vierteljährlichen Werbeumsatzraten abgeleitet wurden — eine nützliche Veranschaulichung dafür, warum die „gemeldeten Kosten" bei Verbraucherplattformen oft modelliert statt offengelegt werden.
Betraf das nur Facebooks Haupt-App? Nein — Instagram, WhatsApp, Messenger und Oculus fielen alle gleichzeitig aus, da sie dieselbe zugrunde liegende Netzwerkinfrastruktur nutzten.
Wie lässt sich das auf den Rechner übertragen? Verwenden Sie den Website-Ausfallzeitrechner für die Darstellung von Werbeumsatz- und Traffic-Verlusten, die dieser Vorfall repräsentiert.

Was würde ein sechsstündiger Ausfall Ihre Plattform kosten?

Modellieren Sie Ihren eigenen Traffic, Werbe- oder Transaktionsumsatz und Ihre Wiederherstellungszeit mit derselben Formel.

Modus

Akzentfarbe