Warum es so lange dauerte
Der Ausfall sperrte auch die eigenen Techniker aus.
Dies ist das deutlichste Beispiel auf dieser Liste für einen einzelnen Fehlerpunkt, der sich in scheinbar unabhängigen Systemen versteckt.
01
Interne Tools teilten sich denselben Fehlerbereich
Diagnose- und Zugangskontrollsysteme, die von demselben internen DNS abhingen, fielen zusammen mit dem öffentlich zugänglichen Produkt aus — eine Erinnerung daran, zu prüfen, ob Ihre Incident-Response-Tools über einen unabhängigen Pfad verfügen, der einen Ausfall Ihres Primärsystems übersteht.
02
Eine Routing-Änderung hat einen globalen, sofortigen Wirkungsradius
Anders als ein Serverausfall, der nur ein Rechenzentrum betrifft, entzieht ein BGP-Rückzug die Erreichbarkeit überall gleichzeitig — Änderungen auf Netzwerkebene verdienen Überprüfungsprozesse, die ebenso streng sind wie bei Anwendungs-Deployments, wenn nicht noch strenger.
03
Physischer Zugang wurde zum Engpass
Wenn Remote-Tools nicht erreichbar sind, wird die Wiederherstellungszeit dadurch begrenzt, wie schnell jemand physisch zur Hardware gelangen kann — ein Szenario, das es wert ist, explizit geplant und geübt zu werden, statt es einfach vorauszusetzen.