La modification de configuration d'un seul client a mis à terre un cinquième du web.

Une seule modification de configuration, valide en elle-même, effectuée par un client de Fastly, a déclenché un bug latent vieux de cinq semaines et mis hors ligne 85 % du réseau de Fastly — entraînant avec elle Reddit, Amazon, Twitch, des sites gouvernementaux et de grands médias d'information dans le monde entier, simultanément.

coût de la panne Fastly cause de la panne CDN panne Fastly de juin 2021 risque de dépendance à un fournisseur unique
Faites défiler pour voir la chronologie
49 min De la détection à 95 % de rétablissement
85 % Du réseau de Fastly renvoyant des erreurs

Ce qui s'est passé, en un tableau.

Fastly n'a jamais communiqué de coût financier pour cet incident, ce qui est en soi digne d'intérêt — cette étude de cas est incluse pour sa leçon sur la rapidité de réponse, non pour son chiffre en dollars.

Date 8 juin 2021, environ de 05h50 à 06h45, heure de l'Est des États-Unis.
Cause de la panne Un déploiement logiciel du 12 mai avait introduit un bug latent qui ne pouvait être déclenché que par une configuration client spécifique. Le 8 juin, un client a poussé une modification de configuration valide qui correspondait exactement à ces conditions, selon le résumé publié par Fastly elle-même.
Ampleur Environ 85 % du réseau de Fastly a commencé à renvoyer des erreurs, mettant hors service Reddit, Twitch, Spotify, PayPal, Shopify, Stripe, gov.uk et de grands médias d'information, dont CNN, The Guardian et le New York Times — des sites sans aucun lien entre eux, si ce n'est le fait de partager le même CDN.
Rétablissement Fastly a détecté la perturbation en moins d'une minute, identifié et désactivé l'élément déclencheur, et rétabli un fonctionnement normal sur 95 % de son réseau en 49 minutes — l'un des rétablissements les plus rapides après une panne d'ampleur mondiale sur cette liste.
Coût rapporté Contrairement aux autres études de cas présentées ici, aucun coût financier global n'a jamais été rendu public par Fastly, ni estimé de façon indépendante pour cet incident — un rappel que de nombreuses pannes très médiatisées ne produisent jamais le moindre chiffre en dollars citable.

Le bug était ancien. Le déclencheur était nouveau.

Cet incident illustre à la fois le risque des infrastructures partagées et à quoi ressemble une réponse aux incidents bien rodée.

01

Les bugs latents attendent le bon déclencheur

Le défaut était présent en production depuis près de quatre semaines avant que la configuration d'un client ne l'active par hasard — un rappel que « pas encore d'incident » ne signifie pas « aucun risque présent ».

02

L'action d'un client, la panne de tous

Une seule modification de configuration valide et autorisée d'un seul client a suffi à dégrader la plateforme partagée pour tous les autres clients — les infrastructures multi-locataires ont besoin de contrôles de rayon d'impact qui ne reposent sur la prudence d'aucun client en particulier.

03

Une détection rapide change toute la courbe des coûts

Un temps de détection d'une minute et un rétablissement en 49 minutes ont maintenu cet incident suffisamment court pour qu'aucune entreprise concernée n'ait apparemment communiqué de perte spécifique — la preuve qu'investir dans le MTTR porte ses fruits précisément quand c'est le plus nécessaire.

La panne Fastly, expliquée.

Questions qui reviennent lorsqu'on cite cet incident dans un cas de dépendance à un CDN ou de réponse aux incidents.

S'agissait-il d'une cyberattaque ? Non — Fastly l'a attribuée à un bug logiciel déclenché par une modification de configuration légitime d'un client, et non à une attaque externe.
Pourquoi n'y a-t-il aucun chiffre de coût pour cet incident ? Ni Fastly ni les sites clients concernés n'ont rendu public un impact financier — la courte durée de la panne a probablement limité l'incitation ou le besoin de le quantifier publiquement.
Pourquoi tant de sites sans rapport entre eux sont-ils tombés en panne en même temps ? Tous utilisaient Fastly comme réseau de diffusion de contenu, si bien qu'une défaillance de l'infrastructure partagée de Fastly a touché tous les clients dépendant de la même capacité affectée, indépendamment des pratiques de fiabilité propres à chaque site.
Comment cela se traduit-il dans le calculateur ? Utilisez le calculateur de temps d'arrêt de site web avec un MTTR court pour voir à quel point un rétablissement rapide limite l'exposition totale, même à grande échelle.

Combien vous coûterait une panne détectée et corrigée rapidement ?

Modélisez votre propre trafic, vos revenus et un MTTR court avec la même formule.

Mode

Accent