攻撃ではなく、信頼されたアップデート
侵害を防ぐはずのソフトウェアが障害の原因となりました——カーネルレベルのアクセス権を持つセキュリティツールもまた単一障害点であり、アップデートのパイプラインは他の本番環境の変更と同様の段階的ロールアウトの規律に値するという教訓です。
CrowdStrikeの1つの欠陥あるコンテンツアップデートが、世界中で数百万台のWindowsマシンをクラッシュさせました。マイクロソフトや外部の研究者は、これを史上最大のIT障害と呼んでいます——航空便が欠航し、病院が閉鎖され、放送局が放送を中断しました。
出典は本文中にリンクしています。数値はこのページの最終更新時点で入手可能な最新の公開推定値です。
この事例は、MTTRが診断ステップではなく復旧ステップに支配される典型例です。
侵害を防ぐはずのソフトウェアが障害の原因となりました——カーネルレベルのアクセス権を持つセキュリティツールもまた単一障害点であり、アップデートのパイプラインは他の本番環境の変更と同様の段階的ロールアウトの規律に値するという教訓です。
影響を受けたマシンが起動できなかったため、ITチームは物理的または手動で各デバイスに対応する必要がありました——これが80分の不具合を、大規模なフリートにとって数日間の復旧作業に変えた要因であり、特に復旧キーを必要とする暗号化ドライブを持つマシンで顕著でした。
Parametrixの推定では、航空業界がどの業界よりも企業あたりの損失が最も大きくなりましたが、それはマシンの台数が多かったからではなく、1便の欠航が数日間にわたって乗務員のスケジュールや乗客の振替コストに連鎖したためです——これは航空会社向け計算ツールがモデル化する連鎖的な遅延のダイナミクスと同じです。
レジリエンスやベンダーリスクの議論でこの事例を引用する際によくある質問。
モード
アクセントカラー