たった一つの不具合アップデート。 850万台のマシン。54億ドル。

CrowdStrikeの1つの欠陥あるコンテンツアップデートが、世界中で数百万台のWindowsマシンをクラッシュさせました。マイクロソフトや外部の研究者は、これを史上最大のIT障害と呼んでいます——航空便が欠航し、病院が閉鎖され、放送局が放送を中断しました。

CrowdStrike障害のコスト 史上最大のIT障害 CrowdStrike デルタ航空 訴訟 2024年グローバルIT障害
スクロールしてタイムラインを見る
850万台 クラッシュしたWindowsデバイス数(マイクロソフト推定)
54億ドル 米国フォーチュン500企業の推定直接損失(Parametrix)

1つの表でわかる、事の経緯。

出典は本文中にリンクしています。数値はこのページの最終更新時点で入手可能な最新の公開推定値です。

日付 2024年7月19日。
何が起きたか 世界中のエンドポイントセキュリティチームが使用するCrowdStrikeのFalconセンサーへの通常のコンテンツアップデートに欠陥があり、起動時にWindowsマシンが「ブルースクリーン」でクラッシュするようになりました——サイバー攻撃ではなく、セキュリティソフトウェア自体の不具合アップデートでした。
規模 マイクロソフト自身の推定によると、約850万台のWindowsデバイスが影響を受けました——全Windowsマシンの1%未満ですが、航空会社、病院、銀行を運営する企業のフリートに集中していました。
復旧 CrowdStrikeは約80分で不具合のあるアップデートを特定し、撤回しましたが、その修正は既にクラッシュしていたマシンには届きませんでした——それぞれのマシンでセーフモードで起動し不具合ファイルを削除するという手動対応が必要となり、これが障害の影響が数分ではなく数日続いた理由です。
報告されたコスト 保険分析会社Parametrixは、米国フォーチュン500企業(マイクロソフトを除く)への直接的な経済的損失を54億ドルと推定し、典型的な保険限度額を踏まえると、保険でカバーされる損失は5億4000万〜10億8000万ドルにとどまるとしています。デルタ航空単独では、合計で約5億ドルのコストを報告し、その後SEC提出書類で約3億8000万ドルの直接的な収益影響に加え、約1億7000万ドルの追加コストがあったと修正しました。

修正は早かった。だが復旧は早くなかった。

この事例は、MTTRが診断ステップではなく復旧ステップに支配される典型例です。

01

攻撃ではなく、信頼されたアップデート

侵害を防ぐはずのソフトウェアが障害の原因となりました——カーネルレベルのアクセス権を持つセキュリティツールもまた単一障害点であり、アップデートのパイプラインは他の本番環境の変更と同様の段階的ロールアウトの規律に値するという教訓です。

02

修正をリモートでプッシュできなかった

影響を受けたマシンが起動できなかったため、ITチームは物理的または手動で各デバイスに対応する必要がありました——これが80分の不具合を、大規模なフリートにとって数日間の復旧作業に変えた要因であり、特に復旧キーを必要とする暗号化ドライブを持つマシンで顕著でした。

03

集中リスクがコストを増幅させる

Parametrixの推定では、航空業界がどの業界よりも企業あたりの損失が最も大きくなりましたが、それはマシンの台数が多かったからではなく、1便の欠航が数日間にわたって乗務員のスケジュールや乗客の振替コストに連鎖したためです——これは航空会社向け計算ツールがモデル化する連鎖的な遅延のダイナミクスと同じです。

CrowdStrike障害についての質問。

レジリエンスやベンダーリスクの議論でこの事例を引用する際によくある質問。

これはサイバー攻撃だったのですか? いいえ——CrowdStrikeと外部の調査員は、悪意ある行為ではなく、通常のコンテンツアップデートにおける欠陥が原因であるとしています。
デルタ航空はCrowdStrikeを訴えましたか? はい——障害発生後の数か月間、デルタ航空はCrowdStrikeに対して民事訴訟を起こし、同社のコストと混乱は他の航空会社の復旧時間と比べて不釣り合いに大きいと主張しました。
なぜデルタ航空のコストは他の航空会社より高かったのですか? デルタ航空の乗務員スケジューリングシステムが特に影響を受けやすく、初期修正をはるかに超えて復旧が長引きました——これは、根本的なソフトウェア問題のMTTRと完全な運用復旧のMTTRが大きく乖離しうる例です。
これは計算ツールにどう対応しますか? IT障害計算ツールで技術的な障害をモデル化し、航空業界計算ツールで連鎖的な運用への影響をモデル化してください——両者を合わせることで、同じ事象が一般的な企業よりも航空会社にとってなぜはるかに高コストになったかが近似できます。

ベンダー起因の障害は、あなたのフリートにいくらのコストをもたらすでしょうか?

同じ数式を使って、自社のデバイス数、復旧時間、事業影響をモデル化してください。

モード

アクセントカラー