一次糟糕的更新。 850万台设备。54亿美元。

CrowdStrike 一次存在缺陷的内容更新,导致全球数百万台 Windows 设备崩溃,微软和外部研究人员将其称为历史上最大规模的IT中断事件——航班停飞、医院停诊、广播电台中断播出。

CrowdStrike 中断成本 历史上最大规模的IT中断 CrowdStrike 达美航空诉讼 2024年全球IT中断
向下滚动查看时间线
850万 崩溃的 Windows 设备数(微软估算)
$54亿 美国财富500强企业预估直接损失(Parametrix)

一张表看懂事情经过。

来源已在正文中标注链接;数字为本页最近一次更新时可获得的最新公开估算值。

日期 2024年7月19日。
故障原因 全球端点安全团队广泛使用的 CrowdStrike Falcon 传感器的一次例行内容更新中存在缺陷,导致 Windows 设备在启动时崩溃为"蓝屏死机"——这不是网络攻击,而是安全软件自身的一次错误更新。
影响规模 根据微软自身的估算,约有850万台 Windows 设备受到影响——虽然不到全部 Windows 设备的1%,但集中在支撑航空公司、医院和银行运作的企业级机队中。
恢复过程 CrowdStrike 在约80分钟内识别并撤回了有问题的更新,但该修复无法触达已经崩溃的设备——每一台都需要人工干预(启动进入安全模式并删除故障文件)才能恢复,这正是此次中断的影响持续数天而非数分钟的原因。
报告成本 保险分析公司 Parametrix 估算美国财富500强企业(不含微软)直接经济损失达54亿美元,鉴于典型保单限额,预计已投保损失仅为5.4亿至10.8亿美元。仅达美航空一家就报告了约5亿美元的总成本,后在SEC文件中修订为约3.8亿美元的直接收入影响,外加约1.7亿美元的额外成本。

修复很快,恢复却很慢。

这起事件是 MTTR(平均修复时间)被恢复环节而非诊断环节主导的典型案例。

01

一次受信任的更新,而非攻击

负责阻止入侵的软件本身竟成了中断的原因——这提醒我们,拥有内核级权限的安全工具本身也是单点故障源,其更新流程理应享有与其他任何生产环境变更同等严格的分阶段发布规范。

02

修复无法远程推送

由于受影响的设备无法启动,IT团队不得不对每台设备进行物理或人工处理——这是把一个80分钟的缺陷变成大型机队数天恢复过程的关键因素,对于使用加密硬盘、需要恢复密钥的设备尤其如此。

03

集中度风险放大了成本

在 Parametrix 的估算中,航空业遭受了各行业中最高的单公司损失,原因不是设备数量更多,而是一次航班停飞会连锁引发数天的机组排班和乘客改签成本——这与航空业计算器所建模的连锁延误动态如出一辙。

关于 CrowdStrike 中断事件的解答。

在弹性建设或供应商风险讨论中引用此事件时常见的问题。

这是一次网络攻击吗? 不是——CrowdStrike 和外部调查人员均将其归因于一次例行内容更新中的缺陷,而非恶意行为。
达美航空起诉了 CrowdStrike 吗? 是的——中断事件发生后的几个月内,达美航空对 CrowdStrike 提起了民事诉讼,认为该航空公司所承担的成本和运营中断与其他航空公司的恢复时间相比不成比例。
为什么达美航空的成本超过了其他航空公司? 达美航空的机组排班系统受到的冲击尤为严重,导致其恢复时间远远超出初步修复所需的时间——这正是底层软件问题的 MTTR 与完全运营恢复的 MTTR 可能大幅背离的一个例子。
如何将此事件映射到计算器中? 可在IT宕机成本计算器中模拟技术层面的中断,并在航空业计算器中模拟连锁运营影响——两者结合大致能说明为什么同一事件给航空公司造成的损失远高于一般企业。

供应商引发的中断会给您的设备机队带来多大损失?

使用相同的公式,输入您自己的设备数量、恢复时间和业务影响进行建模。

模式

主题色