一次电源切换失败。 1.5亿美元和三天的煎熬随之而来。

数据中心的一台电源设备未能正确切换,而达美航空的备用系统也没有完全补位。结果是:约2,000个航班被取消,恢复过程持续数天,尽管实际的电力故障仅持续了几个小时。

达美航空数据中心中断成本 达美航空2016年航班取消事件 航空公司数据中心故障 备用电源故障成本案例
向下滚动查看时间线
2,300 三天内取消的航班数
1.5亿美元 税前收入的减少额

一张表看懂事情经过。

来源已在正文中标注链接,主要引用达美航空自身向美国证券交易委员会(SEC)提交的文件及投资者披露信息。

日期 2016年8月8日,恢复过程一直持续到8月10日。
故障原因 达美航空亚特兰大数据中心的一台关键电源控制设备发生故障,部分系统未能按设计切换到备用电源——这是数据中心专门用来防止此类问题的冗余机制出现了局部失效。
影响规模 此次中断迫使达美航空在三天内取消约2,300个航班,导致全球乘客滞留,尽管根本的电力问题在数小时内就已解决。
恢复时间差 核心技术故障——一个电源开关——只用了数小时就修复了。但要恢复整个航空运营,包括飞机和机组人员的调配到位,却花了数天时间,这说明实际运营的恢复速度可能比技术根本原因的解决慢一个数量级。
公布的成本 达美航空在SEC文件中披露,此次中断及其恢复过程使税前收入减少了约1.5亿美元,其中一部分是8月当月的直接营收损失,另一部分是延续到下一季度的额外恢复成本。

未经测试的冗余,不算真正的冗余。

这是本系列中"故障已修复"与"业务已恢复"之间差距最明显的案例。

01

备用电源的可靠性,取决于上一次测试的质量

故障切换系统本应正是为这种场景而设计,却依然未能完全启动——这提醒我们,冗余机制需要在真实的故障条件下进行测试,而不仅仅是确认已经安装到位。

02

航空公司的运营恢复速度慢于系统恢复速度

系统恢复上线后,飞机和机组人员在整个航线网络中依然处于错位状态——正是这种级联式的排班效应,使航空公司的中断成本按小时计算往往远超其IT根本原因本身所能解释的程度。

03

短暂的中断也可能造成九位数的损失

电力故障本身在数小时内就已解决,但总成本却达到1.5亿美元——成本的高低取决于运营层面的级联效应和恢复的复杂程度,而不仅仅是原始故障持续的时间长短。

关于达美航空2016事件的解答。

在数据中心弹性或灾难恢复案例中引用此事件时常见的问题。

这是网络攻击还是硬件故障? 是硬件和电力系统故障——达美航空将其归因于数据中心电力基础设施的设备故障,而非外部攻击。
为何一个仅持续数小时的电力问题需要三天才能恢复? 取消和延误的航班使飞机和机组人员在达美航空整个航线网络中处于错位状态;从这种状态重建一份合法且可行的排班计划,所需时间远远超过恢复底层系统本身。
达美航空事后是否改进了其基础设施? 达美航空公开承诺,将在事件之后审查并加强其数据中心的弹性和备用电源测试。
这一事件如何映射到计算器中? 航空公司计算器直接模拟了这种级联延误的动态——即使输入的MTTR(平均修复时间)较短,一旦考虑频率和级联效应,依然会产生巨大的年度成本。

数据中心故障会给您的业务带来多大损失?

使用相同的公式,为您自己的系统、营收和恢复时间建模。

模式

主题色