备用电源的可靠性,取决于上一次测试的质量
故障切换系统本应正是为这种场景而设计,却依然未能完全启动——这提醒我们,冗余机制需要在真实的故障条件下进行测试,而不仅仅是确认已经安装到位。
数据中心的一台电源设备未能正确切换,而达美航空的备用系统也没有完全补位。结果是:约2,000个航班被取消,恢复过程持续数天,尽管实际的电力故障仅持续了几个小时。
来源已在正文中标注链接,主要引用达美航空自身向美国证券交易委员会(SEC)提交的文件及投资者披露信息。
这是本系列中"故障已修复"与"业务已恢复"之间差距最明显的案例。
故障切换系统本应正是为这种场景而设计,却依然未能完全启动——这提醒我们,冗余机制需要在真实的故障条件下进行测试,而不仅仅是确认已经安装到位。
系统恢复上线后,飞机和机组人员在整个航线网络中依然处于错位状态——正是这种级联式的排班效应,使航空公司的中断成本按小时计算往往远超其IT根本原因本身所能解释的程度。
电力故障本身在数小时内就已解决,但总成本却达到1.5亿美元——成本的高低取决于运营层面的级联效应和恢复的复杂程度,而不仅仅是原始故障持续的时间长短。
在数据中心弹性或灾难恢复案例中引用此事件时常见的问题。
模式
主题色