遗留系统总在最关键的时刻掉链子
在正常日子里运行良好的机组排班软件,可能在大规模中断面前彻底崩溃——真正重要的失败模式往往不是平均情形,而是系统从未经过压力测试的尾部极端事件。
一场严重的风暴本不该让一家航空公司瘫痪十天。但在西南航空,它暴露出一套机组排班系统根本无法应对大规模重新排班的需求——最终导致16,700架次航班取消,给公司造成超过11亿美元的损失。
来源已在正文中标注链接;数字为本页最近一次更新时可获得的最新公开估算值。
美国所有航空公司都经历了同一场12月风暴,却只有一家用了十天时间、花费11亿美元才恢复过来。
在正常日子里运行良好的机组排班软件,可能在大规模中断面前彻底崩溃——真正重要的失败模式往往不是平均情形,而是系统从未经过压力测试的尾部极端事件。
据报道,西南航空的机组排班人员不得不依靠打电话和人工流程来追踪机组人员位置——这种方式在应对少量中断时尚能运转,但当需要同时处理数千次重新分配时便会彻底崩溃。
1.4亿美元的DOT罚款是在事件发生整整一年之后才落地——这提醒我们,受监管行业中面向消费者的中断事件,除了直接的收入和恢复成本外,还会带来第二笔延迟到来的代价。
在基础设施现代化或韧性建设案例中引用此事件时常见的问题。
模式
主题色