例行命令依然是一次生产环境变更
操作人员是在按照既定手册操作,而非临场发挥——但一次打错的输入依然造成了超乎寻常的影响范围,这正是为何即便是"例行"运维命令,输入验证和影响范围限制也同样重要。
在一次例行调试命令中输入了一个错误参数,导致从AWS S3子系统中移除的服务器数量远超预期——而重启过程耗时比预想的长得多,因为受影响的系统已多年未曾完全重启过。
来源已在正文中标注链接,包括AWS官方发布的事后总结报告。
这里产生的成本几乎没有一分属于计费子系统本身的AWS客户——它们属于所有其他在不知不觉中深度依赖S3的人。
操作人员是在按照既定手册操作,而非临场发挥——但一次打错的输入依然造成了超乎寻常的影响范围,这正是为何即便是"例行"运维命令,输入验证和影响范围限制也同样重要。
恢复耗时超出预期,正是因为受影响的子系统此前从未在当前规模下重启过——未经测试的恢复路径,是容量增长悄然埋下的MTTR(平均修复时间)隐患。
与AWS计费子系统毫无直接关系的公司也纷纷瘫痪,因为它们自身的基础设施在不知不觉中依赖着同一个区域存储层——这提醒我们,应该切实梳理,而非想当然地假设,自身面对单一供应商某个区域故障时的实际影响范围。
在云依赖或供应商风险案例中引用此事件时常见的问题。
模式
主题色