内部工具与外部产品共享同一故障域
依赖同一套内部DNS的诊断系统和门禁系统,随着面向公众的产品一起瘫痪——这提醒我们,应该检查自己的事件响应工具是否拥有一条独立于主系统故障的备用路径。
来源已在正文中标注链接;由于Meta并未公布这一具体事件的官方成本数字,此处的收入损失数字为外部估算。
这是本清单中最典型的案例,展示了看似彼此独立的系统内部其实隐藏着同一个单点故障。
依赖同一套内部DNS的诊断系统和门禁系统,随着面向公众的产品一起瘫痪——这提醒我们,应该检查自己的事件响应工具是否拥有一条独立于主系统故障的备用路径。
与只影响单个数据中心的服务器崩溃不同,一次BGP路由撤回会瞬间让所有地方都无法访问——网络层面的变更理应接受不亚于、甚至严于应用部署的审核流程。
当远程工具无法访问时,恢复时间就受限于有人能多快亲自抵达硬件现场——这是一个值得提前明确规划并进行演练的场景,而不应想当然地排除在外。
在网络韧性或单点故障案例中引用此事件时常见的问题。
模式
主题色