案例研究 · 2021年10月

一次例行配置推送把Facebook从互联网上删除了。

不是——Facebook将其归因于例行维护期间的一次内部配置错误。

Meta从未公布官方数字,因此所有公开数字都是根据季度广告收入运行速率推算出的外部估算。

一条维护指令撤回了指向Facebook自有域名服务器的网络路由——而由于Facebook的内部工具同样依赖这套DNS系统,修复工作只能靠工程师亲自前往被"锁在门外"的数据中心现场处理。

Facebook中断成本 2021年Facebook BGP中断事件 Instagram WhatsApp中断成本 DNS中断成本案例

向下滚动查看时间线

约6小时 Facebook、Instagram和WhatsApp全部离线

6000万–1亿美元 估计的广告收入损失(不同分析师估算不同)

速览要点

一张表看懂事情经过。

来源已在正文中标注链接;由于Meta并未公布这一具体事件的官方成本数字,此处的收入损失数字为外部估算。

日期 2021年10月4日,约UTC时间15:39开始。

故障原因 据事件记录所述,在对Facebook骨干网络进行例行维护期间所做的一次配置变更,意外撤回了指向其权威DNS服务器的BGP路由——这实际上把Facebook自己的地址从互联网的路由表中抹去了。

影响规模 Facebook、Instagram、WhatsApp、Messenger和Oculus在全球范围内约六到七个小时内无法访问——这是同等规模服务中有记录以来最长的中断事件之一。

恢复瓶颈 Facebook的内部工具和门禁系统同样依赖于刚刚失效的这套内部DNS,导致远程工程师据称既无法远程诊断也无法远程修复问题——恢复工作需要工程师亲自前往受影响的数据中心现场。

公布的成本 广告收入损失的估算因方法不同而存在差异:Snopes估算约为7900万美元,而《财富》杂志根据季度财报所做的分析给出的数字更接近9975万美元——Meta本身并未就这次具体的中断事件公布官方成本数字。

为何耗时如此之久

这是本清单中最典型的案例,展示了看似彼此独立的系统内部其实隐藏着同一个单点故障。

依赖同一套内部DNS的诊断系统和门禁系统,随着面向公众的产品一起瘫痪——这提醒我们,应该检查自己的事件响应工具是否拥有一条独立于主系统故障的备用路径。

与只影响单个数据中心的服务器崩溃不同,一次BGP路由撤回会瞬间让所有地方都无法访问——网络层面的变更理应接受不亚于、甚至严于应用部署的审核流程。

当远程工具无法访问时,恢复时间就受限于有人能多快亲自抵达硬件现场——这是一个值得提前明确规划并进行演练的场景,而不应想当然地排除在外。

常见问题

在网络韧性或单点故障案例中引用此事件时常见的问题。

这是一次黑客攻击吗? 不是——Facebook将其归因于例行维护期间的一次内部配置错误,而非任何外部攻击。

为何这次中断的成本估算差异如此之大? Meta从未公布官方数字,因此所有公开数字都是根据季度广告收入运行速率推算出的外部估算——这很好地说明了消费级平台的"公布成本"往往是建模推算出来的,而非官方披露的。

这次中断只影响了Facebook的主应用吗? 不是——Instagram、WhatsApp、Messenger和Oculus同时全部瘫痪,因为它们共享同一套底层网络基础设施。

这一事件如何映射到计算器中? 可以使用网站停机计算器,来建模此事件所代表的广告收入与流量损失情形。

轮到您了

使用相同的公式,为您自己的流量、广告或交易收入以及恢复时间建模。