日常的な設定変更が、 Facebookをインターネットから消し去った。

1回のメンテナンスコマンドが、Facebook自身のドメインネームサーバーへのネットワーク経路を撤回してしまいました。しかもFacebookの社内ツール自体がその同じDNSに依存していたため、復旧にはエンジニアが締め出されたデータセンターに物理的に立ち入る必要がありました。

Facebook障害のコスト 2021年Facebook BGP障害 Instagram WhatsApp障害のコスト DNS障害のコスト事例
スクロールしてタイムラインを見る
約6時間 Facebook、Instagram、WhatsAppが停止
6000万〜1億ドル 推定広告収益損失(アナリストにより異なる)

1つの表でわかる、事の経緯。

出典は本文中にリンクしています。Metaはこの特定の事案について公式なコストを開示していないため、収益に関する数字は外部の推定値です。

日付 2021年10月4日、協定世界時(UTC)15時39分頃から発生。
何が起きたか インシデント記録によると、Facebookの基幹ネットワークの日常的なメンテナンス中に行われた設定変更が、権威DNSサーバーへのBGP経路を誤って撤回してしまい、事実上Facebook自身のアドレスをインターネットの経路情報から消し去ってしまいました。
規模 Facebook、Instagram、WhatsApp、Messenger、Oculusが、全世界でおよそ6〜7時間にわたってアクセス不能となりました——これは同規模のサービスとして史上最長級の障害の1つです。
復旧のボトルネック Facebookの社内ツールや建物の入退室管理システムも、ちょうどダウンしたばかりの同じ社内DNSに依存していたため、リモートのエンジニアは問題を遠隔で診断することも修正することもできなかったと報じられています——復旧には、影響を受けたデータセンターへの物理的なアクセスが必要でした。
報告されたコスト 広告収益損失の推定額は算出方法により異なります。Snopesはおよそ7900万ドルと推定した一方、Fortuneが四半期決算をもとに行った分析では9975万ドル近くという数字が示されました——Meta自身は、この特定の障害について公式なコスト数値を公表していません。

この障害は、自社のエンジニアたちをも締め出してしまいました。

これは、独立しているはずのシステム内部に単一障害点が隠れていたことを示す、このリストの中で最も明確な事例です。

01

社内ツールも同じ障害ドメインを共有していた

同じ社内DNSに依存していた診断システムやアクセス制御システムが、公開向けのプロダクトと一緒にダウンしてしまいました——インシデント対応ツールが、主要システムの障害から独立した経路を持っているかどうかを確認すべきだという教訓です。

02

経路変更は、グローバルかつ即時的な影響範囲を持つ

1つのデータセンターだけに影響するサーバークラッシュとは異なり、BGP経路の撤回は瞬時にあらゆる場所への到達性を失わせます——ネットワークレベルの変更には、アプリケーションのデプロイと同等か、それ以上に厳格なレビュープロセスが必要です。

03

物理的なアクセスがボトルネックになった

リモートツールにアクセスできない場合、復旧時間は誰かがハードウェアに物理的にたどり着ける速さによって制約されます——これは、想定から除外するのではなく、明示的に計画し、訓練しておく価値のあるシナリオです。

Facebookの2021年障害についての質問。

この事件をネットワークの耐障害性や単一障害点の事例として引用する際によくある質問。

これはハッキングでしたか? いいえ——Facebookは、外部からの攻撃ではなく、日常的なメンテナンス中に発生した内部の設定ミスが原因であるとしています。
なぜこの障害のコスト推定額はこれほど大きく異なるのですか? Metaは公式な数字を一切公表していないため、公開されている数字はすべて四半期の広告収益実績から導き出された外部の推定値です——消費者向けプラットフォームの「報告されたコスト」が、開示ではなくモデル推計であることが多い理由をよく示す例です。
これはFacebookのメインアプリだけに影響しましたか? いいえ——Instagram、WhatsApp、Messenger、Oculusもすべて同時にダウンしました。これらが同じ基盤となるネットワークインフラを共有していたためです。
これは計算ツールにどう対応しますか? この事件が表す広告収益とトラフィック損失のモデル化には、ウェブサイトダウンタイム計算ツールをご利用ください。

6時間の障害は、あなたのプラットフォームにいくらのコストをもたらすでしょうか?

同じ数式を使って、自社のトラフィック、広告または取引収益、復旧時間をモデル化してください。

モード

アクセントカラー