社内ツールも同じ障害ドメインを共有していた
同じ社内DNSに依存していた診断システムやアクセス制御システムが、公開向けのプロダクトと一緒にダウンしてしまいました——インシデント対応ツールが、主要システムの障害から独立した経路を持っているかどうかを確認すべきだという教訓です。
1回のメンテナンスコマンドが、Facebook自身のドメインネームサーバーへのネットワーク経路を撤回してしまいました。しかもFacebookの社内ツール自体がその同じDNSに依存していたため、復旧にはエンジニアが締め出されたデータセンターに物理的に立ち入る必要がありました。
出典は本文中にリンクしています。Metaはこの特定の事案について公式なコストを開示していないため、収益に関する数字は外部の推定値です。
これは、独立しているはずのシステム内部に単一障害点が隠れていたことを示す、このリストの中で最も明確な事例です。
同じ社内DNSに依存していた診断システムやアクセス制御システムが、公開向けのプロダクトと一緒にダウンしてしまいました——インシデント対応ツールが、主要システムの障害から独立した経路を持っているかどうかを確認すべきだという教訓です。
1つのデータセンターだけに影響するサーバークラッシュとは異なり、BGP経路の撤回は瞬時にあらゆる場所への到達性を失わせます——ネットワークレベルの変更には、アプリケーションのデプロイと同等か、それ以上に厳格なレビュープロセスが必要です。
リモートツールにアクセスできない場合、復旧時間は誰かがハードウェアに物理的にたどり着ける速さによって制約されます——これは、想定から除外するのではなく、明示的に計画し、訓練しておく価値のあるシナリオです。
この事件をネットワークの耐障害性や単一障害点の事例として引用する際によくある質問。
モード
アクセントカラー