日常的なコマンドも、依然として本番環境への変更である
オペレーターは即興で操作していたのではなく、既定のプレイブックに従っていました——それでも1つの入力ミスが過大な影響範囲をもたらしました。だからこそ、「日常的な」運用コマンドであっても、入力の検証と影響範囲の制限が重要なのです。
日常的なデバッグ作業で入力された1つの誤った値により、AWS S3のサブシステムから想定をはるかに超える数のサーバーが削除されてしまいました。さらに、影響を受けたシステムは何年も完全な再起動をしていなかったため、復旧には想定よりもはるかに長い時間がかかりました。
出典は本文中にリンクしています。AWS自身が公開したインシデント後の公式サマリーを含みます。
ここで生じたコストのほとんどは、課金サブシステムのAWS自身の顧客が負担したものではありません——それは、S3にどれほど深く依存しているかを自覚していなかった、それ以外のすべての人々が負担したのです。
オペレーターは即興で操作していたのではなく、既定のプレイブックに従っていました——それでも1つの入力ミスが過大な影響範囲をもたらしました。だからこそ、「日常的な」運用コマンドであっても、入力の検証と影響範囲の制限が重要なのです。
復旧が想定より長引いたのは、影響を受けたサブシステムが現在の規模で再起動されたことが一度もなかったためです——テストされていない復旧経路は、キャパシティの増大が静かに生み出す、隠れたMTTR(平均修復時間)リスクの原因です。
AWSの課金サブシステムと直接の関係を持たない企業までもがダウンしました。これは、それらの企業自身のインフラが、気づかぬうちに同じリージョンのストレージ層に依存していたためです——単一ベンダーの1つのリージョンから受ける実際の影響範囲は、想定するのではなく、実際にマッピングすべきだという教訓です。
この事件をクラウド依存やベンダーリスクの事例として引用する際によくある質問。
モード
アクセントカラー