Amazonの障害、AWSネットワークの単一障害によるもの

Amazon Web ServicesのDynamoDB DNS管理システムのソフトウェアバグが、世界中の数百万に影響を与える15時間の障害を引き起こしました。障害はUS-East-1リージョンで発生し、SnapchatやRobloxなどのサービスに波及しました。Amazonのエンジニアは、根本原因をネットワーク状態の不整合を引き起こしたレースコンディションだと詳細に説明しました。

障害は、AmazonのUS-East-1リージョン、同社の最も古く最も使用頻度の高いハブで、DynamoDB DNS Enactorコンポーネントのレースコンディションにより発生しました。このシステムは、AWSエンドポイントのDNS設定を更新することでロードバランサーを監視します。Amazonのエンジニアによると、EnactorはDNSエンドポイントの更新に高い遅延を経験し、別個のDNS Plannerが新しいプランを生成していました。2番目のEnactorがこれらを実施し、遅延した最初のEnactorがそれを適用する直前に古いプランを削除するクリーンアッププロセスを呼び出しました。これにより、新しいプランが上書きされました。

「2番目のEnactor(最新のプランを適用)がエンドポイントの更新を完了すると、続いてプランクリーンアッププロセスを呼び出しました。このプロセスは、適用したばかりのプランより大幅に古いプランを特定して削除します」とAmazonは説明しました。これによりシステムが不整合な状態になり、リージョナルエンドポイントのすべてのIPアドレスが削除され、さらなる更新ができなくなりました。解決には手動介入が必要でした。

DynamoDBの障害は、US-East-1エンドポイントに依存するシステムの接続を中断し、顧客トラフィックとAWS内部サービス双方に影響を与えました。EC2インスタンスに負担がかかり、復元後もネットワーク状態の伝播に遅延が発生しました。「新しいEC2インスタンスは正常に起動できましたが、ネットワーク状態伝播の遅延により必要なネットワーク接続がありませんでした」とエンジニアは指摘しました。これがネットワークロードバランサーに波及し、Redshiftクラスタの作成、Lambdaの呼び出し、Fargateタスク、およびManaged Workflows for Apache AirflowとAWSサポートセンターの操作などのAWS機能でエラーが発生しました。

インシデントは15時間32分続き、OoklaのDownDetectorが3,500組織から17百万以上のレポートを記録、主に米国、英国、ドイツからです。Snapchat、AWS、Robloxが最も影響を受けたサービスで、記録上最大級の障害の一つです。対応として、AmazonはDynamoDB DNS PlannerとEnactorの自動化をグローバルに無効化し、レースコンディションを修正し、安全策を追加しました。Ooklaはリージョン集中のリスクを指摘し、グローバルアプリがUS-East-1経由でルーティングされることが影響を増幅し、多リージョンデザインの必要性を強調しました。

このウェブサイトはクッキーを使用しています

サイトを改善するための分析にクッキーを使用しています。当社の プライバシーポリシー をお読みください 詳細については。
拒否