انقطاع أمازون ناتج عن فشل واحد في شبكة AWS

خلل برمجي في نظام إدارة DNS لـDynamoDB في Amazon Web Services أدى إلى انقطاع استمر 15 ساعة أثر على ملايين حول العالم. بدأ الفشل في منطقة US-East-1 وامتد ليؤثر على خدمات مثل Snapchat وRoblox. وصف مهندسو أمازون السبب الجذري كحالة سباق أدت إلى حالات شبكة غير متسقة.

بدأ الانقطاع في منطقة US-East-1 التابعة لأمازون، وهي المركز الأقدم والأكثر استخدامًا للشركة، بسبب حالة سباق في مكون DynamoDB DNS Enactor. يراقب هذا النظام موازنات الحمل من خلال تحديث تكوينات DNS لنقاط نهاية AWS. كما وصف مهندسو أمازون، عانى Enactor من تأخيرات عالية في تحديث نقاط نهاية DNS، بينما أنشأ DNS Planner منفصل خططًا جديدة. ثم نفذ Enactor ثانٍ هذه الخطط، مستدعيًا عملية تنظيف حذف خطة أقدم تمامًا عندما طبق Enactor الأول المؤخرها، مما أعاد كتابة الخطة الأحدث.

"عندما أكمل Enactor الثاني (الذي يطبق الخطة الأحدث) تحديثات نقاط النهاية، استدعى بعد ذلك عملية تنظيف الخطط، التي تحدد الخطط التي هي أقدم بكثير من الخطة التي طبقها للتو وتحذفها"، شرحت أمازون. ترك هذا النظام في حالة غير متسقة، مما أزال جميع عناوين IP لنقطة النهاية الإقليمية ومنع التحديثات الإضافية، مما يتطلب تدخلًا يدويًا لحلها.

أدى فشل DynamoDB إلى تعطيل الاتصالات للأنظمة التي تعتمد على نقطة النهاية US-East-1، مما أثر على حركة المرور للعملاء والخدمات الداخلية لـAWS. أجهد حالات EC2، مما سبب تأخيرات في نشر حالات الشبكة حتى بعد الاستعادة. "بينما يمكن إطلاق حالات EC2 الجديدة بنجاح، لن تكون لديها الاتصالية الشبكية اللازمة بسبب التأخيرات في نشر حالات الشبكة"، لاحظ المهندسون. امتد هذا إلى موازن حمل الشبكة، مما أدى إلى أخطاء في وظائف AWS مثل إنشاء مجموعات Redshift، واستدعاءات Lambda، ومهام Fargate، وعمليات في Managed Workflows for Apache Airflow ومركز دعم AWS.

استمر الحادث 15 ساعة و32 دقيقة، مع تسجيل DownDetector التابع لـOokla أكثر من 17 مليون تقرير من 3500 منظمة، بشكل رئيسي في الولايات المتحدة والمملكة المتحدة وألمانيا. كانت Snapchat وAWS وRoblox الخدمات الأكثر تأثرًا، مما يجعله من أكبر الانقطاعات المسجلة. ردًا على ذلك، عطلت أمازون أتمتة DNS Planner وEnactor في DynamoDB عالميًا لإصلاح حالة السباق وإضافة ضمانات. أبرزت Ookla مخاطر التركيز الإقليمي، مشيرة إلى أن التطبيقات العالمية غالبًا ما تمر عبر US-East-1، مما يعزز التأثيرات ويؤكد الحاجة إلى تصاميم متعددة المناطق لاحتواء الفشل.

يستخدم هذا الموقع ملفات تعريف الارتباط

نستخدم ملفات تعريف الارتباط للتحليلات لتحسين موقعنا. اقرأ سياسة الخصوصية الخاصة بنا سياسة الخصوصية لمزيد من المعلومات.
رفض