Gangguan Amazon disebabkan oleh kegagalan tunggal di jaringan AWS

Bug perangkat lunak di sistem manajemen DNS DynamoDB Amazon Web Services memicu gangguan selama 15 jam yang memengaruhi jutaan orang di seluruh dunia. Kegagalan bermula di wilayah US-East-1 dan menyebar memengaruhi layanan seperti Snapchat dan Roblox. Insinyur Amazon merinci penyebab utama sebagai kondisi balapan yang menyebabkan keadaan jaringan tidak konsisten.

Gangguan dimulai di wilayah US-East-1 Amazon, pusat tertua dan paling banyak digunakan perusahaan, karena kondisi balapan di komponen DynamoDB DNS Enactor. Sistem ini memantau penyeimbang beban dengan memperbarui konfigurasi DNS untuk endpoint AWS. Seperti yang dijelaskan oleh insinyur Amazon, Enactor mengalami penundaan tinggi dalam memperbarui endpoint DNS, sementara DNS Planner terpisah menghasilkan rencana baru. Enactor kedua kemudian menerapkan ini, memanggil proses pembersihan yang menghapus rencana lama tepat saat Enactor pertama yang tertunda menerapkannya, menimpa yang lebih baru.

"Ketika Enactor kedua (yang menerapkan rencana terbaru) menyelesaikan pembaruan endpoint-nya, ia kemudian memanggil proses pembersihan rencana, yang mengidentifikasi rencana yang jauh lebih tua dari yang baru saja diterapkan dan menghapusnya," jelas Amazon. Ini meninggalkan sistem dalam keadaan tidak konsisten, menghapus semua alamat IP untuk endpoint regional dan mencegah pembaruan lebih lanjut, yang memerlukan intervensi manual untuk diselesaikan.

Kegagalan DynamoDB mengganggu koneksi untuk sistem yang bergantung pada endpoint US-East-1, memengaruhi lalu lintas pelanggan dan layanan internal AWS. Ini membebani instance EC2, menyebabkan penundaan dalam propagasi keadaan jaringan bahkan setelah pemulihan. "Meskipun instance EC2 baru dapat diluncurkan dengan sukses, mereka tidak akan memiliki konektivitas jaringan yang diperlukan karena penundaan dalam propagasi keadaan jaringan," catat insinyur. Ini meluas ke penyeimbang beban jaringan, menyebabkan kesalahan dalam fungsi AWS seperti membuat kluster Redshift, pemanggilan Lambda, tugas Fargate, dan operasi di Managed Workflows for Apache Airflow dan AWS Support Center.

Insiden berlangsung selama 15 jam 32 menit, dengan DownDetector milik Ookla mencatat lebih dari 17 juta laporan dari 3.500 organisasi, terutama di AS, Inggris, dan Jerman. Snapchat, AWS, dan Roblox adalah layanan yang paling terdampak, menandainya sebagai salah satu gangguan terbesar yang tercatat. Sebagai respons, Amazon menonaktifkan otomatisasi DynamoDB DNS Planner dan Enactor secara global untuk memperbaiki kondisi balapan dan menambahkan pengaman. Ookla menyoroti risiko konsentrasi regional, mencatat bahwa aplikasi global sering dirutekan melalui US-East-1, memperbesar dampak dan menekankan kebutuhan desain multi-wilayah untuk membatasi kegagalan.

Situs web ini menggunakan cookie

Kami menggunakan cookie untuk analisis guna meningkatkan situs kami. Baca kebijakan privasi kami kebijakan privasi untuk informasi lebih lanjut.
Tolak