Falla de Amazon causada por un único error en la red de AWS

Un error de software en el sistema de gestión DNS de DynamoDB de Amazon Web Services provocó una interrupción de 15 horas que afectó a millones en todo el mundo. La falla se originó en la región US-East-1 y se extendió para impactar servicios como Snapchat y Roblox. Los ingenieros de Amazon detallaron la causa raíz como una condición de carrera que llevó a estados de red inconsistentes.

La interrupción comenzó en la región US-East-1 de Amazon, el centro más antiguo y de mayor uso de la compañía, debido a una condición de carrera en el componente DynamoDB DNS Enactor. Este sistema monitorea los equilibradores de carga actualizando las configuraciones DNS para los endpoints de AWS. Como describieron los ingenieros de Amazon, el Enactor experimentó altos retrasos en la actualización de los endpoints DNS, mientras que un DNS Planner separado generaba nuevos planes. Un segundo Enactor luego implementó estos, invocando un proceso de limpieza que eliminó un plan anterior justo cuando el primer Enactor retrasado lo aplicaba, sobrescribiendo el más nuevo.

"Cuando el segundo Enactor (que aplicaba el plan más nuevo) completó sus actualizaciones de endpoints, invocó el proceso de limpieza de planes, que identifica planes que son significativamente más antiguos que el que acaba de aplicar y los elimina", explicó Amazon. Esto dejó el sistema en un estado inconsistente, eliminando todas las direcciones IP para el endpoint regional y previniendo actualizaciones adicionales, lo que requirió intervención manual para resolverse.

La falla de DynamoDB interrumpió las conexiones para sistemas que dependen del endpoint US-East-1, afectando tanto el tráfico de clientes como los servicios internos de AWS. Tensionó las instancias EC2, causando retrasos en la propagación de estados de red incluso después de la restauración. "Aunque las nuevas instancias EC2 se pudieron lanzar exitosamente, no tendrían la conectividad de red necesaria debido a los retrasos en la propagación de estados de red", notaron los ingenieros. Esto se extendió a un equilibrador de carga de red, llevando a errores en funciones de AWS como la creación de clústeres Redshift, invocaciones Lambda, tareas Fargate y operaciones en Managed Workflows for Apache Airflow y el AWS Support Center.

El incidente duró 15 horas y 32 minutos, con DownDetector de Ookla registrando más de 17 millones de informes de 3.500 organizaciones, principalmente en EE.UU., Reino Unido y Alemania. Snapchat, AWS y Roblox fueron los servicios más afectados, marcándolo como una de las interrupciones más grandes registradas. En respuesta, Amazon desactivó la automatización del DNS Planner y Enactor de DynamoDB a nivel global para corregir la condición de carrera y agregar salvaguardas. Ookla destacó los riesgos de la concentración regional, señalando que las aplicaciones globales a menudo se enrutan a través de US-East-1, amplificando los impactos y subrayando la necesidad de diseños multi-regionales para contener fallas.

Este sitio web utiliza cookies

Utilizamos cookies para análisis con el fin de mejorar nuestro sitio. Lee nuestra política de privacidad para más información.
Rechazar