Une panne chez Amazon Web Services lundi a affecté plus de 28 services, mettant hors service des applications populaires, retardant des vols et stoppant les opérations commerciales pour des millions de personnes. La perturbation, due à un problème de résolution DNS dans le plus ancien centre de données américain d'AWS, a été résolue l'après-midi mais a mis en lumière la fragilité d'internet. Des plateformes éducatives comme Canvas ont également échoué, impactant les étudiants universitaires à travers les États-Unis.
La panne a commencé lundi matin, originaire du plus ancien et plus grand centre de données américain d'Amazon, qui sert de région par défaut pour de nombreux services AWS. Les ingénieurs ont identifié des taux d'erreur accrus et une latence dans la technologie de bases de données cloud, remontant le problème à une défaillance de résolution du Système de noms de domaine (DNS). Cet effet en cascade a mis hors service plus de deux douzaines de services AWS, y compris l'hébergement pour des applications comme Snapchat, Signal et Reddit, ainsi que la propre plateforme de e-commerce d'Amazon, Alexa et Prime Video. Les banques et services financiers sont tombés en panne, les vols ont été retardés et des jeux massifs comme Fortnite sont devenus inaccessibles, forçant des millions d'entreprises à arrêter leurs opérations, des connexions d'employés au traitement des paiements.
À son pic, Down Detector a enregistré plus de 8 millions de rapports d'utilisateurs dans le monde. L'incident fait écho à des pannes AWS précédentes en 2020 et 2021 au même site, malgré les affirmations d'Amazon selon lesquelles ces problèmes avaient été entièrement atténués. Mehdi Daoudi, PDG de l'entreprise de surveillance des performances internet Catchpoint, a déclaré à CNN : « L'impact financier de cette panne atteindra facilement des centaines de milliards en raison de la perte de productivité pour des millions de travailleurs qui ne peuvent pas faire leur travail, plus des opérations commerciales arrêtées ou retardées, des compagnies aériennes aux usines. »
La perturbation s'est étendue à l'éducation, avec la plateforme d'apprentissage en ligne Canvas — utilisée par la moitié des étudiants universitaires américains — tombant en panne. L'étudiante Abby Fagerlin a rapporté ne pas pouvoir se connecter lundi matin pour accéder aux devoirs ou contacter les professeurs. Le professeur d'informatique de l'Université Cornell, Ken Birman, a déclaré à Reuters que « les développeurs de logiciels doivent construire une meilleure tolérance aux pannes », ajoutant : « Quand les gens réduisent les coûts et prennent des raccourcis pour essayer de mettre une application en ligne, puis oublient qu'ils ont sauté cette dernière étape et n'ont pas vraiment protégé contre une panne, ce sont ces entreprises qui devraient vraiment être examinées plus tard. »
Les experts suggèrent que l'événement pourrait pousser les clients vers des stratégies multi-cloud, distribuant les charges de travail entre des fournisseurs comme AWS, Microsoft Azure et Google Cloud, particulièrement parmi les entreprises financières averses au risque. Amazon a confirmé la résolution de la panne lundi après-midi, mais les analystes estiment des milliards en dommages, avec un backlash potentiel menaçant sa position sur le marché en tant que plus grand fournisseur cloud au monde.