Une panne majeure chez Cloudflare le 18 novembre 2025 a perturbé de nombreux sites web et services, initialement prise pour une attaque DDoS massive. Le problème provenait d'un changement interne dans la base de données qui a doublé la taille d'un fichier de fonctionnalités critiques utilisé dans le système de gestion de bots de l'entreprise. Cloudflare a résolu le problème en revenant à une version précédente du fichier, bien que la récupération complète ait pris du temps supplémentaire en raison de l'augmentation du trafic.
La panne de Cloudflare a commencé lorsqu'un changement des permissions de la base de données dans son cluster ClickHouse a provoqué une requête produisant plusieurs entrées dans un 'fichier de fonctionnalités' essentiel pour le système de gestion de bots. Ce fichier, qui décrit les traits utilisés par un modèle d'apprentissage automatique pour noter les bots et déterminer l'accès aux sites des clients, a doublé de taille de manière inattendue. Le logiciel acheminant le trafic à travers le réseau de Cloudflare avait une limite de taille de 200 fonctionnalités, et le fichier gonflé l'a dépassée, entraînant des pannes dans le CDN principal, les services de sécurité et d'autres composants.
Le PDG Matthew Prince a initialement soupçonné une attaque DDoS à hyper-échelle du botnet Aisuru, écrivant dans un chat interne : « Je crains que ce ne soit le grand botnet qui se pavane. » Cependant, l'enquête a révélé le problème auto-infligé. Le fichier est généré toutes les cinq minutes et propagé à travers le réseau pour contrer les menaces de bots en évolution. En raison de mises à jour graduelles dans le cluster de base de données, des fichiers défectueux ont été générés de manière intermittente, causant des erreurs 5xx fluctuantes qui imitaient un schéma d'attaque.
Cloudflare a arrêté la propagation du fichier défectueux, l'a remplacé par une version antérieure bonne et a redémarré son proxy principal. Cela a restauré la plupart du trafic, mais il a fallu deux heures et demie supplémentaires pour gérer l'afflux alors que les services revenaient en ligne. Prince l'a décrite comme la pire panne depuis 2019, s'excusant : « Au nom de toute l'équipe de Cloudflare, je tiens à m'excuser pour la douleur que nous avons causée à Internet aujourd'hui. »
L'entreprise a confirmé qu'aucun piratage n'était impliqué, l'attribuant uniquement à l'erreur du système. Pour prévenir les récurrences, Cloudflare prévoit de renforcer l'ingestion des configurations, d'ajouter des interrupteurs d'arrêt globaux, d'éliminer les rapports d'erreurs surchargeant les ressources et de revoir les modes de défaillance à travers les modules de proxy. Prince a noté que les pannes passées ont conduit à des améliorations de la résilience, bien qu'il ne puisse pas garantir contre de futures de cette ampleur.