Un importante fallo en Cloudflare el 18 de noviembre de 2025 interrumpió numerosos sitios web y servicios, inicialmente confundido con un masivo ataque DDoS. El problema se originó en un cambio en la base de datos interna que duplicó el tamaño de un archivo de características críticas utilizado en el sistema de gestión de bots de la empresa. Cloudflare resolvió el problema volviendo a una versión anterior del archivo, aunque la recuperación completa tomó tiempo adicional debido al aumento del tráfico.
El fallo de Cloudflare comenzó cuando un cambio en los permisos de la base de datos en su clúster ClickHouse provocó que una consulta generara múltiples entradas en un 'archivo de características' esencial para el sistema de gestión de bots. Este archivo, que describe rasgos utilizados por un modelo de aprendizaje automático para puntuar bots y determinar el acceso a sitios de clientes, duplicó inesperadamente su tamaño. El software que enruta el tráfico a través de la red de Cloudflare tenía un límite de tamaño de 200 características, y el archivo inflado lo superó, lo que llevó a fallos en el CDN principal, servicios de seguridad y otros componentes.
El CEO Matthew Prince inicialmente sospechó de un ataque DDoS a hiperescala del botnet Aisuru, escribiendo en un chat interno: “Me preocupa que esto sea el gran botnet flexionando.” Sin embargo, la investigación reveló el problema autoinfligido. El archivo se genera cada cinco minutos y se propaga en toda la red para contrarrestar amenazas de bots en evolución. Debido a actualizaciones graduales en el clúster de base de datos, se generaron archivos defectuosos de manera intermitente, causando errores 5xx fluctuantes que imitaron un patrón de ataque.
Cloudflare detuvo la propagación del archivo defectuoso, lo reemplazó con una versión anterior buena y reinició su proxy principal. Esto restauró la mayor parte del tráfico, pero tomó otros dos horas y media para manejar el influxo a medida que los servicios volvían en línea. Prince lo describió como el peor fallo desde 2019, disculpándose: “En nombre de todo el equipo de Cloudflare, me gustaría disculparme por el dolor que causamos a Internet hoy.”
La empresa confirmó que no hubo ningún hackeo involucrado, atribuyéndolo únicamente al error del sistema. Para prevenir recurrencias, Cloudflare planea endurecer la ingesta de configuraciones, agregar interruptores de apagado globales, eliminar informes de errores que abruman recursos y revisar modos de fallo en todos los módulos de proxy. Prince señaló que los fallos pasados han impulsado mejoras en la resiliencia, aunque no puede garantizar contra futuros de esta escala.