Uma grande falha na Cloudflare em 18 de novembro de 2025 interrompeu numerosos sites e serviços, inicialmente confundida com um ataque DDoS massivo. O problema surgiu de uma mudança interna no banco de dados que dobrou o tamanho de um arquivo de recursos críticos usado no sistema de gerenciamento de bots da empresa. A Cloudflare resolveu o problema revertendo para uma versão anterior do arquivo, embora a recuperação completa tenha levado tempo adicional devido ao aumento do tráfego.
A falha da Cloudflare começou quando uma mudança nas permissões do banco de dados em seu cluster ClickHouse causou uma consulta a produzir múltiplas entradas em um 'arquivo de recursos' essencial para o sistema de gerenciamento de bots. Este arquivo, que descreve traços usados por um modelo de aprendizado de máquina para pontuar bots e determinar acesso a sites de clientes, dobrou inesperadamente de tamanho. O software que roteia o tráfego pela rede da Cloudflare tinha um limite de tamanho de 200 recursos, e o arquivo inchado excedeu isso, levando a falhas no CDN principal, serviços de segurança e outros componentes.
O CEO Matthew Prince inicialmente suspeitou de um ataque DDoS em hiperescala do botnet Aisuru, escrevendo em um chat interno: “Estou preocupado que isso seja o grande botnet se exibindo.” No entanto, a investigação revelou o problema autoinfligido. O arquivo é gerado a cada cinco minutos e propagado pela rede para combater ameaças de bots em evolução. Devido a atualizações graduais no cluster de banco de dados, arquivos ruins foram gerados intermitentemente, causando erros 5xx flutuantes que imitavam um padrão de ataque.
A Cloudflare interrompeu a propagação do arquivo defeituoso, substituiu-o por uma versão anterior boa e reiniciou seu proxy principal. Isso restaurou a maior parte do tráfego, mas levou mais duas horas e meia para lidar com o influxo à medida que os serviços voltavam online. Prince descreveu como a pior falha desde 2019, pedindo desculpas: “Em nome de toda a equipe da Cloudflare, gostaria de me desculpar pela dor que causamos à Internet hoje.”
A empresa confirmou que não houve hackeamento envolvido, atribuindo-o unicamente ao erro do sistema. Para prevenir recorrências, a Cloudflare planeja endurecer a ingestão de configurações, adicionar interruptores de desligamento globais, eliminar relatórios de erros que sobrecarregam recursos e revisar modos de falha em todos os módulos de proxy. Prince observou que falhas passadas impulsionaram melhorias na resiliência, embora ele não possa garantir contra futuras nessa escala.