Falha da Cloudflare causada por arquivo de gerenciamento de bots oversized

19 de novembro de 2025

Reportado por IA

Uma grande falha na Cloudflare em 18 de novembro de 2025 interrompeu numerosos sites e serviços, inicialmente confundida com um ataque DDoS massivo. O problema surgiu de uma mudança interna no banco de dados que dobrou o tamanho de um arquivo de recursos críticos usado no sistema de gerenciamento de bots da empresa. A Cloudflare resolveu o problema revertendo para uma versão anterior do arquivo, embora a recuperação completa tenha levado tempo adicional devido ao aumento do tráfego.

A falha da Cloudflare começou quando uma mudança nas permissões do banco de dados em seu cluster ClickHouse causou uma consulta a produzir múltiplas entradas em um 'arquivo de recursos' essencial para o sistema de gerenciamento de bots. Este arquivo, que descreve traços usados por um modelo de aprendizado de máquina para pontuar bots e determinar acesso a sites de clientes, dobrou inesperadamente de tamanho. O software que roteia o tráfego pela rede da Cloudflare tinha um limite de tamanho de 200 recursos, e o arquivo inchado excedeu isso, levando a falhas no CDN principal, serviços de segurança e outros componentes.

O CEO Matthew Prince inicialmente suspeitou de um ataque DDoS em hiperescala do botnet Aisuru, escrevendo em um chat interno: “Estou preocupado que isso seja o grande botnet se exibindo.” No entanto, a investigação revelou o problema autoinfligido. O arquivo é gerado a cada cinco minutos e propagado pela rede para combater ameaças de bots em evolução. Devido a atualizações graduais no cluster de banco de dados, arquivos ruins foram gerados intermitentemente, causando erros 5xx flutuantes que imitavam um padrão de ataque.

A Cloudflare interrompeu a propagação do arquivo defeituoso, substituiu-o por uma versão anterior boa e reiniciou seu proxy principal. Isso restaurou a maior parte do tráfego, mas levou mais duas horas e meia para lidar com o influxo à medida que os serviços voltavam online. Prince descreveu como a pior falha desde 2019, pedindo desculpas: “Em nome de toda a equipe da Cloudflare, gostaria de me desculpar pela dor que causamos à Internet hoje.”

A empresa confirmou que não houve hackeamento envolvido, atribuindo-o unicamente ao erro do sistema. Para prevenir recorrências, a Cloudflare planeja endurecer a ingestão de configurações, adicionar interruptores de desligamento globais, eliminar relatórios de erros que sobrecarregam recursos e revisar modos de falha em todos os módulos de proxy. Prince observou que falhas passadas impulsionaram melhorias na resiliência, embora ele não possa garantir contra futuras nessa escala.

Este site usa cookies