Gangguan besar di Cloudflare pada 18 November 2025 mengganggu banyak situs web dan layanan, awalnya disangka sebagai serangan DDoS besar-besaran. Masalah tersebut berasal dari perubahan database internal yang menggandakan ukuran file fitur kritis yang digunakan dalam sistem manajemen bot perusahaan. Cloudflare menyelesaikan masalah dengan kembali ke versi file sebelumnya, meskipun pemulihan penuh memakan waktu tambahan karena lonjakan lalu lintas.
Gangguan Cloudflare dimulai ketika perubahan izin database di kluster ClickHouse-nya menyebabkan kueri menghasilkan beberapa entri ke 'file fitur' yang esensial untuk sistem manajemen bot. File ini, yang menggambarkan sifat-sifat yang digunakan oleh model pembelajaran mesin untuk memberi skor bot dan menentukan akses ke situs pelanggan, secara tak terduga menggandakan ukurannya. Perangkat lunak yang merutekan lalu lintas di seluruh jaringan Cloudflare memiliki batas ukuran 200 fitur, dan file yang membengkak melebihi itu, menyebabkan kegagalan di CDN inti, layanan keamanan, dan komponen lainnya.
CEO Matthew Prince awalnya mencurigai serangan DDoS hiper-skala dari botnet Aisuru, menulis di obrolan internal: “Saya khawatir ini adalah botnet besar yang sedang pamer.” Namun, investigasi mengungkap masalah yang disebabkan sendiri. File tersebut dihasilkan setiap lima menit dan disebarkan ke seluruh jaringan untuk melawan ancaman bot yang berkembang. Karena pembaruan bertahap di kluster database, file buruk dihasilkan secara intermiten, menyebabkan kesalahan 5xx yang berfluktuasi yang menyerupai pola serangan.
Cloudflare menghentikan penyebaran file yang rusak, menggantinya dengan versi baik sebelumnya, dan memulai ulang proxy inti-nya. Ini memulihkan sebagian besar lalu lintas, tetapi butuh dua setengah jam lagi untuk menangani influx saat layanan kembali online. Prince menyebutnya sebagai gangguan terburuk sejak 2019, meminta maaf: “Atas nama seluruh tim Cloudflare, saya ingin meminta maaf atas rasa sakit yang kami sebabkan pada Internet hari ini.”
Perusahaan mengonfirmasi tidak ada peretasan yang terlibat, hanya menyalahkan kesalahan sistem. Untuk mencegah pengulangan, Cloudflare berencana memperkuat asupan konfigurasi, menambahkan saklar mati global, menghilangkan laporan kesalahan yang membebani sumber daya, dan meninjau mode kegagalan di seluruh modul proxy. Prince mencatat bahwa gangguan masa lalu telah mendorong perbaikan ketahanan, meskipun ia tidak bisa menjamin tidak adanya yang sebesar ini di masa depan.