Cloudflareの障害はボット管理ファイルの過大サイズが原因

2025年11月18日のCloudflareの大規模障害は、数多くのウェブサイトとサービスを中断させ、最初は大規模なDDoS攻撃と誤認されました。問題は、社内のデータベース変更により、同社のボット管理システムで使用される重要な機能ファイルのサイズが倍増したことに起因します。Cloudflareは前のファイルバージョンに戻すことで問題を解決しましたが、トラフィックの急増により完全回復には追加の時間がかかりました。

Cloudflareの障害は、ClickHouseクラスタのデータベース権限変更により、ボット管理システムに不可欠な「機能ファイル」へのクエリ出力が複数エントリを生じさせたことから始まりました。このファイルは、機械学習モデルがボットをスコアリングし顧客サイトへのアクセスを決定するために使用される特性を記述しており、予期せずサイズが倍増しました。Cloudflareのネットワーク全体でトラフィックをルーティングするソフトウェアには200機能のサイズ制限があり、肥大化したファイルがこれを超過したため、コアCDN、セキュリティサービス、その他のコンポーネントに障害が発生しました。

CEOのMatthew Princeは当初、AisuruボットネットからのハイパースケールDDoS攻撃を疑い、内部チャットで「これが大規模ボットネットの力見せ合いではないかと心配だ」と書きました。しかし、調査により自己原因の問題が明らかになりました。このファイルは5分ごとに生成され、進化するボット脅威に対抗するためにネットワーク全体に配信されます。データベースクラスタの段階的更新により、不良ファイルが断続的に生成され、攻撃パターンを模倣する変動する5xxエラーを引き起こしました。

Cloudflareは不良ファイルの配信を停止し、以前の良好なバージョンに置き換え、コアプロキシを再起動しました。これによりほとんどのトラフィックが回復しましたが、サービスがオンラインに戻るにつれ、流入を処理するのにさらに2時間半を要しました。Princeはこれを2019年以来最悪の障害と形容し、「Cloudflareの全チームを代表して、今日インターネットに与えた痛みについてお詫び申し上げます」と謝罪しました。

同社はハッキングは関与しておらず、システムエラーにのみ起因すると確認しました。再発防止のため、Cloudflareは構成取り込みの強化、全グローバルキルスイッチの追加、リソースを圧倒するエラーレポートの排除、プロキシモジュール全体の障害モードの見直しを計画しています。Princeは過去の障害がレジリエンスの改善を促したと指摘しましたが、この規模の将来のものを保証することはできません。

このウェブサイトはCookieを使用します

サイトを改善するための分析にCookieを使用します。詳細については、プライバシーポリシーをお読みください。
拒否