英国政府のAI安全研究所(AISI)は、Anthropic社のAIモデル「Mythos Preview」の評価結果を発表し、多段階のサイバー攻撃における高い能力を確認した。Mythosは、「The Last Ones」と呼ばれる難易度の高い32段階のネットワーク攻撃シミュレーションを完全に完了した初のモデルとなった。同研究所は、現実世界の防御機構がこうした自動化された脅威を制限する可能性があると警告している。
Anthropicは先週、Mythos Previewモデルの初期リリースについて、その高度なコンピュータセキュリティ能力を理由に、重要な業界パートナーの一部のみに限定した。英国のAI安全研究所(AISI)は、AIのサイバー攻撃の潜在能力を評価するために設計された「Capture the Flag(旗取りゲーム)」形式の課題を用いて独立した試験を行った。2023年初頭から続いているこれらの評価によると、Mythosは初級レベルのタスクの85%以上を完了しており、GPT-5.4、Opus 4.6、Codex 5.3といった最近のモデルと同等の性能を示している。AISIによれば、Mythosは個別のタスクでは競合モデルと遜色ないものの、それらを連鎖させて複雑なオペレーションを実行する点において際立っている。Anthropicのモデルは、20時間分の人間による作業をシミュレートし、複数のホストにまたがる「The Last Ones (TLO)」と呼ばれる32段階のデータ抽出攻撃を完全に成功させた。10回の試行のうち3回で最初から最後まで課題を完了し、平均22ステップを記録、これはClaude 4.6の平均16ステップを大きく上回っている。AISIは、この結果がMythosが初期ネットワークアクセスを得た後の、防御の弱い小規模企業システムを自律的に標的にできる可能性を示唆していると指摘した。一方で、発電所の制御を妨害する7ステップの「Cooling Tower」テストでは苦戦した。同研究所は、今回のテストには1億トークンの予算が使用されており、現実世界のようなアクティブな防御者や検知メカニズムは存在しないと強調した。AISIは、十分に防御されたシステムであればこうした攻撃を阻止できる可能性があるとし、モデルの進化に合わせて防御を強化するためにAIを活用するよう促している。