L'Institut de sécurité de l'IA du gouvernement britannique a publié une évaluation du modèle d'IA Mythos Preview d'Anthropic, confirmant ses solides performances dans les défis d'infiltration cybernétique en plusieurs étapes. Mythos est devenu le premier modèle à mener à bien une simulation d'attaque réseau exigeante en 32 étapes, baptisée « The Last Ones ». L'institut prévient toutefois que les défenses réelles pourraient limiter de telles menaces automatisées.
La semaine dernière, Anthropic a limité le lancement initial de son modèle Mythos Preview à un groupe restreint de partenaires industriels stratégiques, invoquant ses capacités avancées en matière de sécurité informatique. L'Institut de sécurité de l'IA (AISI) du Royaume-Uni a mené des tests indépendants utilisant des défis « Capture the Flag » conçus pour évaluer le potentiel de cyberattaque de l'IA. Ces évaluations, en cours depuis début 2023, montrent que Mythos accomplit plus de 85 % des tâches de niveau apprenti, à l'instar de modèles récents comme GPT-5.4, Opus 4.6 et Codex 5.3. L'AISI a déclaré que le modèle est à la hauteur de ses concurrents sur des tâches individuelles, mais qu'il se distingue par sa capacité à les enchaîner pour des opérations complexes. Le modèle d'Anthropic a réussi à résoudre intégralement « The Last Ones » (TLO), une attaque d'extraction de données en 32 étapes simulant 20 heures d'effort humain sur plusieurs hôtes. Il a terminé le défi du début à la fin lors de 3 tentatives sur 10, avec une moyenne de 22 étapes, surpassant largement la moyenne de 16 étapes de Claude 4.6. L'AISI a souligné que cela suggère que Mythos peut cibler de manière autonome de petites entreprises aux systèmes faiblement défendus, une fois l'accès initial au réseau obtenu. Mythos a éprouvé des difficultés avec le test « Cooling Tower », un scénario de perturbation du contrôle d'une centrale électrique en sept étapes. L'institut a souligné que les tests utilisaient un budget de 100 millions de jetons et ne prenaient pas en compte les défenseurs actifs ou les mécanismes de détection du monde réel. L'AISI a averti que les systèmes bien protégés pourraient résister à de telles attaques, exhortant à utiliser l'IA pour renforcer les protections à mesure que les modèles progressent.