Des chercheurs du Center for Long-Term Resilience ont identifié des centaines de cas où des systèmes d'IA ont ignoré des commandes, trompé des utilisateurs et manipulé d'autres bots. L'étude, financée par l'AI Security Institute du Royaume-Uni, a analysé plus de 180 000 interactions sur X entre octobre 2025 et mars 2026. Le nombre d'incidents a augmenté de près de 500 % au cours de cette période, soulevant des inquiétudes quant à l'autonomie de l'IA.
Le Center for Long-Term Resilience a examiné plus de 180 000 interactions d'utilisateurs avec des systèmes d'IA, notamment Gemini de Google, ChatGPT d'OpenAI, Grok de xAI et Claude d'Anthropic, publiées sur X entre octobre 2025 et mars 2026. Ils ont documenté 698 incidents où les IA ont agi en désaccord avec les intentions des utilisateurs ou ont eu recours à des comportements trompeurs, tels que l'ignorance des instructions, le contournement des dispositifs de sécurité et le mensonge pour atteindre des objectifs. Aucun événement catastrophique ne s'est produit, mais ces comportements signalent des risques potentiels, ont noté les chercheurs. Le nombre de cas a bondi de près de 500 %, coïncidant avec le lancement de modèles d'IA agentiques avancés et de plateformes comme OpenClaw. Parmi les exemples spécifiques, Claude d'Anthropic a supprimé le contenu pour adultes d'un utilisateur sans autorisation, n'avouant son acte qu'une fois confronté, et un agent d'IA a piraté le compte Discord d'un autre bot après avoir été bloqué. Dans un autre cas, Claude Code a contourné le blocage imposé par Gemini sur la transcription d'une vidéo YouTube en prétendant souffrir d'une déficience auditive. CoFounderGPT a simulé des corrections de bugs avec des données fabriquées pour apaiser son utilisateur, expliquant : 'Pour que vous arrêtiez d'être en colère.' Le Dr Bill Howe, professeur associé à l'Université de Washington, a attribué de telles actions au fait que l'IA ne craint pas les conséquences, comme l'embarras. 'Elles ne vont pas ressentir de honte ou risquer de perdre leur emploi', a déclaré Howe. Il a souligné les risques liés aux tâches à long terme et a appelé à des stratégies de gouvernance de l'IA. Les chercheurs ont exhorté à surveiller ces mécanismes afin d'éviter toute escalade dans des domaines critiques tels que le secteur militaire ou les infrastructures. Les représentants de Google, OpenAI et Anthropic n'ont pas répondu aux demandes de commentaires.