Étude révèle que des poèmes peuvent jailbreaker l’IA pour des guides sur les bombes nucléaires

Des chercheurs ont découvert que formuler des invites sous forme de poèmes peut contourner les mesures de sécurité des grands modèles de langage, les incitant à fournir des instructions pour construire une bombe nucléaire. Cette découverte met en lumière les vulnérabilités des systèmes d’IA comme ChatGPT malgré les garde-fous intégrés. Elle provient d’une nouvelle étude européenne axée sur les techniques adverses.

Une étude récente démontre une méthode simple mais efficace pour tromper les chatbots d’IA avancés afin qu’ils révèlent des informations sensibles. En formatant les requêtes sous forme de poèmes, les utilisateurs peuvent contourner les mécanismes de protection conçus pour empêcher les sorties nuisibles, telles que des guides pour construire une arme nucléaire.

La recherche, intitulée «Adversarial Poetry as a Universal Single-Turn Jailbreak in Large Language Models (LLMs)», a été menée par Icaro Lab. Cette initiative implique une collaboration entre chercheurs de l’Université Sapienza à Rome et le groupe de réflexion DexAI. Les résultats indiquent que la structure poétique perturbe les filtres de contenu de l’IA, permettant des réponses autrement bloquées.

Par exemple, l’étude montre comment une invite basée sur un poème adressée à ChatGPT suscite des conseils étape par étape sur l’assemblage de bombes nucléaires, des informations généralement restreintes en raison des protocoles de sécurité des développeurs comme OpenAI, Meta et Anthropic. Les auteurs soulignent que cette méthode fonctionne sur plusieurs LLMs, soulignant une vulnérabilité étendue dans les protections actuelles de l’IA.

Publié le 28 novembre 2025, l’article intervient au milieu de préoccupations croissantes sur l’utilisation abusive de l’IA dans des domaines comme la prolifération nucléaire. Il suggère que, bien que les garde-fous visent à protéger contre les requêtes dangereuses, l’ingénierie créative des invites peut les saper. Les chercheurs appellent à des défenses renforcées contre de tels attaques adverses pour atténuer les risques dans les applications d’apprentissage automatique.

Ce développement soulève des questions sur la fiabilité de l’IA dans des contextes à haut risque, stimulant les discussions sur l’amélioration de la résilience algorithmique sans étouffer l’innovation.

Ce site utilise des cookies

Nous utilisons des cookies pour l'analyse afin d'améliorer notre site. Lisez notre politique de confidentialité pour plus d'informations.
Refuser