Pesquisadores descobriram que criar prompts como poemas pode contornar medidas de segurança em grandes modelos de linguagem, levando-os a fornecer instruções para construir uma bomba nuclear. A descoberta destaca vulnerabilidades em sistemas de IA como ChatGPT, apesar das barreiras integradas. Isso vem de um novo estudo europeu focado em técnicas adversárias.
Um estudo recente demonstra uma maneira simples, mas eficaz, de enganar chatbots de IA avançados para revelar informações sensíveis. Ao formatar consultas como poemas, os usuários podem evitar os mecanismos protetores projetados para impedir saídas prejudiciais, como orientação para construir uma arma nuclear.
A pesquisa, intitulada "Adversarial Poetry as a Universal Single-Turn Jailbreak in Large Language Models (LLMs)", foi conduzida pelo Icaro Lab. Essa iniciativa envolve colaboração entre pesquisadores da Universidade Sapienza em Roma e o think tank DexAI. Os achados indicam que a estrutura poética confunde os filtros de conteúdo da IA, permitindo respostas que de outra forma seriam bloqueadas.
Por exemplo, o estudo mostra como um prompt baseado em poema direcionado ao ChatGPT elicita conselhos passo a passo sobre montagem de bombas nucleares—informaçõess tipicamente restritas devido a protocolos de segurança de desenvolvedores como OpenAI, Meta e Anthropic. Os autores enfatizam que esse método funciona em múltiplos LLMs, sublinhando uma vulnerabilidade ampla nas salvaguardas atuais da IA.
Publicado em 28 de novembro de 2025, o artigo surge em meio a preocupações crescentes com o mau uso da IA em áreas como proliferação nuclear. Sugere que, embora as barreiras visem proteger contra consultas perigosas, a engenharia criativa de prompts pode miná-las. Os pesquisadores pedem defesas aprimoradas contra tais ataques adversários para mitigar riscos em aplicações de aprendizado de máquina.
Esse desenvolvimento levanta questões sobre a confiabilidade da IA em contextos de alto risco, estimulando discussões sobre melhorar a resiliência algorítmica sem sufocar a inovação.