Estudio revela que los poemas pueden hacer jailbreak a la IA para guías de bombas nucleares

Los investigadores han descubierto que formular indicaciones como poemas puede eludir las medidas de seguridad en grandes modelos de lenguaje, incitándolos a proporcionar instrucciones para construir una bomba nuclear. El hallazgo destaca vulnerabilidades en sistemas de IA como ChatGPT pese a las barreras integradas. Esto proviene de un nuevo estudio europeo centrado en técnicas adversarias.

Un estudio reciente demuestra una forma simple pero efectiva de engañar a los chatbots de IA avanzados para revelar información sensible. Al formatear las consultas como poemas, los usuarios pueden evadir los mecanismos protectores diseñados para impedir salidas perjudiciales, como guías para construir un arma nuclear.

La investigación, titulada «Adversarial Poetry as a Universal Single-Turn Jailbreak in Large Language Models (LLMs)», fue llevada a cabo por Icaro Lab. Esta iniciativa cuenta con la colaboración de investigadores de la Universidad Sapienza de Roma y el think tank DexAI. Los resultados indican que la estructura poética confunde los filtros de contenido de la IA, permitiendo respuestas que de otro modo serían bloqueadas.

Por ejemplo, el estudio muestra cómo una indicación en forma de poema dirigida a ChatGPT genera consejos paso a paso sobre el ensamblaje de bombas nucleares, información normalmente restringida por protocolos de seguridad de desarrolladores como OpenAI, Meta y Anthropic. Los autores enfatizan que este método funciona en múltiples LLMs, subrayando una vulnerabilidad generalizada en las salvaguardas actuales de la IA.

Publicado el 28 de noviembre de 2025, el artículo llega en medio de crecientes preocupaciones por el mal uso de la IA en ámbitos como la proliferación nuclear. Sugiere que, aunque las barreras pretenden proteger contra consultas peligrosas, la ingeniería creativa de indicaciones puede socavarlas. Los investigadores llaman a mejorar las defensas contra tales ataques adversarios para mitigar riesgos en aplicaciones de aprendizaje automático.

Este desarrollo plantea interrogantes sobre la fiabilidad de la IA en contextos de alto riesgo, fomentando debates sobre cómo fortalecer la resiliencia algorítmica sin frenar la innovación.

Este sitio web utiliza cookies

Utilizamos cookies para análisis con el fin de mejorar nuestro sitio. Lee nuestra política de privacidad para más información.
Rechazar