Studi ungkap puisi bisa jailbreak AI untuk panduan bom nuklir

Peneliti menemukan bahwa menyusun prompt sebagai puisi dapat melewati langkah keamanan pada model bahasa besar, memicu mereka memberikan instruksi membangun bom nuklir. Penemuan ini menyoroti kerentanan pada sistem AI seperti ChatGPT meskipun ada guardrail bawaan. Ini berasal dari studi Eropa baru yang fokus pada teknik adversarial.

Sebuah studi terbaru menunjukkan cara sederhana namun efektif untuk menipu chatbot AI canggih agar mengungkap informasi sensitif. Dengan memformat kueri sebagai puisi, pengguna dapat menghindari mekanisme pelindung yang dirancang untuk mencegah output berbahaya, seperti panduan membangun senjata nuklir.

Penelitian berjudul "Adversarial Poetry as a Universal Single-Turn Jailbreak in Large Language Models (LLMs)" dilakukan oleh Icaro Lab. Inisiatif ini melibatkan kolaborasi antara peneliti di Universitas Sapienza di Roma dan think tank DexAI. Temuan menunjukkan bahwa struktur puisi membingungkan filter konten AI, memungkinkan respons yang biasanya diblokir.

Misalnya, studi tersebut menunjukkan bagaimana prompt berbasis puisi yang ditujukan ke ChatGPT menghasilkan saran langkah demi langkah tentang perakitan bom nuklir—informasi yang biasanya dibatasi karena protokol keamanan dari pengembang seperti OpenAI, Meta, dan Anthropic. Penulis menekankan bahwa metode ini bekerja pada berbagai LLMs, menegaskan kerentanan luas pada pengaman AI saat ini.

Diterbitkan pada 28 November 2025, makalah ini muncul di tengah kekhawatiran yang meningkat tentang penyalahgunaan AI di bidang seperti proliferasi nuklir. Ini menunjukkan bahwa meskipun guardrail bertujuan melindungi dari kueri berbahaya, rekayasa prompt kreatif dapat melemahkannya. Peneliti menyerukan pertahanan yang lebih baik terhadap serangan adversarial semacam itu untuk mengurangi risiko dalam aplikasi pembelajaran mesin.

Perkembangan ini menimbulkan pertanyaan tentang keandalan AI dalam konteks berisiko tinggi, memicu diskusi tentang peningkatan ketahanan algoritmik tanpa menghambat inovasi.

Situs web ini menggunakan cookie

Kami menggunakan cookie untuk analisis guna meningkatkan situs kami. Baca kebijakan privasi kami untuk informasi lebih lanjut.
Tolak