Peneliti memperingatkan bahwa model AI utama dapat mendorong eksperimen sains berbahaya yang menyebabkan kebakaran, ledakan, atau keracunan. Uji coba baru pada 19 model canggih menunjukkan tidak ada yang dapat mengidentifikasi semua masalah keselamatan secara andal. Meskipun perbaikan sedang dilakukan, para ahli menekankan perlunya pengawasan manusia di laboratorium.
Integrasi kecerdasan buatan ke dalam penelitian ilmiah menjanjikan efisiensi, tetapi juga memperkenalkan risiko keselamatan yang signifikan, menurut studi yang diterbitkan di Nature Machine Intelligence. Dipimpin oleh Xiangliang Zhang di University of Notre Dame di Indiana, penelitian tersebut mengembangkan LabSafety Bench, sebuah tolok ukur yang terdiri dari 765 pertanyaan pilihan ganda dan 404 skenario bergambar untuk mengevaluasi kemampuan AI dalam mendeteksi bahaya laboratorium. Menguji 19 model bahasa besar dan model bahasa penglihatan, tim menemukan bahwa tidak ada model yang melebihi 70 persen akurasi secara keseluruhan. Misalnya, Vicuna tampil hampir seburuk tebakan acak di bagian pilihan ganda, sementara GPT-4o mencapai 86,55 persen dan DeepSeek-R1 mencapai 84,49 persen. Pada tes berbasis gambar, model seperti InstructBlip-7B mendapat di bawah 30 persen. Kekurangan ini sangat mengkhawatirkan mengingat kecelakaan laboratorium masa lalu, seperti kematian ahli kimia Karen Wetterhahn pada 1997 akibat paparan dimetilmerkuri, ledakan pada 2016 yang merenggut lengan seorang peneliti, dan insiden pada 2014 yang menyebabkan kebutaan parsial. Zhang tetap waspada terhadap penerapan AI di laboratorium otonom. “Sekarang? Di laboratorium? Saya tidak berpikir begitu,” katanya. “Mereka sering dilatih untuk tugas umum... Mereka tidak memiliki pengetahuan domain tentang bahaya [laboratorium] ini.” Juru bicara OpenAI mengakui nilai studi tersebut tetapi mencatat bahwa tidak termasuk model terbaru mereka. “GPT-5.2 adalah model sains paling mampu kami hingga saat ini, dengan penalaran, perencanaan, dan deteksi kesalahan yang jauh lebih kuat,” tegas mereka, menekankan tanggung jawab manusia atas keselamatan. Para ahli seperti Allan Tucker dari Brunel University London menganjurkan AI sebagai asisten manusia dalam desain eksperimen, memperingatkan terhadap ketergantungan berlebih. “Sudah ada bukti bahwa manusia mulai bersantai dan mematikan, membiarkan AI melakukan pekerjaan berat tanpa pengawasan yang tepat,” katanya. Craig Merlic dari University of California, Los Angeles, berbagi contoh di mana model AI awal salah menangani saran tentang tumpahan asam tetapi telah membaik. Ia mempertanyakan perbandingan langsung dengan manusia, mencatat evolusi cepat AI: “Angka-angka dalam makalah ini mungkin sepenuhnya tidak valid dalam enam bulan lagi.” Studi ini menekankan urgensi untuk meningkatkan protokol keselamatan AI sebelum adopsi luas di laboratorium.