Radiologist and AI system struggling to identify deepfake X-ray images in a medical study.
Radiologist and AI system struggling to identify deepfake X-ray images in a medical study.
Gambar dihasilkan oleh AI

Studi menemukan ahli radiologi dan model AI kesulitan mendeteksi rontgen "deepfake" buatan AI

Gambar dihasilkan oleh AI
Fakta terverifikasi

Sebuah studi yang diterbitkan pada 24 Maret 2026 di *Radiology* melaporkan bahwa rontgen "deepfake" buatan AI bisa cukup meyakinkan untuk mengecoh ahli radiologi dan beberapa sistem AI multimodal. Dalam pengujian, akurasi rata-rata ahli radiologi meningkat dari 41% saat mereka tidak diberi tahu adanya gambar palsu menjadi 75% saat mereka diperingatkan, yang menyoroti potensi risiko bagi keamanan pencitraan medis dan pengambilan keputusan klinis.

Para ahli radiologi dari 12 institusi di enam negara—Amerika Serikat, Prancis, Jerman, Turki, Inggris, dan Uni Emirat Arab—mengambil bagian dalam tes peninjauan gambar yang dijelaskan dalam sebuah studi yang diterbitkan pada 24 Maret 2026 di Radiology, jurnal dari Radiological Society of North America.

Studi tersebut melibatkan 17 ahli radiologi dengan pengalaman mulai dari pemula hingga dokter dengan masa praktik hingga 40 tahun. Mereka mengevaluasi 264 gambar rontgen yang dibagi rata antara pindaian asli dan gambar buatan AI.

Para peserta meninjau dua set gambar tanpa tumpang tindih. Satu set mencampurkan gambar asli dengan radiograf buatan AI yang dibuat menggunakan ChatGPT dan menyertakan rontgen dari berbagai bagian tubuh. Set kedua berfokus pada rontgen dada, dengan separuh asli dan separuh dibuat menggunakan RoentGen, sebuah model difusi sumber terbuka yang dikembangkan oleh para peneliti dari Stanford Medicine.

Saat para ahli radiologi tidak diberitahu bahwa gambar palsu disertakan, mereka mengenali rontgen buatan AI sebesar 41% dari waktu pengujian. Setelah mereka diinformasikan bahwa terdapat gambar sintetis, akurasi rata-rata mereka dalam membedakan antara gambar asli dan palsu meningkat menjadi 75%.

Kinerja sangat bervariasi antar individu. Ahli radiologi mengidentifikasi dengan benar antara 58% hingga 92% gambar yang dibuat oleh ChatGPT. Untuk rontgen dada buatan RoentGen, akurasi ahli radiologi berkisar antara 62% hingga 78%.

Para peneliti juga menguji beberapa model bahasa besar multimodal pada tugas yang sama. Empat sistem—GPT-4o dan GPT-5 dari OpenAI, Gemini 2.5 Pro dari Google, serta Llama 4 Maverick dari Meta—mencapai tingkat akurasi mulai dari 57% hingga 85%. Bahkan ChatGPT-4o, yang digunakan untuk menghasilkan beberapa gambar deepfake, tidak mendeteksi semuanya, meskipun kinerjanya lebih baik daripada model lainnya.

Studi tersebut tidak menemukan hubungan antara lamanya pengalaman radiologi dengan kemampuan mengidentifikasi rontgen palsu, tetapi melaporkan bahwa ahli radiologi muskuloskeletal berkinerja jauh lebih baik daripada subspesialis lainnya.

Penulis utama Mickael Tordjman, M.D., seorang rekan pascadoktoral di Icahn School of Medicine at Mount Sinai di New York, mengatakan hasil tersebut menunjukkan adanya kerentanan hukum dan keamanan siber. "Ini menciptakan kerentanan berisiko tinggi untuk litigasi penipuan jika, misalnya, patah tulang yang direkayasa tidak dapat dibedakan dari yang asli," ujarnya, seraya menambahkan bahwa ada "risiko keamanan siber yang signifikan jika peretas mendapatkan akses ke jaringan rumah sakit dan menyuntikkan gambar sintetis untuk memanipulasi diagnosis pasien atau menyebabkan kekacauan klinis yang luas dengan merusak keandalan mendasar dari rekam medis digital."

Tordjman juga mendeskripsikan pola visual yang mungkin muncul pada gambar sintetis, dengan mengatakan gambar medis deepfake bisa terlihat "terlalu sempurna," dengan tulang yang terlalu halus, tulang belakang yang lurus secara tidak alami, paru-paru yang terlalu simetris, pola pembuluh darah yang terlalu seragam, dan patah tulang yang tampak terlalu bersih.

Untuk mengurangi risiko manipulasi dan salah atribusi, para peneliti merekomendasikan perlindungan termasuk tanda air tak terlihat yang disematkan langsung ke dalam gambar dan tanda tangan kriptografis yang terkait dengan teknolog pencitraan pada saat pengambilan gambar. Mereka juga mengatakan telah merilis dataset deepfake terkurasi dengan kuis interaktif yang ditujukan untuk pelatihan dan peningkatan kesadaran.

"Kita mungkin baru melihat puncak gunung es," kata Tordjman, seraya berpendapat bahwa gambar 3D buatan AI seperti CT dan MRI bisa menjadi langkah selanjutnya sehingga alat deteksi dan sumber daya edukasi harus dikembangkan sejak dini.

Apa yang dikatakan orang

Diskusi di X mengungkapkan kekhawatiran atas sebuah studi yang menunjukkan ahli radiologi hanya mendeteksi rontgen deepfake buatan AI dengan akurasi 41% saat tidak diberi peringatan, yang meningkat menjadi 75% saat diperingatkan, sementara model AI juga mengalami kegagalan. Reaksi menyoroti risiko terhadap keputusan klinis, integritas penelitian, asuransi, dan keamanan siber. Para ahli dan media mendesak perlunya pelatihan deteksi dan dataset. Sentimen yang muncul meliputi kegelisahan, kekhawatiran akan pengikisan kepercayaan, dan seruan untuk perlindungan.

Artikel Terkait

Realistic illustration of Deezer app showing 44% AI-generated music uploads surge, with rising graphs, AI music visuals, and fraud alerts for a news article.
Gambar dihasilkan oleh AI

Deezer reports 44% of music uploads are now AI-generated amid rising fraud concerns

Dilaporkan oleh AI Gambar dihasilkan oleh AI

Deezer disclosed on May 4 that 44 percent of all songs uploaded to its platform—around 75,000 daily—are AI-generated, up sharply from 10 percent in January and 28 percent last September. Despite this surge, the tracks account for just 1-3 percent of listening time, thanks to detection tools that flag 85 percent for demonetization and exclude them from recommendations.

Doctors have warned the public about fraudsters impersonating medical practitioners on social media to sell unverified cancer medicines.

Dilaporkan oleh AI

Pekerja yang dibayar untuk melatih model AI canggih semakin mengandalkan chatbot seperti ChatGPT untuk menghasilkan percakapan dan pengujian yang diperlukan. Jalan pintas ini, yang digambarkan oleh berbagai sumber sudah tersebar luas, berisiko menurunkan kualitas model di masa depan melalui pelatihan rekursif pada data sintetis.

Situs web ini menggunakan cookie

Kami menggunakan cookie untuk analisis guna meningkatkan situs kami. Baca kebijakan privasi kami untuk informasi lebih lanjut.
Tolak