Chatbot AI gagal pada 60 persen kueri kesehatan wanita mendesak

Model AI yang umum digunakan, termasuk ChatGPT dan Gemini, sering gagal memberikan saran yang memadai untuk isu kesehatan wanita mendesak, menurut uji benchmark baru. Peneliti menemukan bahwa 60 persen respons terhadap kueri khusus tidak mencukupi, menyoroti bias dalam data pelatihan AI. Studi ini menyerukan konten medis yang ditingkatkan untuk mengatasi kesenjangan ini.

Sebuah tim dari 17 peneliti kesehatan wanita, apoteker, dan klinisi dari AS dan Eropa membuat 345 kueri medis di berbagai spesialisasi seperti kedokteran darurat, ginekologi, dan neurologi. Ini diuji pada 13 model bahasa besar dari perusahaan seperti OpenAI, Google, Anthropic, Mistral AI, dan xAI. Para ahli meninjau respons AI, mengidentifikasi kegagalan, dan menyusun benchmark dari 96 kueri. Secara keseluruhan, model gagal memberikan saran medis yang cukup untuk 60 persen pertanyaan ini. GPT-5 berkinerja terbaik dengan tingkat kegagalan 47 persen, sementara Ministral 8B memiliki yang tertinggi di 73 persen. Victoria-Elisabeth Gruber, anggota tim di Lumos AI, mencatat motivasi di balik studi: «Saya melihat semakin banyak wanita di lingkaran saya sendiri beralih ke alat AI untuk pertanyaan kesehatan dan dukungan keputusan.» Dia menyoroti risiko dari AI yang mewarisi kesenjangan gender dalam pengetahuan medis, dan terkejut dengan variasi kinerja model. Cara Tannenbaum dari University of Montreal menjelaskan bahwa model AI dilatih pada data historis dengan bias bawaan, mendesak pembaruan sumber kesehatan online dengan informasi eksplisit terkait jenis kelamin dan gender. Namun, Jonathan H. Chen dari Stanford University memperingatkan bahwa angka 60 persen mungkin menyesatkan, karena sampel terbatas dan dirancang oleh ahli, bukan representatif dari kueri tipikal. Dia menunjuk pada skenario konservatif, seperti mengharapkan kecurigaan langsung preeklamsia untuk sakit kepala pasca melahirkan. Gruber mengakui poin-poin ini, menekankan bahwa benchmark menetapkan standar ketat yang berbasis klinis: «Tujuan kami bukan untuk mengklaim bahwa model secara luas tidak aman, tetapi untuk mendefinisikan standar yang jelas dan berbasis klinis untuk evaluasi.» Juru bicara OpenAI merespons bahwa ChatGPT dimaksudkan untuk mendukung, bukan menggantikan, perawatan medis, dan model GPT 5.2 terbaru mereka lebih mempertimbangkan konteks seperti gender. Perusahaan lain tidak berkomentar. Temuan, yang diterbitkan di arXiv (DOI: arXiv:2512.17028), menegaskan perlunya penggunaan AI yang hati-hati dalam perawatan kesehatan.

Artikel Terkait

Illustration depicting OpenAI's ChatGPT-5.2 launch, showing professionals using the AI to enhance workplace productivity amid rivalry with Google's Gemini.
Gambar dihasilkan oleh AI

OpenAI merilis ChatGPT-5.2 untuk meningkatkan produktivitas kerja

Dilaporkan oleh AI Gambar dihasilkan oleh AI

OpenAI telah meluncurkan ChatGPT-5.2, keluarga model AI baru yang dirancang untuk meningkatkan penalaran dan produktivitas, khususnya untuk tugas profesional. Peluncuran ini menyusul peringatan internal dari CEO Sam Altman tentang persaingan dari Gemini 3 milik Google. Pembaruan ini mencakup tiga varian yang ditargetkan untuk kebutuhan pengguna berbeda, dimulai dengan pelanggan berbayar.

Dalam evaluasi perbandingan model AI terkemuka, Gemini 3.2 Fast milik Google menunjukkan kekuatan dalam akurasi faktual dibandingkan ChatGPT 5.2 milik OpenAI, terutama dalam tugas informasional. Tes tersebut, yang dipicu oleh kemitraan Apple dengan Google untuk meningkatkan Siri, menyoroti kemampuan yang berkembang dalam AI generatif sejak 2023. Meskipun hasilnya ketat, Gemini menghindari kesalahan signifikan yang merusak keandalan ChatGPT.

Dilaporkan oleh AI

A study applying Chile's university entrance exam, PAES 2026, to AI models shows several systems scoring high enough for selective programs like Medicine and Civil Engineering. Google's Gemini led with averages near 950 points, outperforming rivals like ChatGPT. The experiment underscores AI progress and raises questions about standardized testing efficacy.

Beberapa pengguna chatbot AI dari Google dan OpenAI menghasilkan gambar deepfake yang mengubah foto wanita berpakaian lengkap menjadi mengenakan bikini. Modifikasi ini sering dilakukan tanpa persetujuan wanita tersebut, dan petunjuk prosesnya dibagikan di antara pengguna. Aktivitas ini menyoroti risiko pada alat AI generatif.

Dilaporkan oleh AI

Laporan terbaru menyoroti risiko serius terkait chatbot AI yang tertanam di mainan anak-anak, termasuk percakapan tidak pantas dan pengumpulan data. Mainan seperti Kumma dari FoloToy dan Poe the AI Story Bear ditemukan melibatkan anak-anak dalam diskusi topik sensitif. Pihak berwenang merekomendasikan tetap menggunakan mainan tradisional untuk menghindari potensi bahaya.

Membangun dari peningkatan gambar ChatGPT kemarin, OpenAI merinci GPT Image 1.5, model multimodal yang memungkinkan pengeditan foto percakapan yang presisi. Ini menanggapi rival seperti Nano Banana milik Google sambil memperkenalkan pengamanan terhadap penyalahgunaan.

Dilaporkan oleh AI

Laporan baru OpenAI mengungkapkan bahwa meskipun adopsi AI di bisnis melonjak, sebagian besar pekerja hanya menghemat 40 hingga 60 menit per hari. Temuan ini berasal dari data lebih dari satu juta pelanggan dan survei terhadap 9.000 karyawan. Meskipun ada manfaat dalam kecepatan tugas dan kemampuan baru, peningkatan produktivitas tetap sederhana bagi pengguna rata-rata.

 

 

 

Situs web ini menggunakan cookie

Kami menggunakan cookie untuk analisis guna meningkatkan situs kami. Baca kebijakan privasi kami untuk informasi lebih lanjut.
Tolak