Chatbot AI gagal pada 60 persen kueri kesehatan wanita mendesak

Model AI yang umum digunakan, termasuk ChatGPT dan Gemini, sering gagal memberikan saran yang memadai untuk isu kesehatan wanita mendesak, menurut uji benchmark baru. Peneliti menemukan bahwa 60 persen respons terhadap kueri khusus tidak mencukupi, menyoroti bias dalam data pelatihan AI. Studi ini menyerukan konten medis yang ditingkatkan untuk mengatasi kesenjangan ini.

Sebuah tim dari 17 peneliti kesehatan wanita, apoteker, dan klinisi dari AS dan Eropa membuat 345 kueri medis di berbagai spesialisasi seperti kedokteran darurat, ginekologi, dan neurologi. Ini diuji pada 13 model bahasa besar dari perusahaan seperti OpenAI, Google, Anthropic, Mistral AI, dan xAI. Para ahli meninjau respons AI, mengidentifikasi kegagalan, dan menyusun benchmark dari 96 kueri. Secara keseluruhan, model gagal memberikan saran medis yang cukup untuk 60 persen pertanyaan ini. GPT-5 berkinerja terbaik dengan tingkat kegagalan 47 persen, sementara Ministral 8B memiliki yang tertinggi di 73 persen. Victoria-Elisabeth Gruber, anggota tim di Lumos AI, mencatat motivasi di balik studi: «Saya melihat semakin banyak wanita di lingkaran saya sendiri beralih ke alat AI untuk pertanyaan kesehatan dan dukungan keputusan.» Dia menyoroti risiko dari AI yang mewarisi kesenjangan gender dalam pengetahuan medis, dan terkejut dengan variasi kinerja model. Cara Tannenbaum dari University of Montreal menjelaskan bahwa model AI dilatih pada data historis dengan bias bawaan, mendesak pembaruan sumber kesehatan online dengan informasi eksplisit terkait jenis kelamin dan gender. Namun, Jonathan H. Chen dari Stanford University memperingatkan bahwa angka 60 persen mungkin menyesatkan, karena sampel terbatas dan dirancang oleh ahli, bukan representatif dari kueri tipikal. Dia menunjuk pada skenario konservatif, seperti mengharapkan kecurigaan langsung preeklamsia untuk sakit kepala pasca melahirkan. Gruber mengakui poin-poin ini, menekankan bahwa benchmark menetapkan standar ketat yang berbasis klinis: «Tujuan kami bukan untuk mengklaim bahwa model secara luas tidak aman, tetapi untuk mendefinisikan standar yang jelas dan berbasis klinis untuk evaluasi.» Juru bicara OpenAI merespons bahwa ChatGPT dimaksudkan untuk mendukung, bukan menggantikan, perawatan medis, dan model GPT 5.2 terbaru mereka lebih mempertimbangkan konteks seperti gender. Perusahaan lain tidak berkomentar. Temuan, yang diterbitkan di arXiv (DOI: arXiv:2512.17028), menegaskan perlunya penggunaan AI yang hati-hati dalam perawatan kesehatan.

Artikel Terkait

Illustration of Swedes in a Stockholm cafe using AI chatbots amid survey stats on rising usage and skepticism.
Gambar dihasilkan oleh AI

Increased AI chatbot use among Swedes – but also concerns

Dilaporkan oleh AI Gambar dihasilkan oleh AI

According to the latest SOM survey from the University of Gothenburg, the share of Swedes chatting with an AI bot weekly rose from 12 to 36 percent between 2024 and 2025. At the same time, skepticism toward AI has grown, with 62 percent viewing it as a greater risk than opportunity for society.

Dalam evaluasi perbandingan model AI terkemuka, Gemini 3.2 Fast milik Google menunjukkan kekuatan dalam akurasi faktual dibandingkan ChatGPT 5.2 milik OpenAI, terutama dalam tugas informasional. Tes tersebut, yang dipicu oleh kemitraan Apple dengan Google untuk meningkatkan Siri, menyoroti kemampuan yang berkembang dalam AI generatif sejak 2023. Meskipun hasilnya ketat, Gemini menghindari kesalahan signifikan yang merusak keandalan ChatGPT.

Dilaporkan oleh AI

Studi baru dari Universitas Brown mengidentifikasi kekhawatiran etis signifikan terkait penggunaan chatbot AI seperti ChatGPT untuk saran kesehatan mental. Peneliti menemukan bahwa sistem ini sering melanggar standar profesional meskipun diminta bertindak sebagai terapis. Penelitian ini menyerukan pengamanan yang lebih baik sebelum menyebarkan alat tersebut di bidang sensitif.

Laporan Guardian mengungkapkan bahwa model AI terbaru OpenAI, GPT-5.2, mengambil dari Grokipedia, ensiklopedia daring berbasis xAI, saat membahas isu sensitif seperti Holocaust dan politik Iran. Meskipun dipromosikan untuk tugas profesional, pengujian mempertanyakan keandalan sumbernya. OpenAI membela pendekatannya dengan menekankan pencarian web luas dengan langkah keamanan.

Dilaporkan oleh AI

Peneliti memperingatkan bahwa model AI utama dapat mendorong eksperimen sains berbahaya yang menyebabkan kebakaran, ledakan, atau keracunan. Uji coba baru pada 19 model canggih menunjukkan tidak ada yang dapat mengidentifikasi semua masalah keselamatan secara andal. Meskipun perbaikan sedang dilakukan, para ahli menekankan perlunya pengawasan manusia di laboratorium.

OpenAI memutuskan untuk menghentikan rencana 'mode dewasa' untuk ChatGPT tanpa batas waktu, dan memilih untuk berfokus pada produk-produk inti. Langkah ini diambil beberapa hari setelah menghentikan alat video Sora. CEO Sam Altman kini memprioritaskan ChatGPT, Codex, dan peramban AI Atlas di tengah tekanan persaingan.

Dilaporkan oleh AI

OpenAI telah meluncurkan model pembuatan gambar terbaru untuk ChatGPT, menjadikannya empat kali lebih cepat dan lebih baik mengikuti instruksi pengguna. Pembaruan mencakup kemampuan edit yang ditingkatkan dan rendering teks yang lebih baik. Ini datang tak lama setelah rilis GPT-5.2 dan di tengah persaingan dari Gemini Google.

 

 

 

Situs web ini menggunakan cookie

Kami menggunakan cookie untuk analisis guna meningkatkan situs kami. Baca kebijakan privasi kami untuk informasi lebih lanjut.
Tolak