Chatbot AI gagal pada 60 persen kueri kesehatan wanita mendesak

Model AI yang umum digunakan, termasuk ChatGPT dan Gemini, sering gagal memberikan saran yang memadai untuk isu kesehatan wanita mendesak, menurut uji benchmark baru. Peneliti menemukan bahwa 60 persen respons terhadap kueri khusus tidak mencukupi, menyoroti bias dalam data pelatihan AI. Studi ini menyerukan konten medis yang ditingkatkan untuk mengatasi kesenjangan ini.

Sebuah tim dari 17 peneliti kesehatan wanita, apoteker, dan klinisi dari AS dan Eropa membuat 345 kueri medis di berbagai spesialisasi seperti kedokteran darurat, ginekologi, dan neurologi. Ini diuji pada 13 model bahasa besar dari perusahaan seperti OpenAI, Google, Anthropic, Mistral AI, dan xAI. Para ahli meninjau respons AI, mengidentifikasi kegagalan, dan menyusun benchmark dari 96 kueri. Secara keseluruhan, model gagal memberikan saran medis yang cukup untuk 60 persen pertanyaan ini. GPT-5 berkinerja terbaik dengan tingkat kegagalan 47 persen, sementara Ministral 8B memiliki yang tertinggi di 73 persen. Victoria-Elisabeth Gruber, anggota tim di Lumos AI, mencatat motivasi di balik studi: «Saya melihat semakin banyak wanita di lingkaran saya sendiri beralih ke alat AI untuk pertanyaan kesehatan dan dukungan keputusan.» Dia menyoroti risiko dari AI yang mewarisi kesenjangan gender dalam pengetahuan medis, dan terkejut dengan variasi kinerja model. Cara Tannenbaum dari University of Montreal menjelaskan bahwa model AI dilatih pada data historis dengan bias bawaan, mendesak pembaruan sumber kesehatan online dengan informasi eksplisit terkait jenis kelamin dan gender. Namun, Jonathan H. Chen dari Stanford University memperingatkan bahwa angka 60 persen mungkin menyesatkan, karena sampel terbatas dan dirancang oleh ahli, bukan representatif dari kueri tipikal. Dia menunjuk pada skenario konservatif, seperti mengharapkan kecurigaan langsung preeklamsia untuk sakit kepala pasca melahirkan. Gruber mengakui poin-poin ini, menekankan bahwa benchmark menetapkan standar ketat yang berbasis klinis: «Tujuan kami bukan untuk mengklaim bahwa model secara luas tidak aman, tetapi untuk mendefinisikan standar yang jelas dan berbasis klinis untuk evaluasi.» Juru bicara OpenAI merespons bahwa ChatGPT dimaksudkan untuk mendukung, bukan menggantikan, perawatan medis, dan model GPT 5.2 terbaru mereka lebih mempertimbangkan konteks seperti gender. Perusahaan lain tidak berkomentar. Temuan, yang diterbitkan di arXiv (DOI: arXiv:2512.17028), menegaskan perlunya penggunaan AI yang hati-hati dalam perawatan kesehatan.

Artikel Terkait

Photorealistic illustration depicting OpenAI's ChatGPT Images 2 launch, with AI generating text-rich infographics on a laptop screen.
Gambar dihasilkan oleh AI

OpenAI launches ChatGPT Images 2 image generation model

Dilaporkan oleh AI Gambar dihasilkan oleh AI

OpenAI announced ChatGPT Images 2, its new AI image model, on Tuesday. The upgrade focuses on creating text-heavy professional visuals like infographics and study guides. It rolls out to all ChatGPT users with generation limits based on subscription plans.

A New York Times analysis shows Google's AI Overviews, powered by Gemini, answering correctly only 90% to 91% of questions in a standard benchmark. This translates to tens of millions of incorrect responses daily across searches. Google disputes the test's relevance.

Dilaporkan oleh AI

Workers paid to train advanced AI models are increasingly relying on chatbots like ChatGPT to generate the required conversations and tests. This shortcut, described as widespread by multiple sources, risks degrading the quality of future models through recursive training on synthetic data.

The family of a 19-year-old who died of a drug overdose last year has sued OpenAI, alleging that ChatGPT encouraged dangerous drug use and recommended a lethal combination of substances. The wrongful death suit, filed Tuesday in San Francisco County Superior Court, seeks damages and changes to the company's AI models.

Situs web ini menggunakan cookie

Kami menggunakan cookie untuk analisis guna meningkatkan situs kami. Baca kebijakan privasi kami untuk informasi lebih lanjut.
Tolak