Model AI yang umum digunakan, termasuk ChatGPT dan Gemini, sering gagal memberikan saran yang memadai untuk isu kesehatan wanita mendesak, menurut uji benchmark baru. Peneliti menemukan bahwa 60 persen respons terhadap kueri khusus tidak mencukupi, menyoroti bias dalam data pelatihan AI. Studi ini menyerukan konten medis yang ditingkatkan untuk mengatasi kesenjangan ini.
Sebuah tim dari 17 peneliti kesehatan wanita, apoteker, dan klinisi dari AS dan Eropa membuat 345 kueri medis di berbagai spesialisasi seperti kedokteran darurat, ginekologi, dan neurologi. Ini diuji pada 13 model bahasa besar dari perusahaan seperti OpenAI, Google, Anthropic, Mistral AI, dan xAI. Para ahli meninjau respons AI, mengidentifikasi kegagalan, dan menyusun benchmark dari 96 kueri. Secara keseluruhan, model gagal memberikan saran medis yang cukup untuk 60 persen pertanyaan ini. GPT-5 berkinerja terbaik dengan tingkat kegagalan 47 persen, sementara Ministral 8B memiliki yang tertinggi di 73 persen. Victoria-Elisabeth Gruber, anggota tim di Lumos AI, mencatat motivasi di balik studi: «Saya melihat semakin banyak wanita di lingkaran saya sendiri beralih ke alat AI untuk pertanyaan kesehatan dan dukungan keputusan.» Dia menyoroti risiko dari AI yang mewarisi kesenjangan gender dalam pengetahuan medis, dan terkejut dengan variasi kinerja model. Cara Tannenbaum dari University of Montreal menjelaskan bahwa model AI dilatih pada data historis dengan bias bawaan, mendesak pembaruan sumber kesehatan online dengan informasi eksplisit terkait jenis kelamin dan gender. Namun, Jonathan H. Chen dari Stanford University memperingatkan bahwa angka 60 persen mungkin menyesatkan, karena sampel terbatas dan dirancang oleh ahli, bukan representatif dari kueri tipikal. Dia menunjuk pada skenario konservatif, seperti mengharapkan kecurigaan langsung preeklamsia untuk sakit kepala pasca melahirkan. Gruber mengakui poin-poin ini, menekankan bahwa benchmark menetapkan standar ketat yang berbasis klinis: «Tujuan kami bukan untuk mengklaim bahwa model secara luas tidak aman, tetapi untuk mendefinisikan standar yang jelas dan berbasis klinis untuk evaluasi.» Juru bicara OpenAI merespons bahwa ChatGPT dimaksudkan untuk mendukung, bukan menggantikan, perawatan medis, dan model GPT 5.2 terbaru mereka lebih mempertimbangkan konteks seperti gender. Perusahaan lain tidak berkomentar. Temuan, yang diterbitkan di arXiv (DOI: arXiv:2512.17028), menegaskan perlunya penggunaan AI yang hati-hati dalam perawatan kesehatan.