Chatbot AI gagal pada 60 persen kueri kesehatan wanita mendesak

Rabu, 07 Januari 2026

Dilaporkan oleh AI

Model AI yang umum digunakan, termasuk ChatGPT dan Gemini, sering gagal memberikan saran yang memadai untuk isu kesehatan wanita mendesak, menurut uji benchmark baru. Peneliti menemukan bahwa 60 persen respons terhadap kueri khusus tidak mencukupi, menyoroti bias dalam data pelatihan AI. Studi ini menyerukan konten medis yang ditingkatkan untuk mengatasi kesenjangan ini.

Sebuah tim dari 17 peneliti kesehatan wanita, apoteker, dan klinisi dari AS dan Eropa membuat 345 kueri medis di berbagai spesialisasi seperti kedokteran darurat, ginekologi, dan neurologi. Ini diuji pada 13 model bahasa besar dari perusahaan seperti OpenAI, Google, Anthropic, Mistral AI, dan xAI. Para ahli meninjau respons AI, mengidentifikasi kegagalan, dan menyusun benchmark dari 96 kueri. Secara keseluruhan, model gagal memberikan saran medis yang cukup untuk 60 persen pertanyaan ini. GPT-5 berkinerja terbaik dengan tingkat kegagalan 47 persen, sementara Ministral 8B memiliki yang tertinggi di 73 persen. Victoria-Elisabeth Gruber, anggota tim di Lumos AI, mencatat motivasi di balik studi: «Saya melihat semakin banyak wanita di lingkaran saya sendiri beralih ke alat AI untuk pertanyaan kesehatan dan dukungan keputusan.» Dia menyoroti risiko dari AI yang mewarisi kesenjangan gender dalam pengetahuan medis, dan terkejut dengan variasi kinerja model. Cara Tannenbaum dari University of Montreal menjelaskan bahwa model AI dilatih pada data historis dengan bias bawaan, mendesak pembaruan sumber kesehatan online dengan informasi eksplisit terkait jenis kelamin dan gender. Namun, Jonathan H. Chen dari Stanford University memperingatkan bahwa angka 60 persen mungkin menyesatkan, karena sampel terbatas dan dirancang oleh ahli, bukan representatif dari kueri tipikal. Dia menunjuk pada skenario konservatif, seperti mengharapkan kecurigaan langsung preeklamsia untuk sakit kepala pasca melahirkan. Gruber mengakui poin-poin ini, menekankan bahwa benchmark menetapkan standar ketat yang berbasis klinis: «Tujuan kami bukan untuk mengklaim bahwa model secara luas tidak aman, tetapi untuk mendefinisikan standar yang jelas dan berbasis klinis untuk evaluasi.» Juru bicara OpenAI merespons bahwa ChatGPT dimaksudkan untuk mendukung, bukan menggantikan, perawatan medis, dan model GPT 5.2 terbaru mereka lebih mempertimbangkan konteks seperti gender. Perusahaan lain tidak berkomentar. Temuan, yang diterbitkan di arXiv (DOI: arXiv:2512.17028), menegaskan perlunya penggunaan AI yang hati-hati dalam perawatan kesehatan.

OpenAI merilis ChatGPT-5.2 untuk meningkatkan produktivitas kerja

Kamis, 11 Desember 2025 Dilaporkan oleh AI Gambar dihasilkan oleh AI

OpenAI telah meluncurkan ChatGPT-5.2, keluarga model AI baru yang dirancang untuk meningkatkan penalaran dan produktivitas, khususnya untuk tugas profesional. Peluncuran ini menyusul peringatan internal dari CEO Sam Altman tentang persaingan dari Gemini 3 milik Google. Pembaruan ini mencakup tiga varian yang ditargetkan untuk kebutuhan pengguna berbeda, dimulai dengan pelanggan berbayar.

Gemini milik Google unggul atas ChatGPT dalam tes AI kunci

Dalam evaluasi perbandingan model AI terkemuka, Gemini 3.2 Fast milik Google menunjukkan kekuatan dalam akurasi faktual dibandingkan ChatGPT 5.2 milik OpenAI, terutama dalam tugas informasional. Tes tersebut, yang dipicu oleh kemitraan Apple dengan Google untuk meningkatkan Siri, menyoroti kemampuan yang berkembang dalam AI generatif sejak 2023. Meskipun hasilnya ketat, Gemini menghindari kesalahan signifikan yang merusak keandalan ChatGPT.

AI models surpass cutoff scores in Chile's PAES 2026 test

Kamis, 08 Januari 2026 Dilaporkan oleh AI

A study applying Chile's university entrance exam, PAES 2026, to AI models shows several systems scoring high enough for selective programs like Medicine and Civil Engineering. Google's Gemini led with averages near 950 points, outperforming rivals like ChatGPT. The experiment underscores AI progress and raises questions about standardized testing efficacy.

Politik

New Scientist tetapkan preseden untuk FOI Inggris soal penggunaan chatbot AI

Teknologi

Alat AI kanker bisa menyimpulkan demografi pasien, memicu kekhawatiran bias

Politik

ChatGPT berikan panduan kepada remaja yang mencari aborsi rahsia di Tennessee

Pengguna menyalahgunakan chatbot Google dan OpenAI untuk deepfake bikini

Beberapa pengguna chatbot AI dari Google dan OpenAI menghasilkan gambar deepfake yang mengubah foto wanita berpakaian lengkap menjadi mengenakan bikini. Modifikasi ini sering dilakukan tanpa persetujuan wanita tersebut, dan petunjuk prosesnya dibagikan di antara pengguna. Aktivitas ini menyoroti risiko pada alat AI generatif.

Para ahli memperingatkan orang tua terhadap mainan bertenaga AI untuk anak-anak

Rabu, 24 Desember 2025 Dilaporkan oleh AI

Laporan terbaru menyoroti risiko serius terkait chatbot AI yang tertanam di mainan anak-anak, termasuk percakapan tidak pantas dan pengumpulan data. Mainan seperti Kumma dari FoloToy dan Poe the AI Story Bear ditemukan melibatkan anak-anak dalam diskusi topik sensitif. Pihak berwenang merekomendasikan tetap menggunakan mainan tradisional untuk menghindari potensi bahaya.

GPT Image 1.5 OpenAI maju dalam pengeditan foto percakapan di tengah kekhawatiran etis

Membangun dari peningkatan gambar ChatGPT kemarin, OpenAI merinci GPT Image 1.5, model multimodal yang memungkinkan pengeditan foto percakapan yang presisi. Ini menanggapi rival seperti Nano Banana milik Google sambil memperkenalkan pengamanan terhadap penyalahgunaan.

Laporan OpenAI menunjukkan AI menghemat waktu pekerja kurang dari satu jam per hari

Minggu, 14 Desember 2025 Dilaporkan oleh AI

Laporan baru OpenAI mengungkapkan bahwa meskipun adopsi AI di bisnis melonjak, sebagian besar pekerja hanya menghemat 40 hingga 60 menit per hari. Temuan ini berasal dari data lebih dari satu juta pelanggan dan survei terhadap 9.000 karyawan. Meskipun ada manfaat dalam kecepatan tugas dan kemampuan baru, peningkatan produktivitas tetap sederhana bagi pengguna rata-rata.

03 Februari 2026 12.34

Chatbot AI gagal pada 60 persen kueri kesehatan wanita mendesak

Artikel Terkait

OpenAI merilis ChatGPT-5.2 untuk meningkatkan produktivitas kerja

Gemini milik Google unggul atas ChatGPT dalam tes AI kunci

AI models surpass cutoff scores in Chile's PAES 2026 test

New Scientist tetapkan preseden untuk FOI Inggris soal penggunaan chatbot AI

Alat AI kanker bisa menyimpulkan demografi pasien, memicu kekhawatiran bias

ChatGPT berikan panduan kepada remaja yang mencari aborsi rahsia di Tennessee

Pengguna menyalahgunakan chatbot Google dan OpenAI untuk deepfake bikini

Para ahli memperingatkan orang tua terhadap mainan bertenaga AI untuk anak-anak

GPT Image 1.5 OpenAI maju dalam pengeditan foto percakapan di tengah kekhawatiran etis

Laporan OpenAI menunjukkan AI menghemat waktu pekerja kurang dari satu jam per hari

ChatGPT pulih dari gangguan sore yang memengaruhi banyak pengguna

Staf senior OpenAI pergi di tengah fokus ChatGPT

Google tingkatkan ringkasan AI ke model Gemini 3

Model GPT-5.2 OpenAI mengutip Grokipedia pada topik kontroversial

AI companies gear up for ads as manipulation threats emerge

Model AI berisiko mempromosikan eksperimen laboratorium berbahaya

Kontroversi Grok AI: Ribuan gambar seksualisasi dihasilkan di tengah debat perlindungan yang sedang berlangsung

Governments probe Grok AI over sexualized images of women and minors

AI meningkatkan produktivitas ilmiah tapi merusak kualitas makalah

OpenAI tingkatkan gambar ChatGPT untuk generasi lebih cepat dan edit presisi

Situs web ini menggunakan cookie