Vanligt använda AI-modeller, inklusive ChatGPT och Gemini, misslyckas ofta med att ge tillräcklig rådgivning för brådskande kvinnors hälsoproblem, enligt ett nytt benchmarktest. Forskare fann att 60 procent av svaren på specialiserade frågor var otillräckliga, vilket belyser bias i AI-träningsdata. Studien efterlyser förbättrat medicinskt innehåll för att täcka dessa brister.
Ett team på 17 forskare inom kvinnors hälsa, apotekare och kliniker från USA och Europa skapade 345 medicinska frågor inom specialiteter som akutmedicin, gynekologi och neurologi. Dessa testades på 13 stora språkmodeller från företag som OpenAI, Google, Anthropic, Mistral AI och xAI. Experterna granskade AI-svaren, identifierade misslyckanden och sammanställde ett benchmark med 96 frågor. Sammantaget misslyckades modellerna med att ge tillräcklig medicinsk rådgivning för 60 procent av dessa frågor. GPT-5 presterade bäst med 47 procents misslyckanderate, medan Ministral 8B hade högst på 73 procent. Victoria-Elisabeth Gruber, en teammedlem på Lumos AI, noterade studiens motivation: «Jag såg fler och fler kvinnor i min egen krets vända sig till AI-verktyg för hälsorelaterade frågor och beslutsstöd.» Hon belyste riskerna med att AI ärver könsrelaterade luckor i medicinsk kunskap och förvånades över variationen i modellprestanda. Cara Tannenbaum från University of Montreal förklarade att AI-modeller tränas på historiska data med inbyggda bias och uppmanade till uppdateringar av online-hälsokällor med explicit information om kön och genus. Jonathan H. Chen från Stanford University varnade dock för att 60-procentssiffran kan vara vilseledande, eftersom urvalet var begränsat och expertutformat, inte representativt för typiska frågor. Han pekade på konservativa scenarier, som att förvänta omedelbar misstanke om preeklampsi vid postpartum-huvudvärk. Gruber erkände dessa punkter och betonade att benchmarket sätter en strikt, kliniskt grundad standard: «Vårt mål var inte att påstå att modellerna är generellt osäkra, utan att definiera en klar, kliniskt grundad standard för utvärdering.» En talesperson för OpenAI svarade att ChatGPT är avsett att stödja, inte ersätta, medicinsk vård, och att deras senaste GPT 5.2-modell bättre beaktar kontext som genus. Andra företag kommenterade inte. Resultaten, publicerade på arXiv (DOI: arXiv:2512.17028), understryker behovet av försiktigt användande av AI inom vården.