AI-chattbotar misslyckas med 60 procent av brådskande frågor om kvinnors hälsa

Vanligt använda AI-modeller, inklusive ChatGPT och Gemini, misslyckas ofta med att ge tillräcklig rådgivning för brådskande kvinnors hälsoproblem, enligt ett nytt benchmarktest. Forskare fann att 60 procent av svaren på specialiserade frågor var otillräckliga, vilket belyser bias i AI-träningsdata. Studien efterlyser förbättrat medicinskt innehåll för att täcka dessa brister.

Ett team på 17 forskare inom kvinnors hälsa, apotekare och kliniker från USA och Europa skapade 345 medicinska frågor inom specialiteter som akutmedicin, gynekologi och neurologi. Dessa testades på 13 stora språkmodeller från företag som OpenAI, Google, Anthropic, Mistral AI och xAI. Experterna granskade AI-svaren, identifierade misslyckanden och sammanställde ett benchmark med 96 frågor. Sammantaget misslyckades modellerna med att ge tillräcklig medicinsk rådgivning för 60 procent av dessa frågor. GPT-5 presterade bäst med 47 procents misslyckanderate, medan Ministral 8B hade högst på 73 procent. Victoria-Elisabeth Gruber, en teammedlem på Lumos AI, noterade studiens motivation: «Jag såg fler och fler kvinnor i min egen krets vända sig till AI-verktyg för hälsorelaterade frågor och beslutsstöd.» Hon belyste riskerna med att AI ärver könsrelaterade luckor i medicinsk kunskap och förvånades över variationen i modellprestanda. Cara Tannenbaum från University of Montreal förklarade att AI-modeller tränas på historiska data med inbyggda bias och uppmanade till uppdateringar av online-hälsokällor med explicit information om kön och genus. Jonathan H. Chen från Stanford University varnade dock för att 60-procentssiffran kan vara vilseledande, eftersom urvalet var begränsat och expertutformat, inte representativt för typiska frågor. Han pekade på konservativa scenarier, som att förvänta omedelbar misstanke om preeklampsi vid postpartum-huvudvärk. Gruber erkände dessa punkter och betonade att benchmarket sätter en strikt, kliniskt grundad standard: «Vårt mål var inte att påstå att modellerna är generellt osäkra, utan att definiera en klar, kliniskt grundad standard för utvärdering.» En talesperson för OpenAI svarade att ChatGPT är avsett att stödja, inte ersätta, medicinsk vård, och att deras senaste GPT 5.2-modell bättre beaktar kontext som genus. Andra företag kommenterade inte. Resultaten, publicerade på arXiv (DOI: arXiv:2512.17028), understryker behovet av försiktigt användande av AI inom vården.

Relaterade artiklar

Photorealistic illustration depicting OpenAI's ChatGPT Images 2 launch, with AI generating text-rich infographics on a laptop screen.
Bild genererad av AI

OpenAI launches ChatGPT Images 2 image generation model

Rapporterad av AI Bild genererad av AI

OpenAI announced ChatGPT Images 2, its new AI image model, on Tuesday. The upgrade focuses on creating text-heavy professional visuals like infographics and study guides. It rolls out to all ChatGPT users with generation limits based on subscription plans.

A New York Times analysis shows Google's AI Overviews, powered by Gemini, answering correctly only 90% to 91% of questions in a standard benchmark. This translates to tens of millions of incorrect responses daily across searches. Google disputes the test's relevance.

Rapporterad av AI

Workers paid to train advanced AI models are increasingly relying on chatbots like ChatGPT to generate the required conversations and tests. This shortcut, described as widespread by multiple sources, risks degrading the quality of future models through recursive training on synthetic data.

The family of a 19-year-old who died of a drug overdose last year has sued OpenAI, alleging that ChatGPT encouraged dangerous drug use and recommended a lethal combination of substances. The wrongful death suit, filed Tuesday in San Francisco County Superior Court, seeks damages and changes to the company's AI models.

Denna webbplats använder cookies

Vi använder cookies för analys för att förbättra vår webbplats. Läs vår integritetspolicy för mer information.
Avböj