AI-chattbotar misslyckas med 60 procent av brådskande frågor om kvinnors hälsa

Vanligt använda AI-modeller, inklusive ChatGPT och Gemini, misslyckas ofta med att ge tillräcklig rådgivning för brådskande kvinnors hälsoproblem, enligt ett nytt benchmarktest. Forskare fann att 60 procent av svaren på specialiserade frågor var otillräckliga, vilket belyser bias i AI-träningsdata. Studien efterlyser förbättrat medicinskt innehåll för att täcka dessa brister.

Ett team på 17 forskare inom kvinnors hälsa, apotekare och kliniker från USA och Europa skapade 345 medicinska frågor inom specialiteter som akutmedicin, gynekologi och neurologi. Dessa testades på 13 stora språkmodeller från företag som OpenAI, Google, Anthropic, Mistral AI och xAI. Experterna granskade AI-svaren, identifierade misslyckanden och sammanställde ett benchmark med 96 frågor. Sammantaget misslyckades modellerna med att ge tillräcklig medicinsk rådgivning för 60 procent av dessa frågor. GPT-5 presterade bäst med 47 procents misslyckanderate, medan Ministral 8B hade högst på 73 procent. Victoria-Elisabeth Gruber, en teammedlem på Lumos AI, noterade studiens motivation: «Jag såg fler och fler kvinnor i min egen krets vända sig till AI-verktyg för hälsorelaterade frågor och beslutsstöd.» Hon belyste riskerna med att AI ärver könsrelaterade luckor i medicinsk kunskap och förvånades över variationen i modellprestanda. Cara Tannenbaum från University of Montreal förklarade att AI-modeller tränas på historiska data med inbyggda bias och uppmanade till uppdateringar av online-hälsokällor med explicit information om kön och genus. Jonathan H. Chen från Stanford University varnade dock för att 60-procentssiffran kan vara vilseledande, eftersom urvalet var begränsat och expertutformat, inte representativt för typiska frågor. Han pekade på konservativa scenarier, som att förvänta omedelbar misstanke om preeklampsi vid postpartum-huvudvärk. Gruber erkände dessa punkter och betonade att benchmarket sätter en strikt, kliniskt grundad standard: «Vårt mål var inte att påstå att modellerna är generellt osäkra, utan att definiera en klar, kliniskt grundad standard för utvärdering.» En talesperson för OpenAI svarade att ChatGPT är avsett att stödja, inte ersätta, medicinsk vård, och att deras senaste GPT 5.2-modell bättre beaktar kontext som genus. Andra företag kommenterade inte. Resultaten, publicerade på arXiv (DOI: arXiv:2512.17028), understryker behovet av försiktigt användande av AI inom vården.

Relaterade artiklar

Illustration of Swedes in a Stockholm cafe using AI chatbots amid survey stats on rising usage and skepticism.
Bild genererad av AI

Ökad användning av AI-chattböter bland svenskar – men också oro

Rapporterad av AI Bild genererad av AI

Enligt den senaste SOM-undersökningen från Göteborgs universitet har andelen svenskar som chattar med en AI-bott varje vecka ökat från 12 till 36 procent mellan 2024 och 2025. Samtidigt har skepsisen mot AI ökat, med 62 procent som ser tekniken som en större risk än möjlighet för samhället.

I en jämförande utvärdering av ledande AI-modeller visade Googles Gemini 3.2 Fast styrkor i faktisk noggrannhet över OpenAIs ChatGPT 5.2, särskilt i informationsuppgifter. Testerna, som utlöstes av Apples partnerskap med Google för att förbättra Siri, belyser utvecklande förmågor i generativ AI sedan 2023. Även om resultaten var jämna undvek Gemini betydande fel som undergrävde ChatGPT:s tillförlitlighet.

Rapporterad av AI

En ny studie från Brown University identifierar betydande etiska bekymmer med att använda AI-chatbots som ChatGPT för råd om mental hälsa. Forskare fann att dessa system ofta bryter mot professionella standarder även när de uppmanas att agera som terapeuter. Arbetet kräver bättre skyddsåtgärder innan sådana verktyg används i känsliga områden.

En Guardian-rapport har avslöjat att OpenAIs senaste AI-modell, GPT-5.2, hämtar från Grokipedia, en xAI-driven onlineencyklopedi, när den hanterar känsliga ämnen som Förintelsen och iransk politik. Även om modellen hyllas för professionella uppgifter ifrågasätter tester källornas tillförlitlighet. OpenAI försvarar sin metod genom att betona breda websökningar med säkerhetsåtgärder.

Rapporterad av AI

Forskare varnar för att stora ai-modeller kan uppmuntra riskfyllda vetenskapliga experiment som leder till bränder, explosioner eller förgiftningar. Ett nytt test på 19 avancerade modeller visade att ingen kunde identifiera alla säkerhetsproblem pålitligt. Trots pågående förbättringar betonar experter behovet av mänsklig tillsyn i laboratorier.

OpenAI har beslutat att pausa det planerade ”vuxenläget” för ChatGPT på obestämd tid för att istället fokusera på kärnprodukterna. Beslutet kommer bara dagar efter att företaget lagt ner sitt videoverktyg Sora. VD Sam Altman prioriterar nu ChatGPT, Codex och AI-webbläsaren Atlas på grund av ökad konkurrens.

Rapporterad av AI

OpenAI har rullat ut en uppdaterad bildgenereringsmodell för ChatGPT, som gör den fyra gånger snabbare och bättre på att följa användarinstruktioner. Uppgraderingen inkluderar förbättrade redigeringsmöjligheter och förbättrad textåtergivning. Detta kommer strax efter lanseringen av GPT-5.2 och mitt i konkurrensen från Googles Gemini.

 

 

 

Denna webbplats använder cookies

Vi använder cookies för analys för att förbättra vår webbplats. Läs vår integritetspolicy för mer information.
Avböj