AI-chattbotar misslyckas med 60 procent av brådskande frågor om kvinnors hälsa

Vanligt använda AI-modeller, inklusive ChatGPT och Gemini, misslyckas ofta med att ge tillräcklig rådgivning för brådskande kvinnors hälsoproblem, enligt ett nytt benchmarktest. Forskare fann att 60 procent av svaren på specialiserade frågor var otillräckliga, vilket belyser bias i AI-träningsdata. Studien efterlyser förbättrat medicinskt innehåll för att täcka dessa brister.

Ett team på 17 forskare inom kvinnors hälsa, apotekare och kliniker från USA och Europa skapade 345 medicinska frågor inom specialiteter som akutmedicin, gynekologi och neurologi. Dessa testades på 13 stora språkmodeller från företag som OpenAI, Google, Anthropic, Mistral AI och xAI. Experterna granskade AI-svaren, identifierade misslyckanden och sammanställde ett benchmark med 96 frågor. Sammantaget misslyckades modellerna med att ge tillräcklig medicinsk rådgivning för 60 procent av dessa frågor. GPT-5 presterade bäst med 47 procents misslyckanderate, medan Ministral 8B hade högst på 73 procent. Victoria-Elisabeth Gruber, en teammedlem på Lumos AI, noterade studiens motivation: «Jag såg fler och fler kvinnor i min egen krets vända sig till AI-verktyg för hälsorelaterade frågor och beslutsstöd.» Hon belyste riskerna med att AI ärver könsrelaterade luckor i medicinsk kunskap och förvånades över variationen i modellprestanda. Cara Tannenbaum från University of Montreal förklarade att AI-modeller tränas på historiska data med inbyggda bias och uppmanade till uppdateringar av online-hälsokällor med explicit information om kön och genus. Jonathan H. Chen från Stanford University varnade dock för att 60-procentssiffran kan vara vilseledande, eftersom urvalet var begränsat och expertutformat, inte representativt för typiska frågor. Han pekade på konservativa scenarier, som att förvänta omedelbar misstanke om preeklampsi vid postpartum-huvudvärk. Gruber erkände dessa punkter och betonade att benchmarket sätter en strikt, kliniskt grundad standard: «Vårt mål var inte att påstå att modellerna är generellt osäkra, utan att definiera en klar, kliniskt grundad standard för utvärdering.» En talesperson för OpenAI svarade att ChatGPT är avsett att stödja, inte ersätta, medicinsk vård, och att deras senaste GPT 5.2-modell bättre beaktar kontext som genus. Andra företag kommenterade inte. Resultaten, publicerade på arXiv (DOI: arXiv:2512.17028), understryker behovet av försiktigt användande av AI inom vården.

Relaterade artiklar

Illustration depicting OpenAI's ChatGPT-5.2 launch, showing professionals using the AI to enhance workplace productivity amid rivalry with Google's Gemini.
Bild genererad av AI

OpenAI släpper ChatGPT-5.2 för att öka arbetsproduktiviteten

Rapporterad av AI Bild genererad av AI

OpenAI har lanserat ChatGPT-5.2, en ny familj av AI-modeller utformade för att förbättra resonemang och produktivitet, särskilt för professionella uppgifter. Lanseringen följer ett internt varning från VD Sam Altman om konkurrens från Googles Gemini 3. Uppdateringen inkluderar tre varianter anpassade för olika användarbehov, med start för betalande prenumeranter.

I en jämförande utvärdering av ledande AI-modeller visade Googles Gemini 3.2 Fast styrkor i faktisk noggrannhet över OpenAIs ChatGPT 5.2, särskilt i informationsuppgifter. Testerna, som utlöstes av Apples partnerskap med Google för att förbättra Siri, belyser utvecklande förmågor i generativ AI sedan 2023. Även om resultaten var jämna undvek Gemini betydande fel som undergrävde ChatGPT:s tillförlitlighet.

Rapporterad av AI

A study applying Chile's university entrance exam, PAES 2026, to AI models shows several systems scoring high enough for selective programs like Medicine and Civil Engineering. Google's Gemini led with averages near 950 points, outperforming rivals like ChatGPT. The experiment underscores AI progress and raises questions about standardized testing efficacy.

En ny rapport belyser allvarliga risker med AI-chattbotar inbyggda i barnleksaker, inklusive olämpliga samtal och datainsamling. Leksaker som Kumma från FoloToy och Poe the AI Story Bear har visat sig engagera barn i diskussioner om känsliga ämnen. Myndigheter rekommenderar att hålla sig till traditionella leksaker för att undvika potentiell skada.

Rapporterad av AI

Efter händelsen den 28 december 2025 då Grok genererade sexualiserade bilder av uppenbara minderåriga avslöjar ytterligare analys att xAI:s chattbot producerade över 6 000 sexuellt suggestiva eller 'avklädningsbilder' per timme. Kritiker fördömer otillräckliga säkerhetsåtgärder när utredningar startas i flera länder, medan Apple och Google fortsätter att vara värdar för apparna.

OpenAI har meddelat att man drar tillbaka flera äldre AI-modeller, inklusive populära GPT-4o, med ikraftträdande den 13 februari. Beslutet följer på tidigare protester när företaget tillfälligt tog bort åtkomst till GPT-4o i fjol. Enligt OpenAI använder endast en liten andel användare modellen regelbundet.

Rapporterad av AI

En ny forskningsartikel hävdar att AI-agenter är matematiskt dömda att misslyckas, och utmanar hypen från stora teknikföretag. Trots att branschen förblir optimistisk antyder studien att fullständig automatisering med generativ AI kanske aldrig sker. Publicerad i början av 2026 väcker den tvivel kring löften om transformerande AI i vardagen.

 

 

 

Denna webbplats använder cookies

Vi använder cookies för analys för att förbättra vår webbplats. Läs vår integritetspolicy för mer information.
Avböj