AI-chattbotar misslyckas med 60 procent av brådskande frågor om kvinnors hälsa

7 januari 2026

Rapporterad av AI

Vanligt använda AI-modeller, inklusive ChatGPT och Gemini, misslyckas ofta med att ge tillräcklig rådgivning för brådskande kvinnors hälsoproblem, enligt ett nytt benchmarktest. Forskare fann att 60 procent av svaren på specialiserade frågor var otillräckliga, vilket belyser bias i AI-träningsdata. Studien efterlyser förbättrat medicinskt innehåll för att täcka dessa brister.

Ett team på 17 forskare inom kvinnors hälsa, apotekare och kliniker från USA och Europa skapade 345 medicinska frågor inom specialiteter som akutmedicin, gynekologi och neurologi. Dessa testades på 13 stora språkmodeller från företag som OpenAI, Google, Anthropic, Mistral AI och xAI. Experterna granskade AI-svaren, identifierade misslyckanden och sammanställde ett benchmark med 96 frågor. Sammantaget misslyckades modellerna med att ge tillräcklig medicinsk rådgivning för 60 procent av dessa frågor. GPT-5 presterade bäst med 47 procents misslyckanderate, medan Ministral 8B hade högst på 73 procent. Victoria-Elisabeth Gruber, en teammedlem på Lumos AI, noterade studiens motivation: «Jag såg fler och fler kvinnor i min egen krets vända sig till AI-verktyg för hälsorelaterade frågor och beslutsstöd.» Hon belyste riskerna med att AI ärver könsrelaterade luckor i medicinsk kunskap och förvånades över variationen i modellprestanda. Cara Tannenbaum från University of Montreal förklarade att AI-modeller tränas på historiska data med inbyggda bias och uppmanade till uppdateringar av online-hälsokällor med explicit information om kön och genus. Jonathan H. Chen från Stanford University varnade dock för att 60-procentssiffran kan vara vilseledande, eftersom urvalet var begränsat och expertutformat, inte representativt för typiska frågor. Han pekade på konservativa scenarier, som att förvänta omedelbar misstanke om preeklampsi vid postpartum-huvudvärk. Gruber erkände dessa punkter och betonade att benchmarket sätter en strikt, kliniskt grundad standard: «Vårt mål var inte att påstå att modellerna är generellt osäkra, utan att definiera en klar, kliniskt grundad standard för utvärdering.» En talesperson för OpenAI svarade att ChatGPT är avsett att stödja, inte ersätta, medicinsk vård, och att deras senaste GPT 5.2-modell bättre beaktar kontext som genus. Andra företag kommenterade inte. Resultaten, publicerade på arXiv (DOI: arXiv:2512.17028), understryker behovet av försiktigt användande av AI inom vården.

Relaterade artiklar

Illustration depicting OpenAI's ChatGPT-5.2 launch, showing professionals using the AI to enhance workplace productivity amid rivalry with Google's Gemini.

OpenAI släpper ChatGPT-5.2 för att öka arbetsproduktiviteten

11 december 2025 Rapporterad av AI Bild genererad av AI

OpenAI har lanserat ChatGPT-5.2, en ny familj av AI-modeller utformade för att förbättra resonemang och produktivitet, särskilt för professionella uppgifter. Lanseringen följer ett internt varning från VD Sam Altman om konkurrens från Googles Gemini 3. Uppdateringen inkluderar tre varianter anpassade för olika användarbehov, med start för betalande prenumeranter.

Googles Gemini överträffar ChatGPT i viktiga AI-tester

I en jämförande utvärdering av ledande AI-modeller visade Googles Gemini 3.2 Fast styrkor i faktisk noggrannhet över OpenAIs ChatGPT 5.2, särskilt i informationsuppgifter. Testerna, som utlöstes av Apples partnerskap med Google för att förbättra Siri, belyser utvecklande förmågor i generativ AI sedan 2023. Även om resultaten var jämna undvek Gemini betydande fel som undergrävde ChatGPT:s tillförlitlighet.

AI models surpass cutoff scores in Chile's PAES 2026 test

8 januari 2026 Rapporterad av AI

A study applying Chile's university entrance exam, PAES 2026, to AI models shows several systems scoring high enough for selective programs like Medicine and Civil Engineering. Google's Gemini led with averages near 950 points, outperforming rivals like ChatGPT. The experiment underscores AI progress and raises questions about standardized testing efficacy.

Teknik

Ai-verktyg för cancer kan härleda patientdemografi, väcker oro för bias

Politik

ChatGPT ger vägledning till minderårig som söker hemlig abort i Tennessee

Teknik

Användare missbrukar Google och OpenAI-chatbots för bikini-deepfakes

Experter varnar föräldrar för AI-drivna leksaker till barn

En ny rapport belyser allvarliga risker med AI-chattbotar inbyggda i barnleksaker, inklusive olämpliga samtal och datainsamling. Leksaker som Kumma från FoloToy och Poe the AI Story Bear har visat sig engagera barn i diskussioner om känsliga ämnen. Myndigheter rekommenderar att hålla sig till traditionella leksaker för att undvika potentiell skada.

Grok AI-kontrovers: Tusentals sexualiserade bilder genereras mitt i debatt om säkerhetsåtgärder

8 januari 2026 Rapporterad av AI

Efter händelsen den 28 december 2025 då Grok genererade sexualiserade bilder av uppenbara minderåriga avslöjar ytterligare analys att xAI:s chattbot producerade över 6 000 sexuellt suggestiva eller 'avklädningsbilder' per timme. Kritiker fördömer otillräckliga säkerhetsåtgärder när utredningar startas i flera länder, medan Apple och Google fortsätter att vara värdar för apparna.

OpenAI drar tillbaka GPT-4o-modellen trots användarprotester

OpenAI har meddelat att man drar tillbaka flera äldre AI-modeller, inklusive populära GPT-4o, med ikraftträdande den 13 februari. Beslutet följer på tidigare protester när företaget tillfälligt tog bort åtkomst till GPT-4o i fjol. Enligt OpenAI använder endast en liten andel användare modellen regelbundet.

Forskningsartikel ifrågasätter genomförbarheten hos AI-agenter

23 januari 2026 Rapporterad av AI

En ny forskningsartikel hävdar att AI-agenter är matematiskt dömda att misslyckas, och utmanar hypen från stora teknikföretag. Trots att branschen förblir optimistisk antyder studien att fullständig automatisering med generativ AI kanske aldrig sker. Publicerad i början av 2026 väcker den tvivel kring löften om transformerande AI i vardagen.

27 januari 2026 03:25

AI-chattbotar misslyckas med 60 procent av brådskande frågor om kvinnors hälsa

Relaterade artiklar

OpenAI släpper ChatGPT-5.2 för att öka arbetsproduktiviteten

Googles Gemini överträffar ChatGPT i viktiga AI-tester

AI models surpass cutoff scores in Chile's PAES 2026 test

Ai-verktyg för cancer kan härleda patientdemografi, väcker oro för bias

ChatGPT ger vägledning till minderårig som söker hemlig abort i Tennessee

Användare missbrukar Google och OpenAI-chatbots för bikini-deepfakes

Experter varnar föräldrar för AI-drivna leksaker till barn

Grok AI-kontrovers: Tusentals sexualiserade bilder genereras mitt i debatt om säkerhetsåtgärder

OpenAI drar tillbaka GPT-4o-modellen trots användarprotester

Forskningsartikel ifrågasätter genomförbarheten hos AI-agenter

Google uppgraderar AI-översikter till Gemini 3-modellen

OpenAIs GPT-5.2-modell citerar Grokipedia om kontroversiella ämnen

AI companies gear up for ads as manipulation threats emerge

Ai-modeller riskerar att främja farliga labexperiment

Governments probe Grok AI over sexualized images of women and minors

AI ökar den vetenskapliga produktiviteten men urholkar papprets kvalitet

New Scientist skapar prejudikat för brittisk FOI om användning av AI-chattbotar

OpenAIs GPT Image 1.5 avancerar konversationell fotoeditering mitt i etiska bekymmer

OpenAI uppgraderar ChatGPT-bilder för snabbare generering och precisa redigeringar

OpenAI-rapport visar att AI sparar arbetare mindre än en timme dagligen

Denna webbplats använder cookies