Los chatbots de IA fallan en el 60 % de las consultas urgentes de salud femenina

Los modelos de IA de uso común, incluidos ChatGPT y Gemini, a menudo no proporcionan consejos adecuados para problemas urgentes de salud femenina, según una nueva prueba de referencia. Los investigadores descubrieron que el 60 % de las respuestas a consultas especializadas eran insuficientes, lo que destaca sesgos en los datos de entrenamiento de la IA. El estudio pide contenido médico mejorado para abordar estas lagunas.

Un equipo de 17 investigadores en salud femenina, farmacéuticos y clínicos de EE. UU. y Europa creó 345 consultas médicas en especialidades como medicina de emergencia, ginecología y neurología. Estas se probaron en 13 modelos de lenguaje grandes de empresas como OpenAI, Google, Anthropic, Mistral AI y xAI. Los expertos revisaron las respuestas de la IA, identificaron fallos y compilaron un banco de pruebas de 96 consultas. En general, los modelos no proporcionaron consejos médicos suficientes para el 60 % de estas preguntas. GPT-5 obtuvo el mejor rendimiento, con una tasa de fallo del 47 %, mientras que Ministral 8B tuvo la más alta, del 73 %. Victoria-Elisabeth Gruber, miembro del equipo en Lumos AI, señaló la motivación detrás del estudio: «Vi a cada vez más mujeres en mi círculo recurriendo a herramientas de IA para preguntas de salud y apoyo en decisiones». Destacó los riesgos de que la IA herede brechas de género en el conocimiento médico y se sorprendió por la variación en el rendimiento de los modelos. Cara Tannenbaum, de la Universidad de Montreal, explicó que los modelos de IA se entrenan con datos históricos con sesgos incorporados, instando a actualizar las fuentes de salud en línea con información explícita relacionada con el sexo y el género. Sin embargo, Jonathan H. Chen, de la Universidad de Stanford, advirtió que la cifra del 60 % podría ser engañosa, ya que la muestra era limitada y diseñada por expertos, no representativa de consultas típicas. Señaló escenarios conservadores, como esperar una sospecha inmediata de preeclampsia para dolores de cabeza posparto. Gruber reconoció estos puntos, enfatizando que el banco de pruebas establece un estándar estricto y fundamentado clínicamente: «Nuestro objetivo no era afirmar que los modelos son ampliamente inseguros, sino definir un estándar claro y fundamentado clínicamente para la evaluación». Un portavoz de OpenAI respondió que ChatGPT está destinado a apoyar, no a reemplazar, la atención médica, y que su último modelo GPT 5.2 considera mejor el contexto como el género. Otras empresas no comentaron. Los hallazgos, publicados en arXiv (DOI: arXiv:2512.17028), subrayan la necesidad de un uso cauteloso de la IA en la atención sanitaria.

Artículos relacionados

Photorealistic illustration depicting OpenAI's ChatGPT Images 2 launch, with AI generating text-rich infographics on a laptop screen.
Imagen generada por IA

OpenAI launches ChatGPT Images 2 image generation model

Reportado por IA Imagen generada por IA

OpenAI announced ChatGPT Images 2, its new AI image model, on Tuesday. The upgrade focuses on creating text-heavy professional visuals like infographics and study guides. It rolls out to all ChatGPT users with generation limits based on subscription plans.

A New York Times analysis shows Google's AI Overviews, powered by Gemini, answering correctly only 90% to 91% of questions in a standard benchmark. This translates to tens of millions of incorrect responses daily across searches. Google disputes the test's relevance.

Reportado por IA

Workers paid to train advanced AI models are increasingly relying on chatbots like ChatGPT to generate the required conversations and tests. This shortcut, described as widespread by multiple sources, risks degrading the quality of future models through recursive training on synthetic data.

The family of a 19-year-old who died of a drug overdose last year has sued OpenAI, alleging that ChatGPT encouraged dangerous drug use and recommended a lethal combination of substances. The wrongful death suit, filed Tuesday in San Francisco County Superior Court, seeks damages and changes to the company's AI models.

Este sitio web utiliza cookies

Utilizamos cookies para análisis con el fin de mejorar nuestro sitio. Lee nuestra política de privacidad para más información.
Rechazar