Los modelos de IA de uso común, incluidos ChatGPT y Gemini, a menudo no proporcionan consejos adecuados para problemas urgentes de salud femenina, según una nueva prueba de referencia. Los investigadores descubrieron que el 60 % de las respuestas a consultas especializadas eran insuficientes, lo que destaca sesgos en los datos de entrenamiento de la IA. El estudio pide contenido médico mejorado para abordar estas lagunas.
Un equipo de 17 investigadores en salud femenina, farmacéuticos y clínicos de EE. UU. y Europa creó 345 consultas médicas en especialidades como medicina de emergencia, ginecología y neurología. Estas se probaron en 13 modelos de lenguaje grandes de empresas como OpenAI, Google, Anthropic, Mistral AI y xAI. Los expertos revisaron las respuestas de la IA, identificaron fallos y compilaron un banco de pruebas de 96 consultas. En general, los modelos no proporcionaron consejos médicos suficientes para el 60 % de estas preguntas. GPT-5 obtuvo el mejor rendimiento, con una tasa de fallo del 47 %, mientras que Ministral 8B tuvo la más alta, del 73 %. Victoria-Elisabeth Gruber, miembro del equipo en Lumos AI, señaló la motivación detrás del estudio: «Vi a cada vez más mujeres en mi círculo recurriendo a herramientas de IA para preguntas de salud y apoyo en decisiones». Destacó los riesgos de que la IA herede brechas de género en el conocimiento médico y se sorprendió por la variación en el rendimiento de los modelos. Cara Tannenbaum, de la Universidad de Montreal, explicó que los modelos de IA se entrenan con datos históricos con sesgos incorporados, instando a actualizar las fuentes de salud en línea con información explícita relacionada con el sexo y el género. Sin embargo, Jonathan H. Chen, de la Universidad de Stanford, advirtió que la cifra del 60 % podría ser engañosa, ya que la muestra era limitada y diseñada por expertos, no representativa de consultas típicas. Señaló escenarios conservadores, como esperar una sospecha inmediata de preeclampsia para dolores de cabeza posparto. Gruber reconoció estos puntos, enfatizando que el banco de pruebas establece un estándar estricto y fundamentado clínicamente: «Nuestro objetivo no era afirmar que los modelos son ampliamente inseguros, sino definir un estándar claro y fundamentado clínicamente para la evaluación». Un portavoz de OpenAI respondió que ChatGPT está destinado a apoyar, no a reemplazar, la atención médica, y que su último modelo GPT 5.2 considera mejor el contexto como el género. Otras empresas no comentaron. Los hallazgos, publicados en arXiv (DOI: arXiv:2512.17028), subrayan la necesidad de un uso cauteloso de la IA en la atención sanitaria.