Los chatbots de IA fallan en el 60 % de las consultas urgentes de salud femenina

Los modelos de IA de uso común, incluidos ChatGPT y Gemini, a menudo no proporcionan consejos adecuados para problemas urgentes de salud femenina, según una nueva prueba de referencia. Los investigadores descubrieron que el 60 % de las respuestas a consultas especializadas eran insuficientes, lo que destaca sesgos en los datos de entrenamiento de la IA. El estudio pide contenido médico mejorado para abordar estas lagunas.

Un equipo de 17 investigadores en salud femenina, farmacéuticos y clínicos de EE. UU. y Europa creó 345 consultas médicas en especialidades como medicina de emergencia, ginecología y neurología. Estas se probaron en 13 modelos de lenguaje grandes de empresas como OpenAI, Google, Anthropic, Mistral AI y xAI. Los expertos revisaron las respuestas de la IA, identificaron fallos y compilaron un banco de pruebas de 96 consultas. En general, los modelos no proporcionaron consejos médicos suficientes para el 60 % de estas preguntas. GPT-5 obtuvo el mejor rendimiento, con una tasa de fallo del 47 %, mientras que Ministral 8B tuvo la más alta, del 73 %. Victoria-Elisabeth Gruber, miembro del equipo en Lumos AI, señaló la motivación detrás del estudio: «Vi a cada vez más mujeres en mi círculo recurriendo a herramientas de IA para preguntas de salud y apoyo en decisiones». Destacó los riesgos de que la IA herede brechas de género en el conocimiento médico y se sorprendió por la variación en el rendimiento de los modelos. Cara Tannenbaum, de la Universidad de Montreal, explicó que los modelos de IA se entrenan con datos históricos con sesgos incorporados, instando a actualizar las fuentes de salud en línea con información explícita relacionada con el sexo y el género. Sin embargo, Jonathan H. Chen, de la Universidad de Stanford, advirtió que la cifra del 60 % podría ser engañosa, ya que la muestra era limitada y diseñada por expertos, no representativa de consultas típicas. Señaló escenarios conservadores, como esperar una sospecha inmediata de preeclampsia para dolores de cabeza posparto. Gruber reconoció estos puntos, enfatizando que el banco de pruebas establece un estándar estricto y fundamentado clínicamente: «Nuestro objetivo no era afirmar que los modelos son ampliamente inseguros, sino definir un estándar claro y fundamentado clínicamente para la evaluación». Un portavoz de OpenAI respondió que ChatGPT está destinado a apoyar, no a reemplazar, la atención médica, y que su último modelo GPT 5.2 considera mejor el contexto como el género. Otras empresas no comentaron. Los hallazgos, publicados en arXiv (DOI: arXiv:2512.17028), subrayan la necesidad de un uso cauteloso de la IA en la atención sanitaria.

Artículos relacionados

Illustration of Swedes in a Stockholm cafe using AI chatbots amid survey stats on rising usage and skepticism.
Imagen generada por IA

Aumenta el uso de chatbots de IA entre los suecos, pero también la preocupación

Reportado por IA Imagen generada por IA

Según la última encuesta SOM de la Universidad de Gotemburgo, el porcentaje de suecos que chatean semanalmente con un bot de IA aumentó del 12 al 36 por ciento entre 2024 y 2025. Al mismo tiempo, el escepticismo hacia la IA ha crecido, y el 62 por ciento la considera un riesgo mayor que una oportunidad para la sociedad.

En una evaluación comparativa de modelos líderes de IA, el Gemini 3.2 Fast de Google demostró fortalezas en precisión factual sobre el ChatGPT 5.2 de OpenAI, particularmente en tareas informativas. Las pruebas, impulsadas por la asociación de Apple con Google para mejorar Siri, destacan las capacidades en evolución de la IA generativa desde 2023. Aunque los resultados fueron ajustados, Gemini evitó errores significativos que socavaron la fiabilidad de ChatGPT.

Reportado por IA

Un nuevo estudio de la Universidad Brown identifica preocupaciones éticas significativas con el uso de chatbots de IA como ChatGPT para consejos de salud mental. Los investigadores hallaron que estos sistemas violan a menudo los estándares profesionales incluso cuando se les indica actuar como terapeutas. El trabajo reclama mejores salvaguardas antes de implementar tales herramientas en áreas sensibles.

Un informe de The Guardian ha revelado que el último modelo de IA de OpenAI, GPT-5.2, recurre a Grokipedia, una enciclopedia en línea impulsada por xAI, al tratar cuestiones sensibles como el Holocausto y la política iraní. Aunque se promociona para tareas profesionales, las pruebas cuestionan la fiabilidad de sus fuentes. OpenAI defiende su enfoque al enfatizar búsquedas web amplias con medidas de seguridad.

Reportado por IA

Investigadores advierten que los principales modelos de IA podrían fomentar experimentos científicos peligrosos que provoquen incendios, explosiones o envenenamientos. Una nueva prueba en 19 modelos avanzados reveló que ninguno podía identificar de forma fiable todos los problemas de seguridad. Aunque hay mejoras en marcha, los expertos destacan la necesidad de supervisión humana en los laboratorios.

OpenAI ha decidido pausar indefinidamente su planeado 'modo adulto' para ChatGPT, enfocándose en su lugar en sus productos principales. La medida se produce días después de discontinuar su herramienta de video Sora. El CEO Sam Altman está dando prioridad a ChatGPT, Codex y el navegador de IA Atlas en medio de presiones competitivas.

Reportado por IA

OpenAI ha lanzado un modelo actualizado de generación de imágenes para ChatGPT, que lo hace cuatro veces más rápido y mejor en seguir las instrucciones de los usuarios. La mejora incluye capacidades de edición mejoradas y un renderizado de texto optimizado. Esto llega poco después del lanzamiento de GPT-5.2 y en medio de la competencia con Gemini de Google.

 

 

 

Este sitio web utiliza cookies

Utilizamos cookies para análisis con el fin de mejorar nuestro sitio. Lee nuestra política de privacidad para más información.
Rechazar