Los chatbots de IA fallan en el 60 % de las consultas urgentes de salud femenina

Los modelos de IA de uso común, incluidos ChatGPT y Gemini, a menudo no proporcionan consejos adecuados para problemas urgentes de salud femenina, según una nueva prueba de referencia. Los investigadores descubrieron que el 60 % de las respuestas a consultas especializadas eran insuficientes, lo que destaca sesgos en los datos de entrenamiento de la IA. El estudio pide contenido médico mejorado para abordar estas lagunas.

Un equipo de 17 investigadores en salud femenina, farmacéuticos y clínicos de EE. UU. y Europa creó 345 consultas médicas en especialidades como medicina de emergencia, ginecología y neurología. Estas se probaron en 13 modelos de lenguaje grandes de empresas como OpenAI, Google, Anthropic, Mistral AI y xAI. Los expertos revisaron las respuestas de la IA, identificaron fallos y compilaron un banco de pruebas de 96 consultas. En general, los modelos no proporcionaron consejos médicos suficientes para el 60 % de estas preguntas. GPT-5 obtuvo el mejor rendimiento, con una tasa de fallo del 47 %, mientras que Ministral 8B tuvo la más alta, del 73 %. Victoria-Elisabeth Gruber, miembro del equipo en Lumos AI, señaló la motivación detrás del estudio: «Vi a cada vez más mujeres en mi círculo recurriendo a herramientas de IA para preguntas de salud y apoyo en decisiones». Destacó los riesgos de que la IA herede brechas de género en el conocimiento médico y se sorprendió por la variación en el rendimiento de los modelos. Cara Tannenbaum, de la Universidad de Montreal, explicó que los modelos de IA se entrenan con datos históricos con sesgos incorporados, instando a actualizar las fuentes de salud en línea con información explícita relacionada con el sexo y el género. Sin embargo, Jonathan H. Chen, de la Universidad de Stanford, advirtió que la cifra del 60 % podría ser engañosa, ya que la muestra era limitada y diseñada por expertos, no representativa de consultas típicas. Señaló escenarios conservadores, como esperar una sospecha inmediata de preeclampsia para dolores de cabeza posparto. Gruber reconoció estos puntos, enfatizando que el banco de pruebas establece un estándar estricto y fundamentado clínicamente: «Nuestro objetivo no era afirmar que los modelos son ampliamente inseguros, sino definir un estándar claro y fundamentado clínicamente para la evaluación». Un portavoz de OpenAI respondió que ChatGPT está destinado a apoyar, no a reemplazar, la atención médica, y que su último modelo GPT 5.2 considera mejor el contexto como el género. Otras empresas no comentaron. Los hallazgos, publicados en arXiv (DOI: arXiv:2512.17028), subrayan la necesidad de un uso cauteloso de la IA en la atención sanitaria.

Artículos relacionados

Illustration depicting OpenAI's ChatGPT-5.2 launch, showing professionals using the AI to enhance workplace productivity amid rivalry with Google's Gemini.
Imagen generada por IA

OpenAI lanza ChatGPT-5.2 para impulsar la productividad laboral

Reportado por IA Imagen generada por IA

OpenAI ha lanzado ChatGPT-5.2, una nueva familia de modelos de IA diseñados para mejorar el razonamiento y la productividad, especialmente para tareas profesionales. El lanzamiento sigue a una alerta interna del CEO Sam Altman sobre la competencia de Gemini 3 de Google. La actualización incluye tres variantes dirigidas a diferentes necesidades de usuarios, empezando con los suscriptores de pago.

En una evaluación comparativa de modelos líderes de IA, el Gemini 3.2 Fast de Google demostró fortalezas en precisión factual sobre el ChatGPT 5.2 de OpenAI, particularmente en tareas informativas. Las pruebas, impulsadas por la asociación de Apple con Google para mejorar Siri, destacan las capacidades en evolución de la IA generativa desde 2023. Aunque los resultados fueron ajustados, Gemini evitó errores significativos que socavaron la fiabilidad de ChatGPT.

Reportado por IA

Un estudio aplicado a modelos de IA en la Prueba de Acceso a la Educación Superior (PAES) 2026 revela que varios sistemas alcanzaron puntajes suficientes para ingresar a carreras selectivas como Medicina e Ingeniería Civil. Google Gemini lideró con promedios cercanos a 950 puntos, superando a competidores como ChatGPT. El experimento destaca avances en IA y cuestiona la efectividad de pruebas estandarizadas.

Algunos usuarios de chatbots de IA de Google y OpenAI están generando imágenes deepfake que alteran fotos de mujeres completamente vestidas para mostrarlas en bikinis. Estas modificaciones suelen realizarse sin el consentimiento de las mujeres, e instrucciones para el proceso se comparten entre usuarios. La actividad resalta riesgos en herramientas de IA generativa.

Reportado por IA

Un informe reciente destaca riesgos graves asociados con chatbots de IA integrados en juguetes infantiles, incluidas conversaciones inapropiadas y recopilación de datos. Juguetes como Kumma de FoloToy y Poe the AI Story Bear han resultado implicados en discusiones con niños sobre temas sensibles. Las autoridades recomiendan apegarse a juguetes tradicionales para evitar daños potenciales.

Basándose en la actualización de imágenes de ChatGPT de ayer, OpenAI ha detallado GPT Image 1.5, un modelo multimodal que permite ediciones precisas de fotos mediante conversación. Responde a rivales como Nano Banana de Google mientras introduce salvaguardas contra el mal uso.

Reportado por IA

Un nuevo informe de OpenAI revela que, aunque la adopción de IA en las empresas está aumentando rápidamente, la mayoría de los trabajadores solo ahorran entre 40 y 60 minutos al día. Los hallazgos provienen de datos de más de un millón de clientes y una encuesta a 9.000 empleados. A pesar de los beneficios en velocidad de tareas y nuevas capacidades, las ganancias de productividad siguen siendo modestas para el usuario promedio.

 

 

 

Este sitio web utiliza cookies

Utilizamos cookies para análisis con el fin de mejorar nuestro sitio. Lee nuestra política de privacidad para más información.
Rechazar