Modelos de IA comumente usados, incluindo ChatGPT e Gemini, frequentemente falham em fornecer conselhos adequados para questões urgentes de saúde feminina, de acordo com um novo teste de referência. Pesquisadores descobriram que 60 por cento das respostas a consultas especializadas foram insuficientes, destacando vieses nos dados de treinamento da IA. O estudo pede conteúdo médico aprimorado para abordar essas lacunas.
Uma equipe de 17 pesquisadores em saúde feminina, farmacêuticos e clínicos dos EUA e da Europa criou 345 consultas médicas em especialidades como medicina de emergência, ginecologia e neurologia. Elas foram testadas em 13 grandes modelos de linguagem de empresas como OpenAI, Google, Anthropic, Mistral AI e xAI. Os especialistas revisaram as respostas da IA, identificaram falhas e compilaram um benchmark de 96 consultas. No geral, os modelos falharam em fornecer conselhos médicos suficientes para 60 por cento dessas perguntas. O GPT-5 teve o melhor desempenho, com taxa de falha de 47 por cento, enquanto o Ministral 8B teve a mais alta, de 73 por cento. Victoria-Elisabeth Gruber, membro da equipe na Lumos AI, observou a motivação por trás do estudo: «Vi cada vez mais mulheres no meu círculo recorrendo a ferramentas de IA para perguntas de saúde e suporte à decisão.» Ela destacou riscos da IA herdar lacunas de gênero no conhecimento médico e ficou surpresa com a variação no desempenho dos modelos. Cara Tannenbaum, da Universidade de Montreal, explicou que os modelos de IA são treinados em dados históricos com vieses incorporados, instando atualizações em fontes de saúde online com informações explícitas sobre sexo e gênero. No entanto, Jonathan H. Chen, da Universidade de Stanford, alertou que a figura de 60 por cento pode ser enganosa, pois a amostra era limitada e projetada por especialistas, não representativa de consultas típicas. Ele apontou cenários conservadores, como esperar suspeita imediata de pré-eclâmpsia para dores de cabeça pós-parto. Gruber reconheceu esses pontos, enfatizando que o benchmark estabelece um padrão estrito e fundamentado clinicamente: «Nosso objetivo não era afirmar que os modelos são amplamente inseguros, mas definir um padrão claro e fundamentado clinicamente para avaliação.» Um porta-voz da OpenAI respondeu que o ChatGPT é destinado a apoiar, não substituir, o atendimento médico, e que seu modelo GPT 5.2 mais recente considera melhor o contexto como gênero. Outras empresas não comentaram. Os achados, publicados no arXiv (DOI: arXiv:2512.17028), sublinham a necessidade de uso cauteloso da IA na saúde.