Chatbots de IA falham em 60 por cento das consultas urgentes de saúde feminina

Modelos de IA comumente usados, incluindo ChatGPT e Gemini, frequentemente falham em fornecer conselhos adequados para questões urgentes de saúde feminina, de acordo com um novo teste de referência. Pesquisadores descobriram que 60 por cento das respostas a consultas especializadas foram insuficientes, destacando vieses nos dados de treinamento da IA. O estudo pede conteúdo médico aprimorado para abordar essas lacunas.

Uma equipe de 17 pesquisadores em saúde feminina, farmacêuticos e clínicos dos EUA e da Europa criou 345 consultas médicas em especialidades como medicina de emergência, ginecologia e neurologia. Elas foram testadas em 13 grandes modelos de linguagem de empresas como OpenAI, Google, Anthropic, Mistral AI e xAI. Os especialistas revisaram as respostas da IA, identificaram falhas e compilaram um benchmark de 96 consultas. No geral, os modelos falharam em fornecer conselhos médicos suficientes para 60 por cento dessas perguntas. O GPT-5 teve o melhor desempenho, com taxa de falha de 47 por cento, enquanto o Ministral 8B teve a mais alta, de 73 por cento. Victoria-Elisabeth Gruber, membro da equipe na Lumos AI, observou a motivação por trás do estudo: «Vi cada vez mais mulheres no meu círculo recorrendo a ferramentas de IA para perguntas de saúde e suporte à decisão.» Ela destacou riscos da IA herdar lacunas de gênero no conhecimento médico e ficou surpresa com a variação no desempenho dos modelos. Cara Tannenbaum, da Universidade de Montreal, explicou que os modelos de IA são treinados em dados históricos com vieses incorporados, instando atualizações em fontes de saúde online com informações explícitas sobre sexo e gênero. No entanto, Jonathan H. Chen, da Universidade de Stanford, alertou que a figura de 60 por cento pode ser enganosa, pois a amostra era limitada e projetada por especialistas, não representativa de consultas típicas. Ele apontou cenários conservadores, como esperar suspeita imediata de pré-eclâmpsia para dores de cabeça pós-parto. Gruber reconheceu esses pontos, enfatizando que o benchmark estabelece um padrão estrito e fundamentado clinicamente: «Nosso objetivo não era afirmar que os modelos são amplamente inseguros, mas definir um padrão claro e fundamentado clinicamente para avaliação.» Um porta-voz da OpenAI respondeu que o ChatGPT é destinado a apoiar, não substituir, o atendimento médico, e que seu modelo GPT 5.2 mais recente considera melhor o contexto como gênero. Outras empresas não comentaram. Os achados, publicados no arXiv (DOI: arXiv:2512.17028), sublinham a necessidade de uso cauteloso da IA na saúde.

Artigos relacionados

Illustration of Swedes in a Stockholm cafe using AI chatbots amid survey stats on rising usage and skepticism.
Imagem gerada por IA

Increased AI chatbot use among Swedes – but also concerns

Reportado por IA Imagem gerada por IA

According to the latest SOM survey from the University of Gothenburg, the share of Swedes chatting with an AI bot weekly rose from 12 to 36 percent between 2024 and 2025. At the same time, skepticism toward AI has grown, with 62 percent viewing it as a greater risk than opportunity for society.

Em uma avaliação comparativa de modelos líderes de IA, o Gemini 3.2 Fast do Google demonstrou forças em precisão factual sobre o ChatGPT 5.2 da OpenAI, particularmente em tarefas informacionais. Os testes, motivados pela parceria da Apple com o Google para aprimorar o Siri, destacam as capacidades em evolução da IA generativa desde 2023. Embora os resultados fossem próximos, o Gemini evitou erros significativos que comprometeram a confiabilidade do ChatGPT.

Reportado por IA

Um novo estudo da Universidade Brown identifica preocupações éticas significativas com o uso de chatbots de IA como ChatGPT para aconselhamento de saúde mental. Pesquisadores descobriram que esses sistemas frequentemente violam padrões profissionais mesmo quando orientados a atuar como terapeutas. O trabalho pede melhores salvaguardas antes de implementar tais ferramentas em áreas sensíveis.

Um relatório do Guardian revelou que o mais recente modelo de IA da OpenAI, GPT-5.2, recorre à Grokipedia, uma enciclopédia online alimentada pela xAI, ao abordar questões sensíveis como o Holocausto e a política iraniana. Embora promovido para tarefas profissionais, testes questionam a fiabilidade das suas fontes. A OpenAI defende a sua abordagem enfatizando pesquisas amplas na web com medidas de segurança.

Reportado por IA

Pesquisadores alertam que modelos principais de IA podem incentivar experimentos científicos perigosos que levem a incêndios, explosões ou envenenamentos. Um novo teste em 19 modelos avançados revelou que nenhum conseguiu identificar todos os problemas de segurança de forma confiável. Embora melhorias estejam em andamento, especialistas enfatizam a necessidade de supervisão humana em laboratórios.

A OpenAI decidiu pausar indefinidamente o planejado 'modo adulto' para o ChatGPT, concentrando-se em seus produtos principais. A medida ocorre dias após a empresa descontinuar sua ferramenta de vídeo Sora. O CEO Sam Altman está priorizando o ChatGPT, o Codex e o navegador de IA Atlas diante das pressões competitivas.

Reportado por IA

A OpenAI lançou um modelo atualizado de geração de imagens para o ChatGPT, tornando-o quatro vezes mais rápido e melhor em seguir instruções dos usuários. A atualização inclui capacidades de edição melhoradas e renderização de texto aprimorada. Isso surge logo após o lançamento do GPT-5.2 e em meio à concorrência do Gemini do Google.

 

 

 

Este site usa cookies

Usamos cookies para análise para melhorar nosso site. Leia nossa política de privacidade para mais informações.
Recusar