Chatbots de IA falham em 60 por cento das consultas urgentes de saúde feminina

Modelos de IA comumente usados, incluindo ChatGPT e Gemini, frequentemente falham em fornecer conselhos adequados para questões urgentes de saúde feminina, de acordo com um novo teste de referência. Pesquisadores descobriram que 60 por cento das respostas a consultas especializadas foram insuficientes, destacando vieses nos dados de treinamento da IA. O estudo pede conteúdo médico aprimorado para abordar essas lacunas.

Uma equipe de 17 pesquisadores em saúde feminina, farmacêuticos e clínicos dos EUA e da Europa criou 345 consultas médicas em especialidades como medicina de emergência, ginecologia e neurologia. Elas foram testadas em 13 grandes modelos de linguagem de empresas como OpenAI, Google, Anthropic, Mistral AI e xAI. Os especialistas revisaram as respostas da IA, identificaram falhas e compilaram um benchmark de 96 consultas. No geral, os modelos falharam em fornecer conselhos médicos suficientes para 60 por cento dessas perguntas. O GPT-5 teve o melhor desempenho, com taxa de falha de 47 por cento, enquanto o Ministral 8B teve a mais alta, de 73 por cento. Victoria-Elisabeth Gruber, membro da equipe na Lumos AI, observou a motivação por trás do estudo: «Vi cada vez mais mulheres no meu círculo recorrendo a ferramentas de IA para perguntas de saúde e suporte à decisão.» Ela destacou riscos da IA herdar lacunas de gênero no conhecimento médico e ficou surpresa com a variação no desempenho dos modelos. Cara Tannenbaum, da Universidade de Montreal, explicou que os modelos de IA são treinados em dados históricos com vieses incorporados, instando atualizações em fontes de saúde online com informações explícitas sobre sexo e gênero. No entanto, Jonathan H. Chen, da Universidade de Stanford, alertou que a figura de 60 por cento pode ser enganosa, pois a amostra era limitada e projetada por especialistas, não representativa de consultas típicas. Ele apontou cenários conservadores, como esperar suspeita imediata de pré-eclâmpsia para dores de cabeça pós-parto. Gruber reconheceu esses pontos, enfatizando que o benchmark estabelece um padrão estrito e fundamentado clinicamente: «Nosso objetivo não era afirmar que os modelos são amplamente inseguros, mas definir um padrão claro e fundamentado clinicamente para avaliação.» Um porta-voz da OpenAI respondeu que o ChatGPT é destinado a apoiar, não substituir, o atendimento médico, e que seu modelo GPT 5.2 mais recente considera melhor o contexto como gênero. Outras empresas não comentaram. Os achados, publicados no arXiv (DOI: arXiv:2512.17028), sublinham a necessidade de uso cauteloso da IA na saúde.

Artigos relacionados

Illustration depicting OpenAI's ChatGPT-5.2 launch, showing professionals using the AI to enhance workplace productivity amid rivalry with Google's Gemini.
Imagem gerada por IA

OpenAI lança ChatGPT-5.2 para impulsionar a produtividade no trabalho

Reportado por IA Imagem gerada por IA

A OpenAI lançou o ChatGPT-5.2, uma nova família de modelos de IA projetados para aprimorar o raciocínio e a produtividade, particularmente para tarefas profissionais. O lançamento segue um alerta interno do CEO Sam Altman sobre a concorrência do Gemini 3 do Google. A atualização inclui três variantes destinadas a diferentes necessidades de usuários, começando pelos assinantes pagos.

Em uma avaliação comparativa de modelos líderes de IA, o Gemini 3.2 Fast do Google demonstrou forças em precisão factual sobre o ChatGPT 5.2 da OpenAI, particularmente em tarefas informacionais. Os testes, motivados pela parceria da Apple com o Google para aprimorar o Siri, destacam as capacidades em evolução da IA generativa desde 2023. Embora os resultados fossem próximos, o Gemini evitou erros significativos que comprometeram a confiabilidade do ChatGPT.

Reportado por IA

Um estudo que aplica o exame de ingresso à universidade do Chile, PAES 2026, a modelos de IA mostra que vários sistemas pontuam alto o suficiente para programas seletivos como Medicina e Engenharia Civil. O Gemini do Google liderou com médias próximas a 950 pontos, superando rivais como ChatGPT. O experimento destaca o progresso da IA e levanta questões sobre a eficácia dos testes padronizados.

Alguns usuários de chatbots de IA do Google e OpenAI estão gerando imagens deepfake que alteram fotos de mulheres totalmente vestidas para mostrá-las de biquíni. Essas modificações ocorrem frequentemente sem o consentimento das mulheres, e instruções para o processo são compartilhadas entre usuários. A atividade destaca riscos em ferramentas de IA generativa.

Reportado por IA

Um relatório recente destaca riscos graves associados a chatbots de IA incorporados em brinquedos infantis, incluindo conversas inadequadas e coleta de dados. Brinquedos como Kumma da FoloToy e Poe the AI Story Bear foram encontrados envolvendo crianças em discussões sobre tópicos sensíveis. Autoridades recomendam manter-se nos brinquedos tradicionais para evitar danos potenciais.

Baseando-se na atualização de imagens do ChatGPT de ontem, a OpenAI detalhou o GPT Image 1.5, um modelo multimodal que permite edições precisas de fotos conversacionais. Responde a rivais como o Nano Banana do Google enquanto introduz salvaguardas contra uso indevido.

Reportado por IA

Um novo relatório da OpenAI revela que, embora a adoção de IA nas empresas esteja em alta, a maioria dos trabalhadores economiza apenas 40 a 60 minutos por dia. Os achados vêm de dados de mais de um milhão de clientes e uma pesquisa com 9.000 funcionários. Apesar dos benefícios na velocidade das tarefas e novas capacidades, os ganhos de produtividade permanecem modestos para o usuário médio.

 

 

 

Este site usa cookies

Usamos cookies para análise para melhorar nosso site. Leia nossa política de privacidade para mais informações.
Recusar