Modelo Gemini 3 do Google se destaca em benchmarks, mas enfrenta problemas de confiabilidade

O Google revelou seu mais recente modelo de IA, Gemini 3, que supera rivais em vários benchmarks chave, incluindo uma pontuação de 37,5 por cento no Humanity’s Last Exam. A empresa afirma que ele atinge raciocínio em nível de doutorado, mas especialistas alertam que tais pontuações podem não refletir capacidades no mundo real. Alucinações persistentes continuam sendo uma preocupação para aplicações práticas.

Em um post recente no blog, os executivos do Google Sundar Pichai, Demis Hassabis e Koray Kavukcuoglu anunciaram o lançamento do Gemini 3, destacando seu desempenho superior em testes de nível de pós-graduação. O modelo pontuou 37,5 por cento no Humanity’s Last Exam, um conjunto de 2.500 perguntas de nível de pesquisa em matemática, ciência e humanidades, superando o GPT-5 da OpenAI, que alcançou 26,5 por cento.

Especialistas como Luc Rocher da Universidade de Oxford enfatizam as limitações desses benchmarks. “Se um modelo vai de 80 por cento para 90 por cento em um benchmark, o que isso significa? Significa que um modelo era 80 por cento nível de doutorado e agora é 90 por cento nível de doutorado? Acho que é bastante difícil de entender”, disse Rocher. Ele acrescentou: “Não há um número que possamos atribuir para saber se um modelo de IA tem raciocínio, porque isso é uma noção muito subjetiva.” Os benchmarks frequentemente dependem de formatos de múltipla escolha que não exigem mostrar o trabalho, e há o risco de que os dados de treinamento incluam respostas dos testes, permitindo que os modelos trapaceiem efetivamente.

O Google afirma que as melhorias do Gemini 3 aprimorarão a produção de software, organização de e-mails, análise de documentos e pesquisa do Google por meio de gráficos e simulações adicionados. Adam Mahdi da Universidade de Oxford prevê benefícios em fluxos de trabalho de codificação agentic em vez de conversas casuais: “Acho que estamos atingindo o limite superior do que um chatbot típico pode fazer, e os verdadeiros benefícios do Gemini 3 Pro provavelmente estarão em fluxos de trabalho mais complexos, potencialmente agentic, em vez de conversas cotidianas.”

As reações online misturam elogios às habilidades de codificação e raciocínio com críticas por falhas em tarefas visuais simples, como traçar setas desenhadas à mão. O Google reconhece alucinações contínuas e imprecisões factuais em taxas semelhantes às dos concorrentes. Artur d’Avila Garcez da City St George’s, University of London, alerta: “O problema é que todas as empresas de IA têm tentado reduzir alucinações há mais de dois anos, mas você só precisa de uma alucinação muito ruim para destruir a confiança no sistema para sempre.” Esses problemas levantam questões sobre a justificativa de investimentos massivos em infraestrutura de IA.

Este site usa cookies

Usamos cookies para análise para melhorar nosso site. Leia nossa política de privacidade para mais informações.
Recusar