Uma análise do The New York Times mostra que as Visões Gerais por IA do Google, impulsionadas pelo Gemini, respondem corretamente apenas entre 90% e 91% das perguntas em um benchmark padrão. Isso se traduz em dezenas de milhões de respostas incorretas diariamente nas buscas. O Google contesta a relevância do teste.
O The New York Times, em parceria com a startup Oumi, testou as Visões Gerais por IA usando o SimpleQA, um benchmark de mais de 4.000 perguntas lançado pela OpenAI em 2024. Os testes iniciais com o Gemini 2.5 mostraram 85% de precisão, subindo para 91% após a atualização do Gemini 3. Extrapolando para o volume de buscas do Google, isso significa dezenas de milhões de respostas erradas geradas a cada dia, ou milhões por hora, conforme destacado em relatórios sobre as descobertas.