Un análisis del New York Times muestra que los AI Overviews de Google, impulsados por Gemini, responden correctamente solo entre el 90% y el 91% de las preguntas en una prueba de referencia estándar. Esto se traduce en decenas de millones de respuestas incorrectas al día en las búsquedas. Google cuestiona la relevancia de la prueba.
El New York Times, en colaboración con la startup Oumi, evaluó los AI Overviews utilizando SimpleQA, un conjunto de referencia de más de 4,000 preguntas publicado por OpenAI en 2024. Las pruebas iniciales con Gemini 2.5 mostraron una precisión del 85%, la cual mejoró hasta el 91% tras la actualización a Gemini 3. Extrapolando estos datos al volumen de búsqueda de Google, esto significa que se generan decenas de millones de respuestas erróneas cada día, o millones por hora, tal como destacan los informes sobre los hallazgos.