En analys från New York Times visar att Googles AI Overviews, som drivs av Gemini, endast svarar korrekt på 90 till 91 procent av frågorna i ett standardiserat test. Detta innebär tiotals miljoner felaktiga svar varje dag i sökresultaten. Google ifrågasätter testets relevans.
New York Times testade i samarbete med startup-företaget Oumi tjänsten AI Overviews med hjälp av SimpleQA, ett testverktyg med över 4 000 frågor som OpenAI släppte 2024. Inledande tester med Gemini 2.5 visade en noggrannhet på 85 procent, vilket förbättrades till 91 procent efter uppdateringen till Gemini 3. Om man extrapolerar detta till Googles totala sökvolym innebär det tiotals miljoner felaktiga svar varje dag, eller miljontals per timme, vilket framhålls i rapporter om resultaten.