Une analyse du New York Times montre que les aperçus par IA de Google, propulsés par Gemini, ne répondent correctement qu'à 90 % à 91 % des questions posées lors d'un test de référence standard. Cela se traduit par des dizaines de millions de réponses erronées chaque jour dans les recherches. Google conteste la pertinence de ce test.
Le New York Times, en collaboration avec la startup Oumi, a testé les aperçus par IA à l'aide de SimpleQA, un test de référence composé de plus de 4 000 questions publié par OpenAI en 2024. Les premiers tests effectués avec Gemini 2.5 ont révélé un taux de précision de 85 %, qui est monté à 91 % après la mise à jour Gemini 3. Extrapolé au volume de recherche de Google, cela signifie que des dizaines de millions de mauvaises réponses sont générées chaque jour, soit des millions par heure, comme le soulignent les rapports sur ces résultats.