Analisis New York Times menunjukkan bahwa AI Overviews Google, yang ditenagai oleh Gemini, hanya menjawab pertanyaan dengan benar sebesar 90% hingga 91% dalam tolok ukur standar. Hal ini setara dengan puluhan juta jawaban yang salah setiap harinya dalam penelusuran. Google membantah relevansi pengujian tersebut.
The New York Times, bekerja sama dengan startup Oumi, menguji AI Overviews menggunakan SimpleQA, sebuah tolok ukur yang terdiri dari lebih dari 4.000 pertanyaan yang dirilis oleh OpenAI pada tahun 2024. Pengujian awal dengan Gemini 2.5 menunjukkan tingkat akurasi 85%, yang meningkat menjadi 91% setelah pembaruan Gemini 3. Jika diekstrapolasikan ke volume penelusuran Google, ini berarti puluhan juta jawaban salah dihasilkan setiap harinya, atau jutaan per jam sebagaimana disorot dalam laporan temuan tersebut.