أظهر تحليل أجرته صحيفة نيويورك تايمز أن ملخصات الذكاء الاصطناعي من جوجل، التي تعتمد على نموذج Gemini، تجيب بشكل صحيح على 90% إلى 91% فقط من الأسئلة وفق معيار قياسي. وهذا يعني تقديم عشرات الملايين من الردود غير الصحيحة يومياً عبر عمليات البحث، بينما تشكك جوجل في مدى ملاءمة هذا الاختبار.
اختبرت صحيفة نيويورك تايمز، بالتعاون مع شركة Oumi الناشئة، ملخصات الذكاء الاصطناعي باستخدام SimpleQA، وهو معيار قياسي يضم أكثر من 4000 سؤال أصدرته شركة OpenAI في عام 2024. أظهرت الاختبارات الأولية باستخدام Gemini 2.5 دقة بنسبة 85%، تحسنت إلى 91% بعد تحديث Gemini 3. وبالنظر إلى حجم عمليات البحث على جوجل، فإن هذا يعني توليد عشرات الملايين من الإجابات الخاطئة كل يوم، أو ملايين الإجابات في الساعة كما أشارت التقارير حول هذه النتائج.