ニューヨーク・タイムズ紙の分析により、Geminiを搭載したGoogleの「AI概要(AI Overviews)」が、標準的なベンチマークテストにおいて、質問に対して90%から91%の確率でしか正しく回答していないことが判明した。これは、1日あたり数千万件の誤った回答が検索結果として表示されていることを意味する。なお、Googleはこのテストの妥当性に異議を唱えている。
ニューヨーク・タイムズ紙は、スタートアップ企業のOumiと共同で、OpenAIが2024年に公開した4,000以上の質問からなるベンチマーク「SimpleQA」を用いてAI概要のテストを実施した。Gemini 2.5を用いた初期テストでは正答率が85%であったが、Gemini 3へのアップデートにより91%まで改善した。この結果をGoogleの検索ボリュームに当てはめると、毎日数千万件、時間あたりに換算して数百万件の誤った回答が生成されている計算になり、その影響の大きさが指摘されている。