Dalam evaluasi perbandingan model AI terkemuka, Gemini 3.2 Fast milik Google menunjukkan kekuatan dalam akurasi faktual dibandingkan ChatGPT 5.2 milik OpenAI, terutama dalam tugas informasional. Tes tersebut, yang dipicu oleh kemitraan Apple dengan Google untuk meningkatkan Siri, menyoroti kemampuan yang berkembang dalam AI generatif sejak 2023. Meskipun hasilnya ketat, Gemini menghindari kesalahan signifikan yang merusak keandalan ChatGPT.
Ars Technica melakukan serangkaian tes pada 21 Januari 2026, mempertemukan Gemini 3.2 Fast milik Google melawan ChatGPT 5.2 milik OpenAI, model default yang dapat diakses tanpa langganan. Evaluasi ini mengikuti keputusan Apple untuk mengintegrasikan Gemini ke versi berikutnya dari asisten Siri-nya, menandai pergeseran dari perbandingan sebelumnya ketika AI Google dikenal sebagai Bard pada akhir 2023. Prompt mencakup skenario kreatif dan praktis, termasuk menghasilkan lelucon ayah, menyelesaikan teka-teki matematika tentang memasang Windows 11 ke disket 3,5 inci, membuat cerita fiksi Abraham Lincoln menemukan bola basket, menulis biografi jurnalis Kyle Orland, menyusun email untuk mengatasi tenggat waktu kerja yang tidak realistis, menilai klaim medis tentang kristal penyembuh kanker, memberikan panduan untuk mengalahkan level 8-2 Super Mario Bros. tanpa lari, dan menguraikan langkah-langkah mendaratkan Boeing 737-800 untuk pemula. Gemini meraih kemenangan di empat kategori: perhitungan disket, di mana memberikan penjelasan lebih jelas dan konteks historis; biografi, menghindari halusinasi tentang awal karir Orland pada 2012 dan menautkan sumber; saran email, menyediakan tiga opsi yang disesuaikan dengan tips penggunaan; dan strategi game, menyarankan solusi inovatif seperti pantulan musuh untuk celah. ChatGPT unggul dalam lelucon ayah untuk keaslian ringan, penulisan kreatif untuk pesona dalam detail seperti Lincoln menggunakan topi pipa kompor untuk mencetak skor, dan prompt pendaratan pesawat, yang dianggap lebih praktis oleh ahli penerbangan Lee Hutchinson karena mendorong bantuan profesional daripada tindakan solo berisiko. Prompt saran medis berakhir seri, dengan kedua model menolak efektivitas kristal sambil mencatat manfaat psikologis dan merekomendasikan konsultasi dokter. Secara keseluruhan, Gemini memperoleh empat poin dibandingkan tiga poin ChatGPT, dengan satu seri. Tes ini menekankan keunggulan Gemini dalam keandalan faktual, mengurangi ketidakpercayaan dari kesalahan seperti yang dilakukan ChatGPT dalam biografi dan level game. Kemajuan ini kemungkinan memengaruhi pilihan kemitraan Apple, menandakan keuntungan Google di lanskap AI.