主要AIモデルの比較評価で、GoogleのGemini 3.2 FastはOpenAIのChatGPT 5.2に対し、事実精度で優位性を示した。特に情報タスクで顕著だった。これらのテストは、AppleがGoogleと提携してSiriを強化したことを受けて行われ、2023年以来の生成AIの進化を強調している。結果は僅差だったが、GeminiはChatGPTの信頼性を損なう重大な誤りを避けた。
Ars Technicaは2026年1月21日に一連のテストを実施し、GoogleのGemini 3.2 FastをOpenAIのChatGPT 5.2と対決させた。これらはサブスクリプションなしでアクセス可能なデフォルトモデルである。この評価は、Appleが次期SiriアシスタントにGeminiを統合する決定に続くものであり、2023年末にGoogleのAIがBardとして知られていた頃の以前の比較からの転換点を示している。 プロンプトは創造的および実用的シナリオを網羅し、パパジョークの生成、Windows 11を3.5インチフロッピーディスクに収める数学パズルの解決、Abraham Lincolnがバスケットボールを考案するという架空の物語作成、ジャーナリストKyle Orlandの伝記執筆、非現実的な仕事の締め切りへの対応メール作成、がん治療のヒーリングクリスタルに関する医療主張の評価、走らずにSuper Mario Bros.の8-2レベルをクリアするガイダンス、初心者向けBoeing 737-800の着陸手順の概要などを含んだ。 Geminiは4つのカテゴリで勝利を収めた:フロッピーディスク計算では、より明確な説明と歴史的文脈を提供;伝記ではOrlandの2012年のキャリア開始に関する幻覚を避け、ソースをリンク;メールアドバイスでは3つのカスタマイズオプションと使用Tipsを提供;ビデオゲーム戦略では、敵のバウンスを活用したギャップ越えなどの革新的な回避策を提案。ChatGPTはパパジョークでわずかな独創性、創造的執筆でLincolnがストーブパイプハットで得点するなどの魅力的な詳細、飛行機着陸プロンプトで勝利し、後者は航空専門家Lee Hutchinsonにより、危険な単独行動よりプロの助けを促す点でより実用的と評価された。医療アドバイスのプロンプトは引き分けで、両モデルともクリスタルの有効性を否定しつつ心理的利益を指摘し、医師相談を推奨。 全体としてGeminiが4ポイント、ChatGPTが3ポイント、1引き分け。テストはGeminiの事実信頼性の優位性を強調し、伝記やゲームレベルでのChatGPTの誤りによる不信を低減。この進歩はAppleのパートナーシップ選択に影響を与え、GoogleのAI分野での進展を示唆している。