Googleは最新のAIモデルGemini 3を発表し、いくつかの主要ベンチマークで競合他社を上回り、Humanity’s Last Examで37.5%のスコアを達成しました。同社は博士レベルの推論能力を主張していますが、専門家はこうしたスコアが実世界の能力を反映しない可能性があると警告しています。実用アプリケーションにおける持続的な幻覚が懸念事項です。
最近のブログ投稿で、Googleの幹部Sundar Pichai、Demis Hassabis、Koray KavukcuogluはGemini 3のリリースを発表し、大学院レベルのテストでの優れたパフォーマンスを強調しました。このモデルはHumanity’s Last Examで37.5%のスコアを獲得し、数学、科学、人文科学にわたる2,500の研究レベルの質問からなるセットで、OpenAIのGPT-5の26.5%を上回りました。
オックスフォード大学のLuc Rocherのような専門家は、これらのベンチマークの限界を強調しています。「モデルがベンチマークで80%から90%に上昇した場合、それは何を意味するのか? モデルが80%博士レベルだったのが今90%博士レベルになったということか? それはかなり理解しにくいと思う」とRocherは述べました。彼は付け加えました、「AIモデルに推論能力があるかどうかを示す数字はない、なぜならそれは非常に主観的な概念だからです。」ベンチマークはしばしば作業を示す必要のない多肢選択形式に依存し、トレーニングデータにテストの回答が含まれているリスクがあり、モデルが効果的にカンニングできる可能性があります。
Googleによると、Gemini 3の強化により、ソフトウェア生産、メール整理、文書分析、Google検索がグラフィックスとシミュレーションの追加により改善されます。オックスフォード大学のAdam Mahdiは、カジュアルなチャットではなくエージェント的なコーディングワークフローでの利点を予測しています。「典型的なチャットボットの限界に達していると思うし、Gemini 3 Proの真の利点は日常のチャットではなく、より複雑で潜在的にエージェント的なワークフローにあるだろう。」
オンラインの反応は、コーディングと推論能力への称賛と、手描きの矢印を追跡するような簡単な視覚タスクでの失敗に対する批判が混在しています。Googleは競合他社と同様の割合で持続的な幻覚と事実的不正確さを認めています。ロンドン大学City St George’sのArtur d’Avila Garcezは警告します、「すべてのAI企業が2年以上幻覚を減らそうとしてきたが、システムへの信頼を永遠に破壊するのに1つの非常に悪い幻覚で十分だ。」これらの問題は、AIインフラへの巨額投資の正当性を疑問視しています。