Le modèle Gemini 3 de Google excelle dans les benchmarks mais fait face à des problèmes de fiabilité

Google a dévoilé son dernier modèle d'IA, Gemini 3, qui surpasse ses rivaux sur plusieurs benchmarks clés, y compris un score de 37,5 pour cent à l'examen Humanity’s Last Exam. L'entreprise affirme qu'il atteint un raisonnement de niveau doctorat, mais les experts mettent en garde que de tels scores pourraient ne pas refléter les capacités dans le monde réel. Les hallucinations persistantes restent une préoccupation pour les applications pratiques.

Dans un récent article de blog, les dirigeants de Google Sundar Pichai, Demis Hassabis et Koray Kavukcuoglu ont annoncé la sortie de Gemini 3, soulignant ses performances supérieures sur des tests de niveau graduate. Le modèle a obtenu 37,5 pour cent à l'examen Humanity’s Last Exam, un ensemble de 2 500 questions de niveau recherche en mathématiques, sciences et humanités, surpassant le GPT-5 d'OpenAI qui a atteint 26,5 pour cent.

Des experts comme Luc Rocher de l'Université d'Oxford soulignent les limites de ces benchmarks. « Si un modèle passe de 80 pour cent à 90 pour cent sur un benchmark, que cela signifie-t-il ? Cela signifie-t-il qu'un modèle était à 80 pour cent niveau doctorat et maintenant à 90 pour cent niveau doctorat ? Je pense que c'est assez difficile à comprendre », a déclaré Rocher. Il a ajouté : « Il n'y a pas de nombre que nous puissions attribuer pour savoir si un modèle d'IA a du raisonnement, car c'est une notion très subjective. » Les benchmarks reposent souvent sur des formats à choix multiples qui ne nécessitent pas de montrer le travail, et il existe un risque que les données d'entraînement incluent les réponses aux tests, permettant aux modèles de tricher efficacement.

Google affirme que les améliorations de Gemini 3 amélioreront la production de logiciels, l'organisation des e-mails, l'analyse de documents et la recherche Google grâce à l'ajout de graphiques et de simulations. Adam Mahdi de l'Université d'Oxford prévoit des avantages dans les flux de travail de codage agentique plutôt que dans les discussions casuales : « Je pense que nous atteignons la limite supérieure de ce qu'un chatbot typique peut faire, et les vrais avantages de Gemini 3 Pro seront probablement dans des flux de travail plus complexes, potentiellement agentiques, plutôt que dans les discussions quotidiennes. »

Les réactions en ligne mélangent des éloges pour les capacités de codage et de raisonnement avec des critiques pour les échecs dans des tâches visuelles simples, comme tracer des flèches dessinées à la main. Google reconnaît des hallucinations continues et des inexactitudes factuelles à des taux similaires à ceux des concurrents. Artur d’Avila Garcez de City St George’s, University of London, met en garde : « Le problème est que toutes les entreprises d'IA essaient de réduire les hallucinations depuis plus de deux ans, mais il suffit d'une hallucination très mauvaise pour détruire la confiance dans le système pour de bon. » Ces problèmes soulèvent des questions sur la justification des investissements massifs dans l'infrastructure d'IA.

Ce site utilise des cookies

Nous utilisons des cookies pour l'analyse afin d'améliorer notre site. Lisez notre politique de confidentialité pour plus d'informations.
Refuser