Les modèles d’IA surpassent les scores de coupure au test PAES 2026 du Chili

Une étude appliquant l’examen d’entrée à l’université chilien, PAES 2026, aux modèles d’IA montre que plusieurs systèmes obtiennent des scores suffisamment élevés pour des programmes sélectifs comme la médecine et l’ingénierie civile. Gemini de Google a mené avec des moyennes proches de 950 points, surpassant des rivaux comme ChatGPT. L’expérience souligne les progrès de l’IA et soulève des questions sur l’efficacité des tests standardisés.

Une étude du professeur Jonathan Vásquez, Ph.D. en informatique de l’Université de Valparaíso, et de Sebastián Cisterna, MBA de Harvard et professeur à l’Universidad Adolfo Ibáñez, a évalué les performances des modèles d’IA sur le PAES 2026. Les chercheurs ont simulé des réponses aux tests officiels, déterminant les carrières accessibles comme s’ils étaient de vrais candidats. Google a mené avec Gemini 3 Flash, en moyenne 957,38 points et 1 000 en Histoire et sciences sociales, Biologie, Physique, Compétence de lecture et Compétence en mathématiques 1. Sa version Pro a fait en moyenne près de 950 points, se qualifiant pour n’importe quelle carrière dans les universités chiliennes. « Gemini a surpassé » ChatGPT, ont noté les auteurs, les modèles plus légers montrant une maturité inattendue. Tous les modèles ont obtenu 100 % en Histoire et sciences sociales, un standard exceptionnel en 2025. Le GPT-5.2 Extended Reasoning d’OpenAI a bien performé en Langue et Sciences, accédant à des domaines comme le Journalisme ou la Psychologie, mais a été à la traîne en Mathématiques M2 pour les ingénieries complexes. GPT-5.2 Instant convenait aux sciences sociales et à l’éducation. Le modèle chinois DeepSeek a excellé en efficacité coût : jusqu’à 14 fois moins cher en versions rapides et 30 en modes de raisonnement, avec une moyenne de 880 points pour des programmes comme Pédagogie ou Soins infirmiers, mais pas les premières places en Médecine. Cisterna a observé que les modes « plus de raisonnement » n’ont pas toujours surpassé les plus rapides, contredisant les attentes. Les auteurs insistent sur le fait que les IA optimisent les données antérieures, sans « apprendre » comme les humains, remettant en question la capacité des tests à mesurer les compétences humaines à l’ère de l’automatisation : « La question n’est plus seulement quelle carrière une IA pourrait étudier, mais dans quelle mesure les métriques de sélection actuelles reflètent les compétences humaines attendues ».

Articles connexes

Illustration of OpenAI's GPT-5.4 launch, showing enhanced AI models for knowledge work in a modern office setting amid competition.
Image générée par IA

OpenAI releases GPT-5.4 models for knowledge work

Rapporté par l'IA Image générée par IA

OpenAI has launched GPT-5.4, including variants Thinking and Pro, aimed at improving agentic tasks and knowledge work. The update features enhanced computer-use capabilities and reduced factual errors, amid competition from Anthropic following a US defense deal controversy. The models are available immediately to paid users and developers.

A New York Times analysis shows Google's AI Overviews, powered by Gemini, answering correctly only 90% to 91% of questions in a standard benchmark. This translates to tens of millions of incorrect responses daily across searches. Google disputes the test's relevance.

Rapporté par l'IA

AI systems from leading companies including Google, OpenAI, Anthropic and xAI lost money when betting on soccer matches in a simulated 2023-24 Premier League season, according to a report by startup General Reasoning. The study, called KellyBench, tested eight top models on their ability to manage risk and adapt over time. Anthropic's Claude Opus 4.6 performed best with an average 11 percent loss, while xAI's Grok 4.20 repeatedly failed.

Researchers from Zhejiang University have challenged the capabilities of the Centaur AI model, arguing it memorizes patterns rather than truly understanding tasks. Their findings, published in National Science Open, suggest limitations in instruction comprehension. The work critiques a July 2025 Nature study that hailed Centaur's performance across 160 cognitive tasks.

Ce site utilise des cookies

Nous utilisons des cookies pour l'analyse afin d'améliorer notre site. Lisez notre politique de confidentialité pour plus d'informations.
Refuser