Une étude appliquant l’examen d’entrée à l’université chilien, PAES 2026, aux modèles d’IA montre que plusieurs systèmes obtiennent des scores suffisamment élevés pour des programmes sélectifs comme la médecine et l’ingénierie civile. Gemini de Google a mené avec des moyennes proches de 950 points, surpassant des rivaux comme ChatGPT. L’expérience souligne les progrès de l’IA et soulève des questions sur l’efficacité des tests standardisés.
Une étude du professeur Jonathan Vásquez, Ph.D. en informatique de l’Université de Valparaíso, et de Sebastián Cisterna, MBA de Harvard et professeur à l’Universidad Adolfo Ibáñez, a évalué les performances des modèles d’IA sur le PAES 2026. Les chercheurs ont simulé des réponses aux tests officiels, déterminant les carrières accessibles comme s’ils étaient de vrais candidats. Google a mené avec Gemini 3 Flash, en moyenne 957,38 points et 1 000 en Histoire et sciences sociales, Biologie, Physique, Compétence de lecture et Compétence en mathématiques 1. Sa version Pro a fait en moyenne près de 950 points, se qualifiant pour n’importe quelle carrière dans les universités chiliennes. « Gemini a surpassé » ChatGPT, ont noté les auteurs, les modèles plus légers montrant une maturité inattendue. Tous les modèles ont obtenu 100 % en Histoire et sciences sociales, un standard exceptionnel en 2025. Le GPT-5.2 Extended Reasoning d’OpenAI a bien performé en Langue et Sciences, accédant à des domaines comme le Journalisme ou la Psychologie, mais a été à la traîne en Mathématiques M2 pour les ingénieries complexes. GPT-5.2 Instant convenait aux sciences sociales et à l’éducation. Le modèle chinois DeepSeek a excellé en efficacité coût : jusqu’à 14 fois moins cher en versions rapides et 30 en modes de raisonnement, avec une moyenne de 880 points pour des programmes comme Pédagogie ou Soins infirmiers, mais pas les premières places en Médecine. Cisterna a observé que les modes « plus de raisonnement » n’ont pas toujours surpassé les plus rapides, contredisant les attentes. Les auteurs insistent sur le fait que les IA optimisent les données antérieures, sans « apprendre » comme les humains, remettant en question la capacité des tests à mesurer les compétences humaines à l’ère de l’automatisation : « La question n’est plus seulement quelle carrière une IA pourrait étudier, mais dans quelle mesure les métriques de sélection actuelles reflètent les compétences humaines attendues ».