Eine Studie, die den chilenischen Universitätszugangstest PAES 2026 auf KI-Modelle anwendet, zeigt, dass mehrere Systeme Punkte hoch genug für selektive Programme wie Medizin und Bauingenieurwesen erzielen. Googles Gemini führte mit Durchschnitten nahe 950 Punkten an, übertraf Rivalen wie ChatGPT. Das Experiment unterstreicht den KI-Fortschritt und wirft Fragen zur Wirksamkeit standardisierter Tests auf.
Eine Studie von Professor Jonathan Vásquez, Ph.D. in Informatik von der Universität Valparaíso, und Sebastián Cisterna, MBA von Harvard und Professor an der Universidad Adolfo Ibáñez, bewertete die Leistung von KI-Modellen beim PAES 2026. Die Forscher simulierten Antworten auf offizielle Tests und bestimmten zugängliche Studiengänge, als wären sie echte Bewerber. Google führte mit Gemini 3 Flash an, im Durchschnitt 957,38 Punkte und 1.000 in Geschichte und Sozialwissenschaften, Biologie, Physik, Lesekompetenz und Mathematikkompetenz 1. Die Pro-Version schnitt mit nahezu 950 Punkten ab und qualifizierte sich für jeden Studiengang an chilenischen Universitäten. „Gemini hat“ ChatGPT „übertroffen“, notierten die Autoren, wobei leichtere Modelle unerwartete Reife zeigten. Alle Modelle erreichten 100 % in Geschichte und Sozialwissenschaften, ein Maßstab, der 2025 außergewöhnlich war. OpenAIs GPT-5.2 Extended Reasoning schnitt gut in Sprache und Naturwissenschaften ab, ermöglichte Zugang zu Bereichen wie Journalismus oder Psychologie, blieb aber bei Mathematik M2 für komplexe Ingenieurwissenschaften zurück. GPT-5.2 Instant eignete sich für Sozialwissenschaften und Bildung. Das chinesische Modell DeepSeek überzeugte bei Kosteneffizienz: bis zu 14-mal günstiger in schnellen Versionen und 30-mal im Reasoning-Modus, mit einem 880-Punkte-Durchschnitt für Programme wie Pädagogik oder Pflege, jedoch nicht für Spitzenplätze in der Medizin. Cisterna stellte fest, dass Modi mit „mehr Reasoning“ nicht immer die schnelleren übertrafen und damit Erwartungen enttäuschten. Die Autoren betonen, dass KIs frühere Daten optimieren, nicht wie Menschen „lernen“, und bezweifeln die Eignung der Tests, menschliche Fähigkeiten in der Automatisierungsära zu erfassen: „Die Frage lautet nicht mehr nur, welchen Studiengang eine KI studieren könnte, sondern wie gut aktuelle Auswahlkriterien die erwarteten menschlichen Kompetenzen widerspiegeln“.