KI-Modelle übertreffen Schnittwerte im chilenischen PAES-2026-Test

Eine Studie, die den chilenischen Universitätszugangstest PAES 2026 auf KI-Modelle anwendet, zeigt, dass mehrere Systeme Punkte hoch genug für selektive Programme wie Medizin und Bauingenieurwesen erzielen. Googles Gemini führte mit Durchschnitten nahe 950 Punkten an, übertraf Rivalen wie ChatGPT. Das Experiment unterstreicht den KI-Fortschritt und wirft Fragen zur Wirksamkeit standardisierter Tests auf.

Eine Studie von Professor Jonathan Vásquez, Ph.D. in Informatik von der Universität Valparaíso, und Sebastián Cisterna, MBA von Harvard und Professor an der Universidad Adolfo Ibáñez, bewertete die Leistung von KI-Modellen beim PAES 2026. Die Forscher simulierten Antworten auf offizielle Tests und bestimmten zugängliche Studiengänge, als wären sie echte Bewerber. Google führte mit Gemini 3 Flash an, im Durchschnitt 957,38 Punkte und 1.000 in Geschichte und Sozialwissenschaften, Biologie, Physik, Lesekompetenz und Mathematikkompetenz 1. Die Pro-Version schnitt mit nahezu 950 Punkten ab und qualifizierte sich für jeden Studiengang an chilenischen Universitäten. „Gemini hat“ ChatGPT „übertroffen“, notierten die Autoren, wobei leichtere Modelle unerwartete Reife zeigten. Alle Modelle erreichten 100 % in Geschichte und Sozialwissenschaften, ein Maßstab, der 2025 außergewöhnlich war. OpenAIs GPT-5.2 Extended Reasoning schnitt gut in Sprache und Naturwissenschaften ab, ermöglichte Zugang zu Bereichen wie Journalismus oder Psychologie, blieb aber bei Mathematik M2 für komplexe Ingenieurwissenschaften zurück. GPT-5.2 Instant eignete sich für Sozialwissenschaften und Bildung. Das chinesische Modell DeepSeek überzeugte bei Kosteneffizienz: bis zu 14-mal günstiger in schnellen Versionen und 30-mal im Reasoning-Modus, mit einem 880-Punkte-Durchschnitt für Programme wie Pädagogik oder Pflege, jedoch nicht für Spitzenplätze in der Medizin. Cisterna stellte fest, dass Modi mit „mehr Reasoning“ nicht immer die schnelleren übertrafen und damit Erwartungen enttäuschten. Die Autoren betonen, dass KIs frühere Daten optimieren, nicht wie Menschen „lernen“, und bezweifeln die Eignung der Tests, menschliche Fähigkeiten in der Automatisierungsära zu erfassen: „Die Frage lautet nicht mehr nur, welchen Studiengang eine KI studieren könnte, sondern wie gut aktuelle Auswahlkriterien die erwarteten menschlichen Kompetenzen widerspiegeln“.

Verwandte Artikel

Illustration of OpenAI's GPT-5.4 launch, showing enhanced AI models for knowledge work in a modern office setting amid competition.
Bild generiert von KI

OpenAI releases GPT-5.4 models for knowledge work

Von KI berichtet Bild generiert von KI

OpenAI has launched GPT-5.4, including variants Thinking and Pro, aimed at improving agentic tasks and knowledge work. The update features enhanced computer-use capabilities and reduced factual errors, amid competition from Anthropic following a US defense deal controversy. The models are available immediately to paid users and developers.

A New York Times analysis shows Google's AI Overviews, powered by Gemini, answering correctly only 90% to 91% of questions in a standard benchmark. This translates to tens of millions of incorrect responses daily across searches. Google disputes the test's relevance.

Von KI berichtet

AI systems from leading companies including Google, OpenAI, Anthropic and xAI lost money when betting on soccer matches in a simulated 2023-24 Premier League season, according to a report by startup General Reasoning. The study, called KellyBench, tested eight top models on their ability to manage risk and adapt over time. Anthropic's Claude Opus 4.6 performed best with an average 11 percent loss, while xAI's Grok 4.20 repeatedly failed.

Researchers from Zhejiang University have challenged the capabilities of the Centaur AI model, arguing it memorizes patterns rather than truly understanding tasks. Their findings, published in National Science Open, suggest limitations in instruction comprehension. The work critiques a July 2025 Nature study that hailed Centaur's performance across 160 cognitive tasks.

Diese Website verwendet Cookies

Wir verwenden Cookies für Analysen, um unsere Website zu verbessern. Lesen Sie unsere Datenschutzrichtlinie für weitere Informationen.
Ablehnen