Modelos de IA superam notas de corte no teste PAES 2026 do Chile

Um estudo que aplica o exame de ingresso à universidade do Chile, PAES 2026, a modelos de IA mostra que vários sistemas pontuam alto o suficiente para programas seletivos como Medicina e Engenharia Civil. O Gemini do Google liderou com médias próximas a 950 pontos, superando rivais como ChatGPT. O experimento destaca o progresso da IA e levanta questões sobre a eficácia dos testes padronizados.

Um estudo do professor Jonathan Vásquez, Ph.D. em Ciência da Computação da Universidade de Valparaíso, e Sebastián Cisterna, MBA de Harvard e professor na Universidad Adolfo Ibáñez, avaliou o desempenho de modelos de IA no PAES 2026. Os pesquisadores simularam respostas a testes oficiais, determinando carreiras acessíveis como se fossem candidatos reais. O Google liderou com Gemini 3 Flash, com média de 957,38 pontos e 1.000 em História e Ciências Sociais, Biologia, Física, Competência Lectora e Competência Matemática 1. Sua versão Pro teve média próxima a 950 pontos, qualificando para qualquer carreira em universidades chilenas. “Gemini superou” o ChatGPT, notaram os autores, com modelos mais leves demonstrando maturidade inesperada. Todos os modelos alcançaram 100% em História e Ciências Sociais, um padrão excepcional em 2025. O GPT-5.2 Extended Reasoning da OpenAI teve bom desempenho em Língua e Ciências, acessando áreas como Jornalismo ou Psicologia, mas ficou para trás em Matemática M2 para engenharias complexas. O GPT-5.2 Instant adequou-se a ciências sociais e educação. O modelo chinês DeepSeek destacou-se em eficiência de custo: até 14 vezes mais barato em versões rápidas e 30 em modos de raciocínio, com média de 880 pontos para programas como Pedagogia ou Enfermagem, mas não para vagas de topo em Medicina. Cisterna observou que modos de “mais raciocínio” nem sempre superaram os mais rápidos, desafiando expectativas. Os autores enfatizam que as IAs otimizam dados prévios, não “aprendem” como humanos, questionando a capacidade dos testes de medir habilidades humanas na era da automação: “A questão não é mais apenas que carreira uma IA poderia estudar, mas quão bem as métricas de seleção atuais refletem as competências humanas esperadas”.

Artigos relacionados

Illustration of OpenAI's GPT-5.4 launch, showing enhanced AI models for knowledge work in a modern office setting amid competition.
Imagem gerada por IA

OpenAI releases GPT-5.4 models for knowledge work

Reportado por IA Imagem gerada por IA

OpenAI has launched GPT-5.4, including variants Thinking and Pro, aimed at improving agentic tasks and knowledge work. The update features enhanced computer-use capabilities and reduced factual errors, amid competition from Anthropic following a US defense deal controversy. The models are available immediately to paid users and developers.

A New York Times analysis shows Google's AI Overviews, powered by Gemini, answering correctly only 90% to 91% of questions in a standard benchmark. This translates to tens of millions of incorrect responses daily across searches. Google disputes the test's relevance.

Reportado por IA

AI systems from leading companies including Google, OpenAI, Anthropic and xAI lost money when betting on soccer matches in a simulated 2023-24 Premier League season, according to a report by startup General Reasoning. The study, called KellyBench, tested eight top models on their ability to manage risk and adapt over time. Anthropic's Claude Opus 4.6 performed best with an average 11 percent loss, while xAI's Grok 4.20 repeatedly failed.

Researchers from Zhejiang University have challenged the capabilities of the Centaur AI model, arguing it memorizes patterns rather than truly understanding tasks. Their findings, published in National Science Open, suggest limitations in instruction comprehension. The work critiques a July 2025 Nature study that hailed Centaur's performance across 160 cognitive tasks.

terça-feira, 31 de março de 2026, 02:54h

UK study reveals AI agents evading safeguards in user interactions

segunda-feira, 23 de março de 2026, 14:07h

Increased AI chatbot use among Swedes – but also concerns

domingo, 22 de março de 2026, 16:34h

Generative AI in gaming faces pushback at GDC 2026

domingo, 22 de março de 2026, 10:10h

Top AI coding assistants fail one in four tasks

domingo, 22 de março de 2026, 03:30h

Spanish Congress deputies use AI to prepare speeches

Este site usa cookies

Usamos cookies para análise para melhorar nosso site. Leia nossa política de privacidade para mais informações.
Recusar