Google ha presentado su último modelo de IA, Gemini 3, que supera a sus rivales en varios benchmarks clave, incluyendo una puntuación del 37,5 por ciento en Humanity’s Last Exam. La compañía afirma que alcanza un razonamiento a nivel de doctorado, aunque los expertos advierten que tales puntuaciones pueden no reflejar las capacidades en el mundo real. Las alucinaciones persistentes siguen siendo una preocupación para las aplicaciones prácticas.
En una reciente publicación en su blog, los ejecutivos de Google Sundar Pichai, Demis Hassabis y Koray Kavukcuoglu anunciaron el lanzamiento de Gemini 3, destacando su rendimiento superior en pruebas a nivel de posgrado. El modelo obtuvo un 37,5 por ciento en Humanity’s Last Exam, un conjunto de 2.500 preguntas a nivel de investigación en matemáticas, ciencias y humanidades, superando a GPT-5 de OpenAI, que alcanzó el 26,5 por ciento.
Expertos como Luc Rocher de la Universidad de Oxford enfatizan las limitaciones de estos benchmarks. “Si un modelo pasa del 80 por ciento al 90 por ciento en un benchmark, ¿qué significa? ¿Significa que un modelo era 80 por ciento a nivel de doctorado y ahora es 90 por ciento a nivel de doctorado? Creo que es bastante difícil de entender”, dijo Rocher. Agregó: “No hay un número que podamos asignar para determinar si un modelo de IA tiene razonamiento, porque esto es una noción muy subjetiva”. Los benchmarks a menudo se basan en formatos de opción múltiple que no requieren mostrar el trabajo, y existe el riesgo de que los datos de entrenamiento incluyan respuestas de las pruebas, permitiendo que los modelos hagan trampa de manera efectiva.
Google afirma que las mejoras de Gemini 3 mejorarán la producción de software, la organización de correos electrónicos, el análisis de documentos y la búsqueda de Google mediante gráficos y simulaciones añadidos. Adam Mahdi de la Universidad de Oxford predice beneficios en flujos de trabajo de codificación agentica en lugar de charlas casuales: “Creo que estamos alcanzando el límite superior de lo que un chatbot típico puede hacer, y los verdaderos beneficios de Gemini 3 Pro probablemente estén en flujos de trabajo más complejos, potencialmente agenticos, en lugar de charlas cotidianas”.
Las reacciones en línea mezclan elogios por las habilidades de codificación y razonamiento con críticas por fallos en tareas visuales simples, como trazar flechas dibujadas a mano. Google reconoce alucinaciones continuas e inexactitudes factuales a tasas similares a las de los competidores. Artur d’Avila Garcez de City St George’s, University of London, advierte: “El problema es que todas las empresas de IA han estado tratando de reducir las alucinaciones durante más de dos años, pero solo se necesita una alucinación muy mala para destruir la confianza en el sistema para siempre”. Estos problemas plantean preguntas sobre la justificación de las masivas inversiones en infraestructura de IA.