Google ha presentado dos nuevas unidades de procesamiento tensorial, la TPU 8t para entrenamiento y la TPU 8i para inferencia, orientadas a lo que la empresa denomina la era de la IA de agentes. Estos chips de octava generación suceden a la TPU Ironwood de 2025 y prometen un desarrollo de IA más rápido y eficiente. El hardware tiene como objetivo reducir los tiempos de entrenamiento de modelos grandes de meses a semanas.
Google anunció el martes las TPU 8t y TPU 8i, posicionándolas como aceleradores especializados para las diferentes etapas del ciclo de vida de los modelos de IA. La TPU 8t se centra en el entrenamiento de modelos de vanguardia, con clústeres de servidores actualizados llamados pods que albergan 9,600 chips y dos petabytes de memoria compartida de gran ancho de banda. Google afirma que estos pods ofrecen 121 FP4 EFlops de cómputo, casi tres veces más que la generación anterior Ironwood, y pueden escalarse linealmente hasta un millón de chips en un solo clúster. La empresa asegura una tasa de 'goodpute' (cómputo útil) del 97 por ciento, gracias a una mejor gestión de la memoria, la gestión automática de fallos y la telemetría en tiempo real a través de los chips, lo que reduce el tiempo y el esfuerzo desperdiciados. Según Google, se espera que los tiempos de entrenamiento para modelos de IA masivos se reduzcan de meses a semanas. La TPU 8i se encarga de la inferencia, la fase en la que los modelos entrenados generan respuestas. Estos chips operan en pods más grandes de 1,152 unidades, proporcionando 11.6 EFlops por pod. Cada TPU 8i cuenta con el triple de memoria SRAM en el chip, alcanzando los 384 MB, lo que permite cachés clave-valor más grandes para modelos con ventanas de contexto extendidas. Por primera vez, los chips se combinan exclusivamente con las CPUs ARM personalizadas Axion de Google, utilizando una CPU por cada dos TPU, lo que, según Google, aumenta la eficiencia general en comparación con la configuración x86 anterior que servía a cuatro TPU. Las mejoras de eficiencia se extienden a la energía y la refrigeración. Las nuevas TPU ofrecen el doble de rendimiento por vatio que Ironwood, mientras que los diseños de centros de datos que integran redes y cómputo han multiplicado por seis la potencia informática por unidad de electricidad. La refrigeración líquida utiliza ahora válvulas de control activo para adaptar el flujo de agua a las cargas de trabajo. Estos chips serán compatibles con los agentes basados en Gemini de Google y con desarrolladores externos mediante marcos como JAX, MaxText, PyTorch, SGLang y vLLM. Las acciones de Nvidia cayeron brevemente un 1.5 por ciento tras la noticia, pero luego se recuperaron.