Google a présenté deux nouvelles unités de traitement tensoriel (Tensor Processing Units), la TPU 8t dédiée à l'entraînement et la TPU 8i dédiée à l'inférence, ciblant ce que l'entreprise appelle l'ère agentique de l'IA. Ces puces de huitième génération succèdent au TPU Ironwood de 2025 et promettent un développement de l'IA plus rapide et plus efficace. Le matériel vise à réduire les temps d'entraînement des grands modèles, passant de mois à quelques semaines.
Google a annoncé mardi les TPU 8t et TPU 8i, les positionnant comme des accélérateurs spécialisés pour les différentes étapes du cycle de vie des modèles d'IA. La TPU 8t se concentre sur l'entraînement des modèles de pointe, avec des grappes de serveurs mises à jour, appelées « pods », hébergeant 9 600 puces et deux pétaoctets de mémoire partagée à large bande passante. Google précise que ces pods délivrent 121 EFlops en FP4, soit près de trois fois plus que la génération précédente Ironwood, et peuvent évoluer de manière linéaire jusqu'à un million de puces dans un seul cluster. L'entreprise revendique un taux de « goodpute » (puissance de calcul utile) de 97 %, grâce à une meilleure gestion de la mémoire, une gestion automatique des pannes et une télémétrie en temps réel sur l'ensemble des puces, ce qui réduit le gaspillage de temps et d'efforts. Les temps d'entraînement pour les modèles d'IA massifs devraient passer de mois à semaines, selon Google. La TPU 8i gère l'inférence, la phase durant laquelle les modèles entraînés génèrent des réponses. Ces puces fonctionnent dans des pods plus larges de 1 152 unités, fournissant 11,6 EFlops par pod. Chaque TPU 8i dispose d'une mémoire SRAM sur puce triplée à 384 Mo, permettant des caches clé-valeur plus volumineux pour les modèles avec des fenêtres de contexte étendues. Pour la première fois, les puces sont exclusivement associées aux processeurs ARM personnalisés Axion de Google, utilisant un CPU pour deux TPU, ce qui, selon Google, améliore l'efficacité globale par rapport à la configuration x86 précédente qui desservait quatre TPU. Les gains d'efficacité s'étendent à l'alimentation et au refroidissement. Les nouvelles TPU offrent deux fois plus de performances par watt qu'Ironwood, tandis que les conceptions de centres de données intégrant le réseau et le calcul ont multiplié par six la puissance de calcul par unité d'électricité. Le refroidissement liquide utilise désormais des vannes à commande active pour adapter le débit d'eau aux charges de travail. Ces puces prendront en charge les agents basés sur Gemini de Google et les développeurs tiers via des frameworks tels que JAX, MaxText, PyTorch, SGLang et vLLM. L'action de Nvidia a brièvement chuté de 1,5 % après l'annonce avant de se redresser.