Google dévoile les puces TPU 8t et TPU 8i pour l'IA agentique

Google a présenté deux nouvelles unités de traitement tensoriel (Tensor Processing Units), la TPU 8t dédiée à l'entraînement et la TPU 8i dédiée à l'inférence, ciblant ce que l'entreprise appelle l'ère agentique de l'IA. Ces puces de huitième génération succèdent au TPU Ironwood de 2025 et promettent un développement de l'IA plus rapide et plus efficace. Le matériel vise à réduire les temps d'entraînement des grands modèles, passant de mois à quelques semaines.

Google a annoncé mardi les TPU 8t et TPU 8i, les positionnant comme des accélérateurs spécialisés pour les différentes étapes du cycle de vie des modèles d'IA. La TPU 8t se concentre sur l'entraînement des modèles de pointe, avec des grappes de serveurs mises à jour, appelées « pods », hébergeant 9 600 puces et deux pétaoctets de mémoire partagée à large bande passante. Google précise que ces pods délivrent 121 EFlops en FP4, soit près de trois fois plus que la génération précédente Ironwood, et peuvent évoluer de manière linéaire jusqu'à un million de puces dans un seul cluster. L'entreprise revendique un taux de « goodpute » (puissance de calcul utile) de 97 %, grâce à une meilleure gestion de la mémoire, une gestion automatique des pannes et une télémétrie en temps réel sur l'ensemble des puces, ce qui réduit le gaspillage de temps et d'efforts. Les temps d'entraînement pour les modèles d'IA massifs devraient passer de mois à semaines, selon Google. La TPU 8i gère l'inférence, la phase durant laquelle les modèles entraînés génèrent des réponses. Ces puces fonctionnent dans des pods plus larges de 1 152 unités, fournissant 11,6 EFlops par pod. Chaque TPU 8i dispose d'une mémoire SRAM sur puce triplée à 384 Mo, permettant des caches clé-valeur plus volumineux pour les modèles avec des fenêtres de contexte étendues. Pour la première fois, les puces sont exclusivement associées aux processeurs ARM personnalisés Axion de Google, utilisant un CPU pour deux TPU, ce qui, selon Google, améliore l'efficacité globale par rapport à la configuration x86 précédente qui desservait quatre TPU. Les gains d'efficacité s'étendent à l'alimentation et au refroidissement. Les nouvelles TPU offrent deux fois plus de performances par watt qu'Ironwood, tandis que les conceptions de centres de données intégrant le réseau et le calcul ont multiplié par six la puissance de calcul par unité d'électricité. Le refroidissement liquide utilise désormais des vannes à commande active pour adapter le débit d'eau aux charges de travail. Ces puces prendront en charge les agents basés sur Gemini de Google et les développeurs tiers via des frameworks tels que JAX, MaxText, PyTorch, SGLang et vLLM. L'action de Nvidia a brièvement chuté de 1,5 % après l'annonce avant de se redresser.

Articles connexes

Illustration of OpenAI's GPT-5.4 launch, showing enhanced AI models for knowledge work in a modern office setting amid competition.
Image générée par IA

OpenAI releases GPT-5.4 models for knowledge work

Rapporté par l'IA Image générée par IA

OpenAI has launched GPT-5.4, including variants Thinking and Pro, aimed at improving agentic tasks and knowledge work. The update features enhanced computer-use capabilities and reduced factual errors, amid competition from Anthropic following a US defense deal controversy. The models are available immediately to paid users and developers.

Experts argue that physical AI, involving robots and autonomous machines interacting with the real world, may provide a direct path to artificial general intelligence. Elon Musk's comments on Tesla's Optimus robots highlight this potential, amid growing investments in related technologies. The year 2026 is seen as a key inflection point for the field.

Rapporté par l'IA

Building on last week's earnings report announcing the shift from EVs to AI and robotics, Tesla has outlined specifics on its custom AI5 and AI6 chips, next-gen Optimus robot, and ambitious 'general solution' for self-driving and bipedal robotics. The $20 billion 2026 investment underscores this transformation amid ongoing EV challenges.

Nvidia has described AI as a five-layer industrial system. CEO Jensen detailed the AI layered stack and hinted at the company's next moves. The firm eyes expansion across technology layers, akin to Amazon beyond cloud services.

Rapporté par l'IA

Bytedance, the Chinese parent company of TikTok, is reportedly partnering with a Singapore-based firm to acquire NVIDIA's advanced B200 AI chips for use in Malaysia, bypassing US export restrictions. This arrangement aims to support AI research and development outside China. The project involves significant investment and adheres to export regulations.

Ce site utilise des cookies

Nous utilisons des cookies pour l'analyse afin d'améliorer notre site. Lisez notre politique de confidentialité pour plus d'informations.
Refuser