Googleは、同社が提唱する「AIエージェント時代」を見据え、学習用チップ「TPU 8t」と推論用チップ「TPU 8i」という2種類の新型Tensor Processing Unitを発表しました。これら第8世代のチップは2025年の「Ironwood」TPUの後継にあたり、AI開発のさらなる高速化と効率化を目指しています。このハードウェアにより、大規模モデルの学習期間を数ヶ月から数週間に短縮することが期待されています。
Googleは火曜日、AIモデルのライフサイクルの各段階に特化したアクセラレータとして「TPU 8t」と「TPU 8i」を発表しました。TPU 8tは最先端モデルの学習に焦点を当てており、9,600基のチップと2ペタバイトの共有広帯域メモリを搭載した新しいサーバークラスター「ポッド」を採用しています。Googleによると、これらのポッドは121 FP4 EFlopsの演算能力を提供し、前世代のIronwoodと比較して約3倍の性能を実現しており、単一クラスターで最大100万チップまでリニアに拡張可能です。同社は、改善されたメモリ管理、自動障害管理、チップ間のリアルタイムテレメトリにより、97%の「グッドプート(有効な計算量)」を達成し、時間と労力の無駄を削減できると主張しています。また、大規模AIモデルの学習時間が数ヶ月から数週間に短縮される見込みです。一方、TPU 8iは学習済みモデルが応答を生成する推論フェーズを担います。これらのチップは1,152基のポッドで構成され、1ポッドあたり11.6 EFlopsの性能を提供します。各TPU 8iはオンチップSRAMを従来の3倍となる384MBに拡大しており、より長いコンテキストウィンドウを持つモデルに対して大規模なキーバリューキャッシュを実現しました。初めての試みとして、これらのチップはGoogle独自のARM CPU「Axion」と専用ペアリングされ、TPU 2基に対してCPU 1基を組み合わせる構成を採用しています。これにより、従来のx86セットアップでTPU 4基を制御していた構成と比較して、全体的な効率が向上したとGoogleは説明しています。効率の向上は電力と冷却にも及びます。新型TPUのワットあたりの性能はIronwoodの2倍となり、ネットワークとコンピューティングを統合したデータセンター設計では、電力あたりの計算能力が6倍に高まりました。液冷システムにはアクティブ制御バルブが導入され、ワークロードに合わせて水流を調整することが可能です。これらのチップはGoogleのGeminiベースのエージェントをサポートし、JAX、MaxText、PyTorch、SGLang、vLLMといったフレームワークを通じてサードパーティの開発者にも提供される予定です。このニュースを受け、NVIDIAの株価は一時1.5%下落しましたが、その後回復しました。