Google telah meluncurkan dua Tensor Processing Unit baru, yakni TPU 8t untuk pelatihan dan TPU 8i untuk inferensi, yang menyasar apa yang disebut perusahaan tersebut sebagai era AI agentik. Chip generasi kedelapan ini merupakan penerus Ironwood TPU dari tahun 2025 dan menjanjikan pengembangan AI yang lebih cepat dan efisien. Perangkat keras ini bertujuan untuk memangkas waktu pelatihan model berskala besar dari hitungan bulan menjadi minggu.
Google mengumumkan TPU 8t dan TPU 8i pada hari Selasa, memposisikannya sebagai akselerator khusus untuk tahapan yang berbeda dalam siklus hidup model AI. TPU 8t berfokus pada pelatihan model perbatasan, dengan klaster server terbaru yang disebut pod yang menampung 9.600 chip dan dua petabyte memori bandwidth tinggi bersama. Google menyatakan bahwa pod ini memberikan komputasi sebesar 121 FP4 EFlops, hampir tiga kali lipat lebih tinggi dibandingkan generasi Ironwood sebelumnya, dan dapat berskala secara linear hingga satu juta chip dalam satu klaster. Perusahaan mengklaim tingkat 'goodpute' mencapai 97 persen, berkat penanganan memori yang ditingkatkan, manajemen kesalahan otomatis, dan telemetri waktu nyata di seluruh chip, sehingga mengurangi waktu dan upaya yang terbuang. Waktu pelatihan untuk model AI masif diperkirakan akan turun dari bulan menjadi minggu, ungkap Google. TPU 8i menangani inferensi, fase di mana model yang telah dilatih menghasilkan respons. Chip ini beroperasi dalam pod yang lebih besar berisi 1.152 unit, menyediakan 11,6 EFlops per pod. Setiap TPU 8i memiliki SRAM di dalam chip tiga kali lipat lebih besar yaitu 384 MB, yang memungkinkan cache key-value yang lebih besar untuk model dengan jendela konteks yang diperluas. Untuk pertama kalinya, chip ini dipasangkan secara eksklusif dengan CPU ARM Axion kustom Google, menggunakan satu CPU untuk setiap dua TPU, yang menurut Google meningkatkan efisiensi keseluruhan dibandingkan pengaturan x86 sebelumnya yang melayani empat TPU. Peningkatan efisiensi juga mencakup daya dan pendinginan. TPU baru ini menawarkan performa per watt dua kali lipat lebih baik dibandingkan Ironwood, sementara desain pusat data yang mengintegrasikan jaringan dan komputasi telah meningkatkan daya komputasi per unit listrik sebanyak enam kali lipat. Pendinginan cair kini menggunakan katup yang dikontrol secara aktif untuk menyesuaikan aliran air dengan beban kerja. Chip ini akan mendukung agen berbasis Gemini milik Google serta pengembang pihak ketiga melalui kerangka kerja seperti JAX, MaxText, PyTorch, SGLang, dan vLLM. Saham Nvidia sempat turun 1,5 persen sesaat setelah berita ini muncul namun kembali pulih.