Der chinesische GPU-Entwickler Moore Threads hat seine Huagang-Architektur vorgestellt, die signifikante Fortschritte in Gaming- und KI-Leistung verspricht. Geplant für einen Start 2026, zielt das Design auf Unabhängigkeit bei Halbleitern inmitten globaler Exportbeschränkungen ab. Obwohl Details spärlich sind, hob das Unternehmen ambitionierte Benchmarks für kommende Produkte hervor.
Auf der jüngsten MUSA Developer Conference präsentierte Moore Threads seine Next-Generation-Huagang-Architektur, in manchen Übersetzungen als „Flowerpot“ bezeichnet. Diese Plattform soll sowohl Gaming- als auch KI-Anwendungen antreiben, mit einem vollständigen Rollout geplant für 2026. Die Ankündigung konzentrierte sich auf Leistungsprognosen statt detaillierter technischer Analysen und unterstreicht Chinas Bemühungen, heimische GPU-Fähigkeiten aufzubauen angesichts internationaler Restriktionen.
Im Zentrum der Vorstellung steht die Lushan-Gaming-GPU, die die bestehenden MTT S80- und S90-Modelle ersetzen wird. Moore Threads behauptet, Lushan liefere eine 15-fache Steigerung der Rendergeschwindigkeit bei AAA-Spielen und eine 50-fache Verbesserung der Raytracing-Fähigkeiten. Sie integriert einen Raytracing-Hardware-Engine der zweiten Generation sowie vollständige DirectX 12 Ultimate-Kompatibilität für bessere Software-Integration. Der Speicherumfang soll 64 GB erreichen, was die aktuellen 16 GB GDDR6 der Vorgängermodelle vervierfacht. Weitere gerühmte Verbesserungen umfassen 64-mal schnellere KI-Berechnungen, 16-mal besseres Geometrie-Processing, vier-mal höhere Textur-Fillrates und acht-mal schnellere atomare Speicheroperationen. Die Architektur führt UniTE ein, ein einheitliches Renderingsystem mit integrierter KI-Verarbeitungseinheit.
Ergänzend dazu verfügt die Huashan-KI-GPU über eine Dual-Chiplet-Konfiguration mit neun HBM-Modulen. Das Unternehmen gibt an, ihre Leistung rivalisiere die Nvidia-Hopper- und Blackwell-Serien, mit einer Speicherbandbreite, die die des Nvidia B200 übertrifft. Huashan unterstützt Präzisionsformate von FP4 bis FP64, einschließlich proprietärer MTFP4-, MTFP6- und MTFP8-Optionen. Die Skalierbarkeit reicht bis zu Clustern mit über 100.000 Einheiten über MTLink 4.0 mit 1.314 GB/s Interconnect-Geschwindigkeit. Im Vergleich zu aktuellen Angeboten verspricht sie eine 50-prozentige Steigerung der Rechedichte und zehnfache Effizienzverbesserungen.
Obwohl keine Gaming-Demos gezeigt wurden, lief ein Benchmark auf der bevorstehenden MTT S5000-GPU – unabhängig von Huashan – das DeepSeek V3-Modell mit 1.000 Tokens pro Sekunde beim Dekodieren und 4.000 beim Prefill, was die Nvidia-Hopper-Leistung leicht übertrifft. Diese Entwicklungen spiegeln Pekings Streben nach technologischer Unabhängigkeit wider, wobei die Behauptungen noch auf Validierung warten, wenn die Produkte marktreif werden.