Laut Investor-Relations-Offenlegungen vom 12. Mai übernimmt der Inferenzchip in Entwicklung von Yuntianliyifei eine GPNPU-Architektur als Kern der Technologie-Roadmap. Zu den wichtigsten technischen Highlights zählen eine universelle Programmierfähigkeit auf GPGPU-Niveau, die mit gängigen CUDA-Ökosystemen kompatibel ist, optimierte NPU-Cores für eine hohe Inferenz-Effizienz sowie eine 3D-gestapelte Speicherarchitektur, die auf mehr Bandbreite und geringere Zugriffs-Latenz ausgelegt ist und dadurch die Memory-Wall-Engstelle durchbricht.
Das Unternehmen setzt zudem auf eine Compute-modulare Architektur, um Rack-Level-Scale-up für die Errichtung von Supernodes auf Trillion- und Hundred-Trillion-Skala für MoE-Modell-Inferenz zu unterstützen. Die Technologie-Roadmap zielt darauf ab, die Token-Kosten exponentiell zu senken und die Bereitstellung großer Modellanwendungen zu beschleunigen.