Gate News-Meldung, 23. April — DeepSeek hat TileKernels unter der MIT-Lizenz Open Source gestellt: eine GPU-Kernel-Bibliothek, die in TileLang geschrieben ist und für das Training und die Inferenz großer Sprachmodelle entwickelt wurde. TileLang ist eine domänenspezifische Sprache, die vom tile-ai-Team entwickelt wurde, um leistungsstarke GPU-Kernels auszudrücken in Python. DeepSeek erklärte, dass die meisten Kernels in der Bibliothek die Hardware-Leistungsgrenzen in Bezug auf Rechendichte und Speicherbandbreite erreicht haben, wobei Teile bereits in internen Trainings- und Inferenzoperationen eingesetzt werden.
Die Bibliothek umfasst sechs Kategorien von Kernels: MoE (Mixture of Experts)-Gating und Routing, einschließlich Top-k-Expertenauswahl, Token-zu-Experten-Mapping sowie gefusedes Expand/Shrink mit Weight-Normalisierung; Quantisierung, die FP8-, FP4- und E5M6-Formate unterstützt, mit Quantisierung pro Token, pro Block und pro Kanal, einschließlich gefuserter SwiGLU+Quantisierungsoperationen; Batch-Transpose; Engram-Gating mit gefusedem RMSNorm-Vorwärts-/Rückwärts-Propagation und Reduktion des Weight-Gradienten; Manifold HyperConnection mit Sinkhorn-Normalisierung und gemischtem Split/Apply; sowie High-Level-Autograd-Schnittstellen, die Low-Level-Kernels in trainierbare Layer einhüllen.
Engram und Manifold HyperConnection sind proprietäre Komponenten der Modellarchitektur von DeepSeek; Implementierungsdetails wurden erstmals öffentlich offengelegt. Die Bibliothek benötigt NVIDIA-SM90- oder SM100-Architektur-GPUs (H100/H200 oder Blackwell-Serie), CUDA Toolkit 13.1 oder höher sowie PyTorch 2.10 oder höher.