DeepSeek V4 startet mit einem 1M-Kontextfenster; Huawei Ascend- und Cambricon-Chips erreichen vollständige Kompatibilität

Gate News Nachricht, 24. April — DeepSeek V4-Pro und DeepSeek V4-Flash wurden am 24. April offiziell veröffentlicht und Open-Source gestellt; die Länge der Kontextverarbeitung wurde deutlich von 128K auf 1M erweitert, was einer nahezu 10-fachen Kapazitätserhöhung entspricht. Huawei Computing kündigte an, dass seine Ascend-Supernode-Produkte die DeepSeek-V4-Serienmodelle vollständig unterstützen, durch enge Zusammenarbeit zwischen Chip- und Modelltechnologien.

Huawei Ascend 950 erreicht ein Deployment für DeepSeek-V4-Modell-Inferenz mit hohem Durchsatz und geringer Latenz durch Techniken wie fusionierte Kernel und Multi-Stream-Parallelität, um den Overhead für Attention-Berechnungen und Speicherzugriffe zu reduzieren. Für DeepSeek V4-Pro mit 8K-Eingabe erreicht Ascend 950 ungefähr 20ms TPOT mit 4.700 TPS Single-Card-Decode-Durchsatz; für DeepSeek V4-Flash bei 8K-Eingabe erreicht es ungefähr 10ms TPOT mit 1.600 TPS-Durchsatz. Die Ascend-A3-Supernode-Serie erreicht ebenfalls eine vollständige Kompatibilität, wobei Trainings-Referenzimplementierungen für schnelles Fine-Tuning bereitgestellt werden. Basierend auf der Ascend-A3-64-Card-Supernode mit großem EP-Modus erreicht DeepSeek V4-Flash in Szenarien mit 8K/1K Input-Output über 2.000 TPS Single-Card-Decode-Durchsatz unter Verwendung der vLLM-Inferenz-Engine. Huawei unterstützt mit seiner kompletten Ascend-A2-, A3- und 950-Produktpalette sowohl DeepSeek V4-Flash als auch V4-Pro.

Huawei Cloud kündigte die Vorreiter-Kompatibilität mit DeepSeek V4 an und bietet Entwicklern über seine MaaS-Plattform Ein-Klick-API-Token-Services. Huawei Cloud optimierte Systemebenen-, Operator- und Cluster-Ebene-Fähigkeiten, um eine schnelle Modelladaption und ein leistungsstarkes Deployment sicherzustellen. Unternehmen einschließlich Kingsoft WPS und 360 haben DeepSeeks neues Modell bereits über Huawei Cloud integriert.

Cambricon kündigte ebenfalls die Day-0-Kompatibilität mit DeepSeek V4-Flash und V4-Pro auf Basis des vLLM-Inferenz-Frameworks an, wobei Anpassungscode Open-Source für die GitHub-Community bereitgestellt wurde. Cambricon hatte zuvor eine Vorreiter-Anpassung erreicht, als DeepSeek V3.2 im vergangenen Jahr veröffentlicht wurde; dabei wurde eine tiefgreifende Software-Hardware-kooperative Performance-Optimierung an DeepSeek-Serienmodellen durchgeführt.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare