Gate News-Mitteilung, 24. April — Der technische Bericht von DeepSeek über V4 zeigt, dass V4-Flash und V4-Pro jeweils auf 32T- bzw. 33T-Token vortrainiert wurden, also doppelt so viele wie die ungefähr 15T-Token, die für V3 verwendet wurden. Der Bericht räumt ein, dass es während des Trainings zu „erheblichen Instabilitätsproblemen“ kam, wobei es wiederholt zu Verlust-Spikes kam, die auf Anomalien in der Mixture-of-Experts (MoE)-Schicht zurückzuführen sind; der Routing-Mechanismus selbst verschärft diese Anomalien, und ein simples Rollback kann das Problem nicht beheben.
DeepSeek hat jetzt zwei Lösungen implementiert, die im tatsächlichen Training eingesetzt werden: Antizipatives Routing, das die Berechnung des Routing-Index von Updates des Backbone-Netzwerks entkoppelt und automatisch nur dann auslöst, wenn Verlust-Spikes erkannt werden (wobei ein zusätzlicher Overhead von etwa 20% entsteht), sowie SwiGLU-Clamping, das Anomalien direkt unterdrückt, indem Aktivierungswerte auf einen festen Wertebereich eingeklemmt werden. Der Bericht besagt, dass beide Ansätze wirksam sind, räumt jedoch ein: „Die zugrunde liegenden Prinzipien sind weiterhin nicht ausreichend verstanden.“
Susan Zhang, eine Forscherin bei Google DeepMind, die zuvor bei Meta AI und OpenAI gearbeitet hat, kommentierte, dass die Instabilität, die durch das Verdoppeln der Trainingsdaten ausgelöst wurde, „die Verzögerung erklärt.“ Sie bezeichnete die beiden Lösungen als „Pflaster“, während sie zugleich anerkennt, wie transparent DeepSeek technisch ist.