Los datos de entrenamiento de DeepSeek V4 se duplicaron hasta 33T, lo que provocó una inestabilidad que retrasó el lanzamiento

Mensaje de Gate News, 24 de abril — El informe técnico de V4 de DeepSeek revela que V4-Flash y V4-Pro fueron preentrenados con 32T y 33T tokens, respectivamente, duplicando los aproximadamente 15T tokens usados para V3. El informe reconoce haber encontrado "retos importantes de inestabilidad" durante el entrenamiento, con picos de pérdida que ocurren repetidamente debido a anomalías en la capa Mixture-of-Experts (MoE); el mecanismo de enrutamiento en sí mismo agrava estas anomalías, y un simple rollback no puede resolver el problema.

DeepSeek implementó dos soluciones que ahora se aplican al entrenamiento real: Enrutamiento anticipatorio, que desacopla el cálculo del índice de enrutamiento de las actualizaciones de la red troncal y activa automáticamente solo cuando se detectan picos de pérdida (añadiendo aproximadamente un 20% de sobrecarga), y Acotamiento SwiGLU, que suprime directamente las anomalías al acotar los valores de activación a un rango fijo. El informe afirma que ambos enfoques son efectivos, pero admite que "los principios subyacentes aún no se comprenden suficientemente".

Susan Zhang, investigadora de Google DeepMind que previamente trabajó en Meta AI y OpenAI, comentó que la inestabilidad provocada por duplicar los datos de entrenamiento "explica el retraso". Describió las dos soluciones como "parches" mientras reconocía la transparencia técnica de DeepSeek.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios