Mensaje de Gate News, 24 de abril — El informe técnico de V4 de DeepSeek revela que V4-Flash y V4-Pro fueron preentrenados con 32T y 33T tokens, respectivamente, duplicando los aproximadamente 15T tokens usados para V3. El informe reconoce haber encontrado "retos importantes de inestabilidad" durante el entrenamiento, con picos de pérdida que ocurren repetidamente debido a anomalías en la capa Mixture-of-Experts (MoE); el mecanismo de enrutamiento en sí mismo agrava estas anomalías, y un simple rollback no puede resolver el problema.

DeepSeek implementó dos soluciones que ahora se aplican al entrenamiento real: Enrutamiento anticipatorio, que desacopla el cálculo del índice de enrutamiento de las actualizaciones de la red troncal y activa automáticamente solo cuando se detectan picos de pérdida (añadiendo aproximadamente un 20% de sobrecarga), y Acotamiento SwiGLU, que suprime directamente las anomalías al acotar los valores de activación a un rango fijo. El informe afirma que ambos enfoques son efectivos, pero admite que "los principios subyacentes aún no se comprenden suficientemente".

Susan Zhang, investigadora de Google DeepMind que previamente trabajó en Meta AI y OpenAI, comentó que la inestabilidad provocada por duplicar los datos de entrenamiento "explica el retraso". Describió las dos soluciones como "parches" mientras reconocía la transparencia técnica de DeepSeek.

Ver fuente

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.

Noticias relacionadas

04-24 03:04

DeepSeek lanza la serie de modelos de código abierto V4 con 1,6T de parámetros y licencia MIT

04-24 01:46

OpenAI lanza GPT-5.5, diseñado para tareas de agentes y flujos de trabajo complejos

04-23 20:42

La brecha de seguridad de Vercel se expande a cientos de usuarios; los desarrolladores de IA corren un mayor riesgo

04-23 13:14

Cluster Protocol Recauda $5M en Financiación, DAO5 Lidera la Ronda

04-23 09:45

DeepSeek hace de código abierto TileKernels, biblioteca de kernels de GPU para el entrenamiento e inferencia de modelos grandes

Análisis en profundidad

JPMorgan: KelpDAO elimina 20 mil millones en DeFi TVL debido a una vulnerabilidad; disminuye el atractivo para las instituciones

Market Whisper04-24 02:50

Miedo extremo a las 23 — Pero las monedas de IA están imprimiendo en verde: 4 selecciones cripto que el dinero inteligente está acumulando en silencio

Crypto News Land04-24 01:31

JPMorgan: los piratas informáticos DeFi son cada vez más frecuentes y el mecanismo de compresión de interés junto con la estabilización del TVL, con el capital que se traslada a USDT

ChainNewsAbmedia04-23 15:24

Comentar

0/400

Sin comentarios