DeepSeek lanza una versión preliminar de código abierto V4, puntuación técnica 3206 superando a GPT-5.4

DeepSeek V4開源預覽版

DeepSeek lanzó oficialmente el paquete en vista previa de V4 el 24 de abril, con código abierto bajo una licencia MIT; los pesos del modelo ya se han sincronizado y publicado en Hugging Face y ModelScope. Según el informe técnico de DeepSeek V4, V4-Pro-Max (modo de máxima potencia de razonamiento) obtuvo 3206 puntos en el benchmark de Codeforces, superando a GPT-5.4.

Especificaciones de la arquitectura de dos modelos MoE

Según el informe técnico de DeepSeek V4, la serie V4 incluye dos modelos de Mixture of Experts (MoE):

V4-Pro: 1.6T de parámetros totales, 49B activados por token, admite un contexto de 1M tokens

V4-Flash: 284B de parámetros totales, 13B activados por token, también admite un contexto de 1M tokens

Según el informe técnico, en un contexto de 1M, los FLOPs de inferencia por token de V4-Pro son solo el 27% de los de V3.2; la caché KV baja al 10% de la de V3.2. Esto se debe principalmente a la actualización de la arquitectura de la atención mixta (CSA de atención dispersa comprimida + HCA de atención comprimida intensiva). El volumen de datos de preentrenamiento supera 32T tokens; la actualización del optimizador de entrenamiento pasa a Muon.

Metodología de postentrenamiento: la destilación de estrategias en línea reemplaza por completo el aprendizaje por refuerzo mixto

Según el informe técnico de DeepSeek V4, la actualización central del postentrenamiento de V4 consiste en reemplazar por completo la fase de aprendizaje por refuerzo mixto (mixed RL) de V3.2 mediante destilación de estrategias en línea (On-Policy Distillation, OPD). El nuevo proceso se divide en dos pasos: primero, entrenar especialistas por dominio (SFT + aprendizaje por refuerzo GRPO) de forma separada en áreas como matemáticas, código, agentes y seguimiento de instrucciones; luego, usar múltiples maestros OPD para destilar las capacidades de más de una docena de especialistas a un único modelo unificado, alineando mediante logit para evitar los conflictos de capacidades comunes en métodos tradicionales.

El informe también introduce un modelo generativo de recompensas (Generative Reward Model, GRM). Para tareas que son difíciles de verificar con reglas, se entrena con una pequeña cantidad de datos de anotación humana diversificados, haciendo que el modelo asuma simultáneamente las funciones de generación y evaluación.

Resultados de pruebas de referencia: liderazgo en codificación, aún con brecha en razonamiento del conocimiento

Según el informe técnico de DeepSeek V4, los resultados comparativos entre V4-Pro-Max y Opus 4.6 Max, GPT-5.4 xHigh y Gemini 3.1 Pro High (sin incluir el GPT-5.5 y Opus 4.7 publicados recientemente):

Codeforces: 3206 (GPT-5.4: 3168 / Gemini 3.1 Pro: 3052) → El más alto del campo

LiveCodeBench: 93.5 → El más alto del campo

SWE Verified: 80.6, con una diferencia de 0.2 puntos porcentuales respecto a Opus 4.6 de 80.8

GPQA Diamond: 90.1, con una diferencia respecto a Gemini 3.1 Pro de 94.3

SimpleQA-Verified: 57.9, con una diferencia respecto a Gemini 3.1 Pro de 75.6

HLE: 37.7, con una diferencia respecto a Gemini 3.1 Pro de 44.4

El informe técnico también señala que las comparaciones anteriores no incluyen el GPT-5.5 y Opus 4.7 publicados recientemente, y que la brecha entre V4 y los modelos cerrados de última generación necesita validación mediante evaluación de terceros.

Preguntas frecuentes

¿Cuáles son las condiciones de licencia de código abierto de la versión en vista previa de DeepSeek V4 y dónde se pueden conseguir?

Según el anuncio oficial del 24 de abril de DeepSeek, la serie V4 se lanza como código abierto bajo una licencia MIT; los pesos del modelo ya se han publicado en Hugging Face y ModelScope, y es aplicable a usos comerciales y académicos.

¿En qué se diferencian las escalas de parámetros entre DeepSeek V4-Pro y V4-Flash?

Según el informe técnico de DeepSeek V4, V4-Pro tiene un total de parámetros de 1.6T, con 49B activados por token; V4-Flash tiene 284B de parámetros totales, con 13B activados por token. Ambos modelos admiten un contexto de 1M tokens.

¿Cuáles son los resultados de la comparación de referencias entre DeepSeek V4-Pro-Max, GPT-5.4 y Gemini 3.1 Pro?

Según el informe técnico de DeepSeek V4, V4-Pro-Max superó a GPT-5.4 y Gemini 3.1 Pro en dos benchmarks: Codeforces (3206 puntos) y LiveCodeBench (93.5), pero aún quedó por detrás de Gemini 3.1 Pro en benchmarks con alta densidad de conocimiento (GPQA Diamond, SimpleQA-Verified, HLE); el conjunto de comparación no incluye GPT-5.5 y Opus 4.7.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

La plataforma de agentes de trading con IA Fere AI recauda $1.3M, liderada por Ethereal Ventures

Mensaje de Gate News, 25 de abril: la plataforma de agentes de trading de activos digitales impulsada por IA Fere AI anunció la finalización de una ronda de financiación de $1.3 millones, liderada por Ethereal Ventures, con la participación de Galaxy Vision Hill y Kosmos Ventures. La plataforma admite redes entre cadenas que incluyen Ethereum,

GateNewsHace30m

La NDRC de China ordena a las empresas de IA, incluidas Moonshot y StepFun, rechazar capital de EE. UU. sin aprobación

Mensaje de Gate News, 25 de abril — La Comisión Nacional de Desarrollo y Reforma de China (NDRC) ha instruido a múltiples empresas de IA que rechacen el capital estadounidense en las últimas semanas a menos que obtengan la aprobación explícita del gobierno, según Bloomberg citando fuentes informadas. Moonshot AI y StepFun, ambas preparando f

GateNewshace1h

Juez de EE. UU. desestima las acusaciones de fraude de Musk contra OpenAI y Altman

Mensaje de Gate News, 25 de abril — Un juez de EE. UU. ha desestimado las acusaciones de fraude presentadas por Elon Musk contra OpenAI y el cofundador de OpenAI, Sam Altman, en su demanda en curso contra la empresa. El tribunal ha dictaminado que las acusaciones de fraude no seguirán adelante, aunque el juez ha programado audiencias adicionales para abordar las acusaciones restantes de Musk en el caso.

GateNewshace1h

¿Por qué una buena noticia de Intel impulsa una fuerte subida de las acciones de Nvidia?

Las ganancias por acción (EPS) de Intel en este trimestre fueron de 0,29 USD y los ingresos de 13.600 millones de USD, ambos superaron las expectativas; el impulso de las actualizaciones en centros de datos y equipos de cómputo se ha recuperado, impulsando la confianza en la demanda de semiconductores y de IA. Esta buena noticia hizo que el precio de las acciones de Nvidia subiera alrededor de un 4,9% al mediodía; el mercado considera que la demanda de capacidad informática subyacente sigue siendo sólida, reduce la preocupación por una posible “burbuja” de la IA y respalda las expectativas de crecimiento a largo plazo de Nvidia. La competencia entre ambas también se refleja en una sincronización positiva de sectores.

ChainNewsAbmediahace6h

China y EE. UU. se enfrentan en un pulso de IA por acusaciones de destilación de modelos y restricciones de inversión

Mensaje de Gate News, 24 de abril — China ha rechazado las acusaciones de EE. UU. de que sus gigantes tecnológicos están aprovechando la tecnología de IA estadounidense mediante destilación a escala industrial, mientras ambos países se preparan para un choque importante por el desarrollo de la IA y el control de las inversiones. La administración de Trump está preparando una

GateNewshace8h

Alphabet invertirá hasta $40 mil millones en Anthropic, impulsando la competencia en IA

Mensaje de Gate News, 24 de abril — Alphabet, la empresa matriz de Google, planea invertir hasta $40 mil millones en el desarrollador de IA Anthropic, que comprende $10 mil millones de desembolso inicial y $30 mil millones en financiación adicional sujeta a lograr ciertos hitos de rendimiento. Esta inversión sigue a la participación previa del 14% de Alphabet en Anthropic y

GateNewshace10h
Comentar
0/400
Sin comentarios