DeepSeek lanza la serie de modelos de código abierto V4 con 1,6T de parámetros y licencia MIT

Mensaje de Gate News, 24 de abril — DeepSeek ha lanzado la serie V4 de modelos de código abierto bajo la Licencia MIT, con pesos ahora disponibles en Hugging Face y ModelScope. La serie incluye dos modelos (MoE) de mezcla de expertos: V4-Pro con 1,6 billones de parámetros totales y 49 mil millones activados por token, y V4-Flash con 284 mil millones de parámetros totales y 13 mil millones activados por token. Ambos admiten una ventana de contexto de 1 millón de tokens.

La arquitectura presenta tres mejoras clave: un mecanismo de atención híbrida que combina atención dispersa comprimida (CSA) y atención altamente comprimida (HCA) que reduce significativamente la sobrecarga para contextos largos: los FLOPs de inferencia para 1M de contexto de V4-Pro son solo el 27% de los de V3.2, y la caché KV (VRAM para almacenar información histórica durante la inferencia) es solo el 10% de la de V3.2; enlaces hiperconectados con restricción de manifold (mHC) que reemplazan las conexiones residuales tradicionales para mejorar la estabilidad de la propagación de señales entre capas; y el optimizador Muon para una convergencia de entrenamiento más rápida. El preentrenamiento utilizó más de 32 billones de tokens de datos.

El postentrenamiento emplea un enfoque de dos etapas: primero, entrenar expertos específicos del dominio mediante fine-tuning supervisado (SFT) y aprendizaje por refuerzo con GRPO, luego fusionarlos en un único modelo mediante destilación en línea. V4-Pro-Max (modo de inferencia más alto) afirma ser el modelo de código abierto más potente, con puntos de referencia de codificación de nivel superior y brechas significativamente reducidas frente a modelos de frontera de código cerrado en tareas de razonamiento y de agentes. V4-Flash-Max logra un rendimiento de razonamiento a nivel Pro con un presupuesto de cómputo suficiente, pero se ve limitado por la escala de parámetros en conocimiento puro y tareas de agentes complejas. Los pesos se almacenan en precisión mixta FP4+FP8.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

El ingeniero de OpenAI Clive Chan cuestiona las recomendaciones de hardware de V4, citando errores y falta de claridad frente a V3

Mensaje de Gate News, 24 de abril — El ingeniero de OpenAI, Clive Chan, ha presentado objeciones detalladas al capítulo de recomendaciones de hardware en el informe técnico V4, calificándolo de "sorprendentemente mediocre y propenso a errores" en comparación con la versión V3 aclamada. La guía de hardware de V3, que incluyó sesiones de Q&A

GateNewsHace29m

Naver lanza la beta de AI Tab mientras Google Gemini entra en el mercado de búsquedas de Corea del Sur

Mensaje de Gate News, 24 de abril — Naver anunció el inicio de una beta cerrada para AI Tab, su nueva función de búsqueda conversacional, tras el lanzamiento de Gemini en Chrome por parte de Google en Corea del Sur. AI Tab aparecerá junto a las pestañas de búsqueda existentes de Naver, ofreciendo a los usuarios un espacio dedicado para consultas conversacionales

GateNewsHace41m

La contratación de ingeniería en IA en India se dispara un 59,5% y se expande más allá de los centros tecnológicos

El Informe sobre el Mercado Laboral de la IA de LinkedIn 2026, publicado el 24 de abril, descubrió que la contratación de ingeniería de IA en India aumentó un 59,5% interanual, marcando el ritmo más rápido entre los mercados estudiados por la plataforma. El crecimiento estuvo impulsado por una expansión de la demanda más allá de los centros tecnológicos establecidos. Ciudades, incluidas

CryptoFrontierhace1h

Banco Commonwealth reduce 120 empleos en medio de la expansión de la IA

Commonwealth Bank of Australia anunció que recortará aproximadamente 120 empleos mientras el mayor banco del país revisa sus puestos y amplía el uso de inteligencia artificial, según Bloomberg. Los recortes incluyen 43 puestos en Bankwest en Australia Occidental, con seis posiciones afectadas por la automatización. Esto es

CryptoFrontierhace1h

Cursor revela las razones del entrenamiento de XAI: el poder de cómputo quedó bloqueado, SpaceX mantiene otra opción de compra de 60 mil millones de dólares

El anuncio de Anysphere afirma que Cursor se entrenará con xAI utilizando la infraestructura Colossus para entrenar nuevos modelos y superar el cuello de botella de capacidad computacional; SpaceX propone una opción de compra de 60 mil millones de dólares (adquisición total dentro de 2026), y si no, se paga aproximadamente 10 mil millones de dólares como compensación por la colaboración. Ambas operaciones se realizan al mismo tiempo, remodelando quién puede entrenar Cursor y quién puede comprar Cursor; Cursor sigue permitiendo muchos backends de modelos, pero el rumbo a largo plazo depende de si SpaceX ejerce la opción de compra.

ChainNewsAbmediahace1h

La valoración en el mercado secundario de Anthropic supera 1 billón de dólares: Forge Global se sitúa por encima de OpenAI en 880.000 millones

Según el informe de Decrypt, la valoración secundaria de Anthropic de Forge Global es de aproximadamente 1 billón de dólares; OpenAI, de aproximadamente 880 mil millones de dólares, y por primera vez en el mercado secundario se observa un cambio de liderazgo en sentido inverso. El ARR de Anthropic pasó de aproximadamente 9 mil millones de dólares a finales de 2025 a aproximadamente 30 mil millones de dólares en marzo de 2026; el crecimiento de tres meses fue de 233%, impulsando la valoración en mercados privados. Las valoraciones secundarias difieren de las rondas de financiación de primera instancia, lo que refleja la confianza en la salida; en el futuro, aún se espera observar cuatro líneas: tecnología, políticas, negocios y narrativa.

ChainNewsAbmediahace1h
Comentar
0/400
Sin comentarios