DeepSeek lanzó versiones preliminares de DeepSeek-V4-Pro y DeepSeek-V4-Flash el 24 de abril de 2026, ambos modelos de pesos abiertos con ventanas de contexto de un millón de tokens y precios significativamente inferiores a alternativas occidentales comparables. El modelo V4-Pro cuesta $1.74 por cada millón de tokens de entrada y $3.48 por cada millón de tokens de salida—aproximadamente 1/20 del precio de Claude Opus 4.7 y un 98% menos que GPT-5.5 Pro, según las especificaciones oficiales de la compañía.
DeepSeek-V4-Pro cuenta con 1.6 billones de parámetros totales, lo que lo convierte en el modelo de código abierto más grande del mercado de LLM hasta la fecha. Sin embargo, solo 49 mil millones de parámetros se activan por cada pasada de inferencia, usando lo que DeepSeek llama el enfoque Mixture-of-Experts, refinado desde V3. Este diseño permite que el modelo completo permanezca en estado inactivo mientras solo se activan los segmentos relevantes para cualquier solicitud dada, reduciendo los costos de cómputo mientras mantiene la capacidad de conocimiento.
DeepSeek-V4-Flash opera a una escala menor con 284 mil millones de parámetros totales y 13 mil millones de parámetros activos. Según los puntos de referencia de DeepSeek, “alcanza un rendimiento de razonamiento comparable al de la versión Pro cuando se le da un mayor presupuesto de pensamiento”.
Ambos modelos admiten un millón de tokens de contexto como función estándar—aproximadamente 750,000 palabras, o aproximadamente toda la trilogía de “El Señor de los Anillos” más texto adicional.
DeepSeek abordó el problema de escalado computacional inherente al procesamiento de contexto largo al inventar dos nuevos tipos de atención, tal como se detalla en el documento técnico de la compañía disponible en GitHub.
Los mecanismos de atención estándar de la IA enfrentan un problema de escalado brutal: cada vez que la longitud del contexto se duplica, el costo de cómputo aumenta aproximadamente en cuatro veces. La solución de DeepSeek implica dos enfoques complementarios:
Compressed Sparse Attention funciona en dos pasos. Primero comprime grupos de tokens—por ejemplo, cada 4 tokens—en una sola entrada. Luego, en lugar de atender a todas las entradas comprimidas, usa un “Lightning Indexer” para seleccionar solo los resultados más relevantes para cualquier consulta dada. Esto reduce el alcance de atención del modelo de un millón de tokens a un conjunto mucho más pequeño de fragmentos importantes.
Heavily Compressed Attention adopta un enfoque más agresivo, colapsando cada 128 tokens en una sola entrada sin selección dispersa. Aunque esto pierde detalle de grano fino, proporciona una vista global extremadamente barata. Los dos tipos de atención se ejecutan en capas alternadas, lo que permite al modelo mantener tanto el detalle como la visión general.
El resultado: V4-Pro usa el 27% del cómputo que su predecesor (V3.2) requería. La caché KV—la memoria necesaria para rastrear el contexto—baja al 10% de V3.2. V4-Flash empuja la eficiencia aún más: 10% de cómputo y 7% de memoria frente a V3.2.
DeepSeek publicó comparaciones de benchmarks integrales contra GPT-5.4 y Gemini-3.1-Pro, incluyendo áreas en las que V4-Pro queda por detrás de los competidores. En tareas de razonamiento, el razonamiento de V4-Pro va rezagado frente a GPT-5.4 y Gemini-3.1-Pro en aproximadamente tres a seis meses, según el informe técnico de DeepSeek.
Donde V4-Pro lidera:
Donde V4-Pro queda por detrás:
En tareas de contexto largo, V4-Pro lidera a los modelos open-source y supera a Gemini-3.1-Pro en CorpusQA (simulando análisis real de documentos a un millón de tokens) pero pierde frente a Claude Opus 4.6 en MRCR, que mide la recuperación de información específica enterrada en textos largos.
V4-Pro puede ejecutarse en Claude Code, OpenCode y otras herramientas de codificación de IA. Según la encuesta interna de DeepSeek de 85 desarrolladores que usaron V4-Pro como su agente de codificación principal, el 52% dijo que estaba listo para ser su modelo predeterminado, el 39% se inclinó por sí, y menos del 9% dijo no. Las pruebas internas de DeepSeek indicaron que V4-Pro supera a Claude Sonnet y se acerca a Claude Opus 4.5 en tareas de codificación agentica.
Artificial Analysis clasificó a V4-Pro en primer lugar entre todos los modelos de pesos abiertos en GDPval-AA, un benchmark que evalúa trabajo de conocimiento económicamente valioso en tareas de finanzas, legales e investigación. V4-Pro-Max obtuvo 1,554 Elo, por delante de GLM-5.1 (1,535) y MiniMax’s M2.7 (1,514). Claude Opus 4.6 obtiene 1,619 en el mismo benchmark.
V4 introduce “pensamiento entrelazado”, que conserva la cadena completa de pensamiento a través de llamadas a herramientas. En modelos anteriores, cuando un agente hacía múltiples llamadas a herramientas—como buscar en la web, ejecutar código y luego volver a buscar—el contexto de razonamiento del modelo se vaciaba entre rondas. V4 mantiene la continuidad del razonamiento entre pasos, evitando la pérdida de contexto en flujos de trabajo automatizados complejos.
El lanzamiento de V4 llega en medio de una actividad significativa en el espacio de la IA. Anthropic envió Claude Opus 4.7 el 16 de abril de 2026. OpenAI lanzó GPT-5.5 el 23 de abril de 2026, con GPT-5.5 Pro con precio de $30 por millón de tokens de entrada y $180 por millón de tokens de salida. GPT-5.5 supera a V4-Pro en Terminal Bench 2.0 (82.7% versus 70.0%), que prueba flujos de trabajo complejos de agentes de línea de comandos.
Xiaomi lanzó MiMo V2.5 Pro el 22 de abril de 2026, ofreciendo capacidades multimodales completas (imagen, audio, video) a $1 entrada y $3 salida por cada millón de tokens. Tencent lanzó Hy3 el mismo día que GPT-5.5.
Para contexto de precios: el CEO de Cline, Saoud Rizwan, señaló que si Uber hubiera usado DeepSeek en lugar de Claude, su presupuesto de IA de 2026—presuntamente suficiente para cuatro meses de uso—habría durado siete años.
Tanto V4-Pro como V4-Flash tienen licencia MIT y están disponibles en Hugging Face. Por ahora, los modelos son solo de texto; DeepSeek indicó que está trabajando en capacidades multimodales. Ambos modelos pueden ejecutarse de forma gratuita en hardware local o personalizarse según las necesidades de la empresa.
Los endpoints existentes de deepseek-chat y deepseek-reasoner de DeepSeek ya enrutan a V4-Flash en modos sin pensamiento y con pensamiento, respectivamente. Los antiguos endpoints de deepseek-chat y deepseek-reasoner se retirarán el 24 de julio de 2026.
DeepSeek entrenó V4 en parte con chips Huawei Ascend, eludiendo las restricciones de exportación de EE. UU. La compañía indicó que, una vez que entren en línea 950 nuevos supernodos más adelante en 2026, el precio del modelo Pro—ya bajo—bajará aún más.
Para empresas, la estructura de precios podría cambiar los cálculos de costo-beneficio. Un modelo que lidera benchmarks open-source a $1.74 por cada millón de tokens de entrada hace que el procesamiento a gran escala de documentos, la revisión legal y las canalizaciones de generación de código sean sustancialmente más baratos que seis meses atrás. El contexto de un millón de tokens permite procesar repositorios completos o presentaciones regulatorias en una sola solicitud en lugar de trocearse en múltiples llamadas.
Para desarrolladores y creadores independientes, V4-Flash es la consideración principal. A $0.14 de entrada y $0.28 de salida por cada millón de tokens, es más barato que los modelos considerados opciones de presupuesto hace un año, mientras maneja la mayoría de tareas que la versión Pro gestiona.