DeepSeek V4-Flash se lanza en Ollama Cloud, servidor en EE. UU.: Claude Code, OpenClaw con un clic para conectar

La herramienta de ejecución local de modelos de IA Ollama, anunciada públicamente en la plataforma X el 24/4, informó que incorporará el modelo V4-Flash, lanzado el día anterior por la startup china de IA DeepSeek, en el servicio Ollama Cloud. El servidor de inferencia está ubicado en Estados Unidos, y ofrece tres conjuntos de comandos de un solo toque para que los desarrolladores conecten directamente V4-Flash a flujos de trabajo de desarrollo de software de IA populares como Claude Code, OpenClaw y Hermes.

deepseek-v4-flash is now available on Ollama’s cloud! Hosted in the US. Try it with Claude Code: ollama launch claude –model deepseek-v4-flash:cloud Try it with OpenClaw: ollama launch openclaw –model deepseek-v4-flash:cloud Try it with Hermes: ollama launch hermes…

— ollama (@ollama) April 24, 2026

Previa de DeepSeek V4: dos tamaños, 1M de contexto

De acuerdo con el anuncio publicado por la documentación oficial de la API de DeepSeek el 24/4, DeepSeek-V4 Preview se abre en simultáneo en dos tamaños:

Modelo Parámetros totales Parámetros activos Enfoque DeepSeek-V4-Pro 1,6 billones 490 millones Objetivo: buque insignia propietario DeepSeek-V4-Flash 2,840 billones 130 millones Rápido, eficiente y de bajo costo

Ambos adoptan una arquitectura Mixture-of-Experts (MoE), con soporte nativo para contextos largos de 1 millón de tokens. En el anuncio, DeepSeek declara: «El contexto de 1M ahora es el valor predeterminado de todos los servicios oficiales de DeepSeek».

Innovación de arquitectura: atención dispersa DSA + compresión por token

Las mejoras arquitectónicas centrales de la serie V4 incluyen:

Compresión por token junto con DSA (DeepSeek Sparse Attention) — reduce drásticamente el costo de los cálculos de inferencia y la memoria caché de KV en escenarios de contextos extremadamente largos

En comparación con V3.2, en el contexto de 1 millón de tokens, V4-Pro requiere solo 27% de los FLOPs para inferencia por token y la caché KV solo requiere 10%

Soporta el cambio entre dos modos: Thinking y Non-Thinking, para satisfacer necesidades de razonamiento profundo en tareas diferentes

A nivel de API, es compatible tanto con OpenAI ChatCompletions como con las especificaciones de Anthropic APIs, reduciendo el costo de migración de los clientes existentes de Claude/GPT.

Los tres comandos de inicio inmediato de Ollama Cloud

En la página oficial del modelo, se ofrece el servicio de inferencia en la nube con el identificador de modelo deepseek-v4-flash:cloud; los desarrolladores pueden usar los siguientes tres conjuntos de comandos para conectar V4-Flash directamente a flujos de trabajo existentes de desarrollo de software de IA:

Flujo de trabajo Comando Claude Code ollama launch claude --model deepseek-v4-flash:cloud OpenClaw ollama launch openclaw --model deepseek-v4-flash:cloud Hermes ollama launch hermes

Cabe prestar atención a la señal de «servidor en Estados Unidos». Para empresas y desarrolladores de Europa y Norteamérica, la mayor inquietud al usar modelos de código abierto chinos es la devolución de datos a China; Ollama elige colocar la capa de inferencia de V4-Flash en Estados Unidos, lo que significa que el prompt y el contenido del código no salen del ámbito jurisdiccional de Estados Unidos, reduciendo fricciones en términos de cumplimiento y soberanía de datos.

Por qué este asunto es importante para la industria de la IA

Al conectar entre sí DeepSeek V4-Flash, Ollama Cloud y Claude Code, que antes eran ecosistemas independientes, se generan tres significados:

Ruta de costos: los 13.000 millones de parámetros activos de V4-Flash son muy inferiores a los de buques insignia como GPT-5.5 (5 dólares de entrada, 30 dólares de salida por cada millón de tokens) y Claude Opus 4.7; para tareas de agentes de tamaño medio y pequeño, resúmenes por lotes, automatización de pruebas, etc., se espera que el costo unitario disminuya de forma significativa

Capa intermedia de riesgo geográfico: al actuar Ollama como una capa de inferencia intermedia registrada en Estados Unidos, permite a los usuarios empresariales de modelos nativos chinos eludir la preocupación de que «los datos se envíen directamente al servidor de DeepSeek en Beijing»; esta es una solución práctica para la difusión internacional de modelos de código abierto

Cambio inmediato para desarrolladores: los usuarios de Claude Code y OpenClaw pueden cambiar de modelo en una sola línea en la línea de comandos, sin necesidad de cambiar la estructura del prompt ni la configuración del IDE; para escenarios como «pruebas de regresión con múltiples modelos» y «tareas por lotes sensibles al costo», esto realmente libera productividad

Vinculación con noticias anteriores de DeepSeek

El lanzamiento de esta V4 y la integración rápida con Ollama Cloud ocurre en un contexto en el que DeepSeek está negociando la primera ronda de financiación externa y una valoración de 20.000 millones de dólares. V4 es una prueba clave de producto en el proceso de capitalización de la empresa DeepSeek; con una estrategia de código abierto + socios de expansión rápida a nivel internacional, es una carrera de velocidad para establecer la dominancia del ecosistema de desarrolladores antes de consolidarla. Para OpenAI y Anthropic, un modelo de reemplazo abierto que se puede cambiar en una sola línea dentro de Claude Code es una nueva variable en la puja por el control de los flujos de trabajo de los agentes.

Este artículo «DeepSeek V4-Flash llega a Ollama Cloud, servidor en Estados Unidos: conexión en un solo toque con Claude Code, OpenClaw» apareció por primera vez en Cadena News ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

DeepSeek-V4 en versión preliminar publicado con ventana de contexto de 1M; la solución de IA de Huawei DCS brinda soporte completo

Mensaje de Gate News, 25 de abril — La versión preliminar de DeepSeek-V4 se ha lanzado oficialmente y se ha publicado como código abierto, con una ventana de contexto ampliada de 1 millón de tokens e introduciendo KV Cache con ventana deslizante mediante algoritmos de compresión para reducir la complejidad computacional de la Atención y la presión del ancho de banda de memoria.

GateNewsHace3m

Regresa la escasez de GPU mientras Microsoft y Amazon ajustan el suministro; las startups de IA enfrentan un aumento del 32% en precios y colas hasta fin de año

Mensaje de Gate News, 25 de abril — Vuelve a aparecer una escasez de GPU mientras los principales proveedores de nube, incluidos Microsoft y Amazon, concentran capacidad de cómputo en equipos internos y grandes clientes como OpenAI y Anthropic, dejando que las empresas emergentes de IA más pequeñas enfrenten aumentos de precios, tiempos de espera prolongados y términos de contrato más estrictos.

GateNewshace1h

Nvidia在Blackwell基础设施上将OpenAI Codex AI代理部署至全体员工

消息快报,4月25日——据首席执行官Jensen Huang和OpenAI首席执行官Sam Altman的内部沟通内容,Nvidia已在成功试点后,将OpenAI的Codex这一由GPT-5.5驱动的AI代理面向其全体员工部署,试点约涉及10,000名员工。 Codex旨在用于

GateNewshace2h

El Departamento de Estado de EE. UU. advierte sobre la destilación del modelo de IA DeepSeek

El Departamento de Estado de EE. UU. emitió un cable el 24 de abril a las misiones diplomáticas y consulares de todo el mundo, advirtiendo a gobiernos extranjeros sobre los esfuerzos de China por copiar sistemas de IA estadounidenses mediante destilación, según Reuters. El cable

CryptoFrontierhace2h

La startup de IA para la salud del profesor de Stanford busca $100M con una valoración de $1B

Mensaje de Gate News, 25 de abril — El profesor de Stanford James Zou está recaudando aproximadamente $100 millones para Human Intelligence, una startup de California que desarrolla modelos de IA para la fisiología humana, con una valoración de alrededor de $1 mil millones. La empresa se basa en la investigación de Zou en fisiología e IA. El algoritmo EchoNet de su laboratorio

GateNewshace2h

La startup de codificación con IA Cognition conversa sobre una ronda de financiación con valoración de $25B

Mensaje de Gate News, 25 de abril — La startup de codificación con IA Cognition está en conversaciones iniciales para recaudar cientos de millones de dólares o más, aproximadamente con una valoración de $25 mil millones, según personas familiarizadas con el asunto. El interés ha aumentado tras la adquisición por parte de SpaceX de una startup rival de codificación con IA. Co

GateNewshace2h
Comentar
0/400
Sin comentarios