Mensagem do Gate News, 24 de abril — A DeepSeek lançou a série V4 de modelos de código aberto sob a Licença MIT, com pesos agora disponíveis na Hugging Face e na ModelScope. A série inclui dois modelos (MoE) de mixture-of-experts: V4-Pro com 1,6 biliões de parâmetros totais e 49 mil milhões ativados por token, e V4-Flash com 284 mil milhões de parâmetros totais e 13 mil milhões ativados por token. Ambos suportam uma janela de contexto de 1 milhão de tokens.
A arquitetura traz três melhorias principais: um mecanismo de atenção híbrido que combina atenção esparsa comprimida (CSA) e atenção fortemente comprimida (HCA), que reduz significativamente a sobrecarga do contexto longo — as FLOPs de inferência do V4-Pro para 1M de contexto são apenas 27% das do V3.2, e a cache KV (VRAM para armazenar informação histórica durante a inferência) é apenas 10% da do V3.2; ligações hipernasifold-constrained (mHC) que substituem as ligações residuais tradicionais para melhorar a estabilidade da propagação do sinal entre camadas; e o otimizador Muon para uma convergência de treino mais rápida. O pré-treino usou mais de 32 biliões de tokens de dados.
O pós-treino emprega uma abordagem em duas etapas: primeiro treinar especialistas específicos de domínio via supervised fine-tuning (SFT) e aprendizagem por reforço GRPO, depois fundi-los num único modelo através de distilação online. O V4-Pro-Max (highest inference mode) afirma ser o modelo open-source mais forte, com benchmarks de codificação topo de gama e lacunas significativamente reduzidas face a modelos frontier com código fechado em tarefas de raciocínio e agentes. O V4-Flash-Max atinge desempenho de raciocínio ao nível do Pro com um orçamento computacional suficiente, mas é limitado pela escala de parâmetros em tarefas puras de conhecimento e tarefas complexas de agentes. Os pesos são armazenados em precisão mista FP4+FP8.
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a
Isenção de responsabilidade.
Related Articles
Engenheiro da OpenAI Clive Chan ContestA as Recomendações de Hardware da V4, Apontando Erros e Ambiguidade Face à V3
Mensagem do Gate News, 24 de Abril — O engenheiro da OpenAI Clive Chan apresentou objecções detalhadas ao capítulo de recomendações de hardware no relatório técnico V4, chamando-lhe "surpreendentemente medíocre e propenso a erros" em comparação com a aclamada versão V3. A orientação de hardware da V3, que incluía sessões de Q&A
GateNews30m atrás
Naver Launches AI Tab Beta as Google Gemini Enters South Korea Search Market
Gate News message, April 24 — Naver announced the start of a closed beta for AI Tab, its new conversational search feature, following Google's launch of Gemini in Chrome in South Korea.
AI Tab will appear alongside Naver's existing search tabs, offering users a dedicated space for conversational
GateNews41m atrás
As Contratações de Engenharia em IA na Índia Disparam 59,5%, Expandem Além dos Centros Tecnológicos
O Relatório do Mercado de Trabalho de IA 2026 da LinkedIn, publicado a 24 de abril, revelou que a contratação de engenharia de IA na Índia aumentou 59,5% em termos anuais, assinalando o ritmo mais acelerado entre os mercados estudados pela plataforma.
O crescimento foi impulsionado pela procura a alastrar para além dos centros tecnológicos estabelecidos. Cidades incluindo
CryptoFrontier1h atrás
Banco da Commonwealth reduz 120 empregos no meio da expansão da IA
O Commonwealth Bank of Australia anunciou que vai cortar aproximadamente 120 postos de trabalho à medida que o maior banco do país revê funções e aumenta a sua utilização de inteligência artificial, de acordo com a Bloomberg. Os cortes incluem 43 funções na Bankwest, no oeste da Austrália, com seis cargos afetados pela automação. Isto é
CryptoFrontier1h atrás
Razões para a seleção do treino XAI pela Cursor: o poder de computação ficou bloqueado, a SpaceX detém mais 60 mil milhões de dólares em opções de compra
O anúncio da Anysphere afirma que a Cursor irá, em conjunto com a xAI, treinar novos modelos com a infraestrutura Colossus para ultrapassar o estrangulamento de capacidade computacional; a SpaceX apresentou uma opção de compra de 60 mil milhões de dólares (aquisição total até 2026), caso não seja possível, pagará cerca de 10 mil milhões de dólares como compensação de colaboração. Estas duas transacções decorrem em simultâneo, reconfigurando quem consegue treinar a Cursor e quem consegue comprar a Cursor; a Cursor continua a permitir vários backends de modelos, mas a orientação a longo prazo depende de saber se a SpaceX exercerá o direito de compra.
ChainNewsAbmedia1h atrás
Avaliação no mercado secundário da Anthropic ultrapassa 1 bilião de dólares: Forge Global supera a OpenAI em 880 mil milhões
De acordo com a reportagem da Decrypt, a avaliação em segunda ronda da Forge Global da Anthropic é de cerca de 1 bilião de dólares, a da OpenAI cerca de 880 mil milhões de dólares, com a primeira inversão de liderança a surgir no mercado secundário. O ARR da Anthropic aumentou de cerca de 9 mil milhões até ao final de 2025 para cerca de 30 mil milhões em março de 2026; crescimento de 233% em três meses, impulsionando a avaliação privada. As avaliações em mercado secundário diferem das rondas de financiamento em mercado primário, reflectindo a confiança na saída; no futuro, continuam a ser observados quatro canais — tecnologia, políticas, negócios e narrativa.
ChainNewsAbmedia1h atrás