DeepSeek lança série de modelos de código aberto V4 com 1,6T de parâmetros e Licença MIT

Mensagem de Gate News, 24 de abril — A DeepSeek lançou a série V4 de modelos de código aberto sob a Licença MIT, com pesos agora disponíveis no Hugging Face e no ModelScope. A série inclui dois modelos (MoE) de especialistas em mistura: V4-Pro com 1,6 trilhão de parâmetros totais e 49 bilhões ativados por token, e V4-Flash com 284 bilhões de parâmetros totais e 13 bilhões ativados por token. Ambos suportam uma janela de contexto de 1 milhão de tokens.

A arquitetura traz três melhorias principais: um mecanismo de atenção híbrido que combina atenção esparsa comprimida (CSA) e atenção fortemente comprimida (HCA), reduzindo significativamente a sobrecarga de contextos longos — os FLOPs de inferência do V4-Pro para contexto de 1M são apenas 27% dos do V3.2, e o cache de KV (VRAM para armazenar informações históricas durante a inferência) é apenas 10% do do V3.2; hipervínculos com restrição de manifold (mHC) substituindo conexões residuais tradicionais para aprimorar a estabilidade da propagação de sinais entre camadas; e o otimizador Muon para acelerar a convergência do treinamento. O pré-treinamento usou mais de 32 trilhões de tokens de dados.

O pós-treinamento emprega uma abordagem em duas etapas: primeiro, treinar especialistas específicos de domínio via fine-tuning supervisionado (SFT) e aprendizado por reforço com GRPO, depois fundi-los em um único modelo por meio de distilação online. O V4-Pro-Max (highest inference mode) afirma ser o modelo de código aberto mais forte, com benchmarks de codificação de ponta e lacunas significativamente reduzidas em relação a modelos de fronteira de código fechado em tarefas de raciocínio e de agentes. O V4-Flash-Max atinge desempenho de raciocínio no nível do Pro com orçamento de computação suficiente, mas é limitado pela escala de parâmetros em tarefas puramente de conhecimento e tarefas de agentes complexas. Os pesos são armazenados em precisão mista FP4+FP8.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Web3 AI Infrastructure AIW3 Capta $2M na Rodada Seed Liderada pela Buffalo Capital

Mensagem do Gate News, 24 de abril — A plataforma de infraestrutura de IA Web3 AIW3 anunciou a conclusão de uma rodada de captação seed de $2 milhões. A rodada foi liderada pela Buffalo Capital, com GalaXin Capital e Three-stones Ventures participando como co-investidoras. A AIW3 está fazendo a transição para um paradigma de execução on-chain de Agente-como-Serviço

GateNews7m atrás

Cohere Adquire Empresa Alemã de IA Aleph Alpha e Garante $600M Investimento para Expansão na Europa

Mensagem do Gate News, 24 de abril — A empresa canadense de IA Cohere anunciou planos para adquirir a empresa alemã de IA Aleph Alpha para fortalecer sua presença na Europa. A Schwarz Group, apoiadora da Aleph Alpha, planeja investir $600 milhões na rodada de financiamento Série E da Cohere. A rodada de financiamento deve ser concluída em 202

GateNews48m atrás

Xpeng e Xiaomi lideram avanço de IA embarcada no Beijing Auto Show

Mensagem da Gate News, 24 de abril — Montadoras chinesas exibiram sistemas avançados de IA embarcada no Beijing Auto Show em 24 de abril, à medida que o país acelera sua estratégia AI Plus e busca maior independência de semicondutores estrangeiros. A Xpeng demonstrou estacionamento controlado por voz que permite que os motoristas emitam comandos falados em vez de selecionar manualmente localizações.

GateNews1h atrás

Ex-engenheiro da Seed da ByteDance: A iteração de IA da ByteDance leva seis meses vs. os três meses do Google

Mensagem do Gate News, 24 de abril — Zhang Chi, ex-engenheiro da equipe Seed da ByteDance e atual professor assistente na Universidade de Pequim, revelou no podcast "Into Asia" que a ByteDance exige aproximadamente seis meses para concluir um ciclo completo de treinamento de pré-treinamento de modelo de linguagem grande (

GateNews1h atrás

Engenheiro da OpenAI Clive Chan questiona recomendações de hardware da V4, citando erros e falta de clareza em relação à V3

Mensagem do Gate News, 24 de abril — o engenheiro da OpenAI, Clive Chan, levantou objeções detalhadas ao capítulo de recomendações de hardware no relatório técnico V4, chamando-o de "surpreendentemente medíocre e propenso a erros" em comparação com a aclamada versão V3. A orientação de hardware da V3, que incluía sessões de Q&A

GateNews2h atrás

Naver lança beta do AI Tab à medida que o Google Gemini entra no mercado de buscas da Coreia do Sul

Mensagem do Gate News, 24 de abril — A Naver anunciou o início de um beta fechado para o AI Tab, seu novo recurso de busca conversacional, após o lançamento do Gemini pela Google no Chrome na Coreia do Sul. O AI Tab aparecerá ao lado das abas de busca existentes da Naver, oferecendo aos usuários um espaço dedicado para consultas conversacionais

GateNews2h atrás
Comentário
0/400
Sem comentários