Mensagem de Gate News, 24 de abril — A DeepSeek lançou a série V4 de modelos de código aberto sob a Licença MIT, com pesos agora disponíveis no Hugging Face e no ModelScope. A série inclui dois modelos (MoE) de especialistas em mistura: V4-Pro com 1,6 trilhão de parâmetros totais e 49 bilhões ativados por token, e V4-Flash com 284 bilhões de parâmetros totais e 13 bilhões ativados por token. Ambos suportam uma janela de contexto de 1 milhão de tokens.
A arquitetura traz três melhorias principais: um mecanismo de atenção híbrido que combina atenção esparsa comprimida (CSA) e atenção fortemente comprimida (HCA), reduzindo significativamente a sobrecarga de contextos longos — os FLOPs de inferência do V4-Pro para contexto de 1M são apenas 27% dos do V3.2, e o cache de KV (VRAM para armazenar informações históricas durante a inferência) é apenas 10% do do V3.2; hipervínculos com restrição de manifold (mHC) substituindo conexões residuais tradicionais para aprimorar a estabilidade da propagação de sinais entre camadas; e o otimizador Muon para acelerar a convergência do treinamento. O pré-treinamento usou mais de 32 trilhões de tokens de dados.
O pós-treinamento emprega uma abordagem em duas etapas: primeiro, treinar especialistas específicos de domínio via fine-tuning supervisionado (SFT) e aprendizado por reforço com GRPO, depois fundi-los em um único modelo por meio de distilação online. O V4-Pro-Max (highest inference mode) afirma ser o modelo de código aberto mais forte, com benchmarks de codificação de ponta e lacunas significativamente reduzidas em relação a modelos de fronteira de código fechado em tarefas de raciocínio e de agentes. O V4-Flash-Max atinge desempenho de raciocínio no nível do Pro com orçamento de computação suficiente, mas é limitado pela escala de parâmetros em tarefas puramente de conhecimento e tarefas de agentes complexas. Os pesos são armazenados em precisão mista FP4+FP8.
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o
Aviso Legal.
Related Articles
Web3 AI Infrastructure AIW3 Capta $2M na Rodada Seed Liderada pela Buffalo Capital
Mensagem do Gate News, 24 de abril — A plataforma de infraestrutura de IA Web3 AIW3 anunciou a conclusão de uma rodada de captação seed de $2 milhões. A rodada foi liderada pela Buffalo Capital, com GalaXin Capital e Three-stones Ventures participando como co-investidoras.
A AIW3 está fazendo a transição para um paradigma de execução on-chain de Agente-como-Serviço
GateNews7m atrás
Cohere Adquire Empresa Alemã de IA Aleph Alpha e Garante $600M Investimento para Expansão na Europa
Mensagem do Gate News, 24 de abril — A empresa canadense de IA Cohere anunciou planos para adquirir a empresa alemã de IA Aleph Alpha para fortalecer sua presença na Europa. A Schwarz Group, apoiadora da Aleph Alpha, planeja investir $600 milhões na rodada de financiamento Série E da Cohere.
A rodada de financiamento deve ser concluída em 202
GateNews48m atrás
Xpeng e Xiaomi lideram avanço de IA embarcada no Beijing Auto Show
Mensagem da Gate News, 24 de abril — Montadoras chinesas exibiram sistemas avançados de IA embarcada no Beijing Auto Show em 24 de abril, à medida que o país acelera sua estratégia AI Plus e busca maior independência de semicondutores estrangeiros.
A Xpeng demonstrou estacionamento controlado por voz que permite que os motoristas emitam comandos falados em vez de selecionar manualmente localizações.
GateNews1h atrás
Ex-engenheiro da Seed da ByteDance: A iteração de IA da ByteDance leva seis meses vs. os três meses do Google
Mensagem do Gate News, 24 de abril — Zhang Chi, ex-engenheiro da equipe Seed da ByteDance e atual professor assistente na Universidade de Pequim, revelou no podcast "Into Asia" que a ByteDance exige aproximadamente seis meses para concluir um ciclo completo de treinamento de pré-treinamento de modelo de linguagem grande (
GateNews1h atrás
Engenheiro da OpenAI Clive Chan questiona recomendações de hardware da V4, citando erros e falta de clareza em relação à V3
Mensagem do Gate News, 24 de abril — o engenheiro da OpenAI, Clive Chan, levantou objeções detalhadas ao capítulo de recomendações de hardware no relatório técnico V4, chamando-o de "surpreendentemente medíocre e propenso a erros" em comparação com a aclamada versão V3. A orientação de hardware da V3, que incluía sessões de Q&A
GateNews2h atrás
Naver lança beta do AI Tab à medida que o Google Gemini entra no mercado de buscas da Coreia do Sul
Mensagem do Gate News, 24 de abril — A Naver anunciou o início de um beta fechado para o AI Tab, seu novo recurso de busca conversacional, após o lançamento do Gemini pela Google no Chrome na Coreia do Sul.
O AI Tab aparecerá ao lado das abas de busca existentes da Naver, oferecendo aos usuários um espaço dedicado para consultas conversacionais
GateNews2h atrás