Yifan Zhang Divulga as Especificações Técnicas Completas do DeepSeek V4: 1,6T Parâmetros, 384 Especialistas com 6 Ativações

Mensagem do Gate News, 22 de abril — o estudante de PhD da Princeton, Yifan Zhang, divulgou no X as especificações técnicas completas do DeepSeek V4, após um prévio em 19 de abril. O V4 tem 1,6 trilhão de parâmetros no total e uma variante leve, o V4-Lite, com 285 bilhões de parâmetros.

O modelo emprega o mecanismo de atenção DSA2, que combina a atenção esparsa DSA anterior do DeepSeek (DeepSeek Sparse Attention) da V3.2 e a NSA (Native Sparse Attention) com embeddings de cabeçalho de 512 dimensões, pareado com Sparse Multi-Query Attention (MQA) e Sliding Window Attention (SWA). A camada MoE (Mixture of Experts) contém 384 especialistas com 6 ativados por passagem direta, utilizando o Fused MoE Mega-Kernel. As conexões residuais usam a arquitetura Hyper-Connections.

Detalhes de treinamento revelados pela primeira vez incluem o uso do otimizador Muon (applying Newton-Schulz orthogonalization to momentum updates), uma janela de contexto de pré-treinamento de 32K tokens e GRPO (Group Relative Policy Optimization) com correção de divergência KL durante o aprendizado por reforço. A janela de contexto final se estende até 1 milhão de tokens. O modelo é apenas texto.

Zhang não é empregado pela DeepSeek, e a empresa não comentou oficialmente as informações divulgadas.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

A valuation da DeepSeek dispara para além de $20 bilhões, enquanto Tencent e Alibaba avaliam investimentos

DeepSeek busca >$20B em meio a discussões de investimento entre a Tencent/Alibaba; a Nvidia alerta que a vantagem das chips nos EUA pode ser enfraquecida pela Huawei; o financiamento em IA continua a disparar com o $1B de Vast Data e investimentos da OpenAI/Anthropic/xAI. DeepSeek mira uma valuation acima de $20 bilhões enquanto conversa com a Tencent e a Alibaba, ao mesmo tempo em que a Nvidia alerta que a transferência de modelos de IA para chips da Huawei pode corroer a liderança dos EUA. A matéria também destaca uma alta global no financiamento de IA, incluindo o $1 bilhões da Vast Data em captação a uma valuation de $30 bilhões e grandes investimentos na OpenAI, Anthropic e xAI.

GateNews30m atrás

OpenClaw, Hermes e SillyTavern Confirmados como Suporte no GLM Coding Plan

O gerente de produto da Zhipu AI, Li, anuncia o OpenClaw, o Hermes e o SillyTavern como projetos compatíveis no GLM Coding Plan; outras ferramentas serão avaliadas caso a caso. Não compartilhe credenciais nem use assinaturas como acesso à API; entre em contato com o suporte para o erro 1313. O gerente de produto da Zhipu AI, Li, anunciou que o OpenClaw, o Hermes e o SillyTavern são oficialmente compatíveis no GLM Coding Plan, com outras ferramentas avaliadas caso a caso. A nota alerta contra o compartilhamento de credenciais ou o uso de assinaturas como acesso à API e orienta os usuários com o erro 1313 a entrarem em contato com o suporte.

GateNews3h atrás

CEO da Google Cloud: Gemini vai alimentar o lançamento da Siri personalizada da Apple em 2026

Resumo: O Gemini vai alimentar uma Siri personalizada da Apple em 2026, construída com os Modelos de Fundação da Apple e a colaboração com o Gemini; a Apple testa uma Siri estilo chat no iOS 27/macOS 27, prevista para a WWDC 2026. Resumo: O Gemini da Google Cloud está programado para alimentar uma Siri personalizada da Apple até 2026, combinando Gemini com os Modelos de Fundação da Apple sob uma colaboração de aproximadamente $1 bilhão. A Apple está testando uma Siri redesenhada e estilo chat no iOS 27/macOS 27, com uma interface do Dynamic Island e novos recursos, antes de um anúncio na WWDC 2026 em 8 de junho.

GateNews4h atrás

A parceria SpaceX $60B Cursor impulsiona a campanha de indulto de SBF, já que a $200K participação da FTX agora vale US$ 3B

Mensagem do Gate News, 22 de abril — A SpaceX anunciou hoje uma grande parceria com a startup de codificação por IA Cursor, com uma opção de adquirir a empresa por $60 bilhão. O acordo deu munição renovada a Sam Bankman-Fried (SBF), que atualmente está encarcerado e faz campanha por um indulto presidencial, já que isso demonstra o potencial de recuperação de valor que ele sempre argumentou que o FTX poderia ter alcançado. Em abril de 2022, a Alameda Research, a empresa de trading fundada por SBF, investiu US$ 200.000 na empresa-mãe da Cursor, a Anysphere, adquirindo aproximadamente 5% de participação societária. Quando o FTX entrou em colapso em novembro de 2022, o tribunal de falências assumiu o controle da empresa. Em abril de 2023, o espólio de falência do FTX vendeu aquela mesma participação de 5% por US$ 200.000 — o valor idêntico que a Alameda havia investido. Com base na avaliação de bilhão anunciada hoje pela SpaceX, essa participação de 5% agora valeria aproximadamente bilhão, representando um retorno de 15.000x. SBF tem sustentado há muito tempo que o FTX não estava de fato insolvente e que advogados de falências destruíram valor ao liquidar ativos prematuramente. Em fevereiro de 2026, ele compartilhou projeções sugerindo que o FTX poderia ter chegado a um valor patrimonial líquido de bilhão após a recuperação de ativos. Seus pais também têm sido ativos na busca por um indulto, aparecendo na CNN em março para argumentar que os clientes do FTX receberam reembolso integral. No entanto, credores observaram que as restituições foram baseadas em avaliações de 2022, e não em preços atuais de mercado. O presidente Trump disse que não irá conceder indulto ao SBF, e os mercados de previsão atualmente estimam a probabilidade de um indulto em 2026 em apenas 5%.

GateNews4h atrás

Ações da Chegg despencam 99% à medida que a IA perturba o mercado de tecnologia educacional

Resumo: A Chegg disparou com a demanda por educação online, depois as ferramentas de IA desestabilizaram seu modelo, desencadeando demissões em massa e uma queda para abaixo de $2, com mudanças mais amplas impulsionadas por IA atingindo também mineradoras de cripto e empresas de tecnologia financeira. Resumo: Este artigo examina a ascensão da Chegg como queridinha da edtech na era da pandemia e seu subsequente declínio diante da rápida adoção de IA generativa, que oferece respostas rápidas e reduz o apelo da proposta de valor da Chegg. Ele documenta demissões em 2025 e a queda das ações em direção ao cancelamento de listagem, e enquadra a experiência da Chegg dentro de uma disrupção mais ampla impulsionada por IA que está remodelando tecnologia e cripto: mineradoras de Bitcoin fazem a transição para operações com IA, e estratégias nativas de IA redefinem a competitividade em tecnologia financeira e além.

CryptoFrontier4h atrás

OpenAI lança modelo de Filtro de Privacidade open-source para detecção e remoção de PII

Resumo: O Filtro de Privacidade da OpenAI é um modelo de código aberto, executável localmente, que detecta e remove dados pessoais (PII) no texto. Ele oferece suporte a contextos grandes, identifica muitas categorias de PII e é destinado a fluxos de trabalho que preservam a privacidade, como preparação de dados, indexação, registro (logging) e moderação. O Filtro de Privacidade da OpenAI é um modelo de código aberto executado localmente (128k-token context) que detecta e remove PII no texto, cobrindo dados de contato, financeiros e de credenciais para fluxos de trabalho de privacidade.

GateNews5h atrás
Comentário
0/400
Sem comentários