Os dados de treino do DeepSeek V4 duplicaram para 33T, despoletando instabilidade que atrasou o lançamento

Mensagem de Gate News, 24 de abril — O relatório técnico V4 da DeepSeek revela que o V4-Flash e o V4-Pro foram pré-treinados em 32T e 33T tokens, respetivamente, o dobro dos aproximadamente 15T tokens usados para o V3. O relatório reconhece ter encontrado “desafios significativos de instabilidade” durante o treino, com picos de perda a ocorrer repetidamente devido a anomalias na camada Mixture-of-Experts (MoE); o mecanismo de routing em si agrava estas anomalias, e um simples rollback não consegue resolver o problema.

DeepSeek implementou duas soluções agora aplicadas ao treino real: Routing Antecipatório, que desacopla o cálculo do índice de routing das atualizações da rede backbone e ativa automaticamente apenas quando são detetados picos de perda (adicionando aproximadamente 20% de sobrecarga), e SwiGLU Clamping, que suprime diretamente as anomalias ao limitar os valores de ativação a um intervalo fixo. O relatório afirma que as duas abordagens são eficazes, mas admite que “os princípios subjacentes permanecem insuficientemente compreendidos.”

Susan Zhang, uma investigadora da Google DeepMind que anteriormente trabalhou na Meta AI e na OpenAI, comentou que a instabilidade despoletada pelo dobro dos dados de treino “explica o atraso”. Ela descreveu as duas soluções como “band-aids” enquanto reconhecia a transparência técnica da DeepSeek.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Infraestrutura Web3 para IA: AIW3 angaria $2M em financiamento semente liderado pela Buffalo Capital

Notícia do Gate, 24 de abril — A plataforma de infraestrutura Web3 para IA, AIW3, anunciou a conclusão de uma ronda de financiamento semente no valor de $2 milhões. A ronda foi liderada pela Buffalo Capital, com a GalaXin Capital e a Three-stones Ventures a participarem como co-investidoras. A AIW3 está a transitar para um paradigma de execução on-chain Agent-as-a-Service

GateNews16m atrás

Cohere Adquire Empresa Alemã de IA Aleph Alpha, Garante $600M Investimento para Expansão na Europa

Mensagem de Notícias do Gate, 24 de abril — A empresa canadiana de IA Cohere anunciou planos para adquirir a empresa alemã de IA Aleph Alpha, para reforçar a sua presença na Europa. A Schwarz Group, apoiadora da Aleph Alpha, planeia investir $600 milhões na ronda de financiamento Série E da Cohere. Espera-se que a ronda de financiamento seja concluída em 202

GateNews58m atrás

Xpeng e Xiaomi lideram avanço de IA no automóvel no Beijing Auto Show

Notícia do Gate, 24 de Abril — Os fabricantes automóveis chineses mostraram sistemas avançados de IA para automóveis no Beijing Auto Show a 24 de Abril, enquanto o país acelera a sua estratégia AI Plus e procura uma maior independência de semicondutores estrangeiros. A Xpeng demonstrou um estacionamento controlado por voz que permite aos condutores de emitir comandos falados em vez de selecionar manualmente localizações.

GateNews1h atrás

Antigo Engenheiro da ByteDance Seed: A iteração de IA da ByteDance demora seis meses, em comparação com os três meses do Google

Mensagem de Gate News, 24 de abril — Zhang Chi, um antigo engenheiro da equipa Seed da ByteDance e atualmente professor assistente na Universidade de Pequim, revelou no podcast "Into Asia" que a ByteDance necessita de aproximadamente seis meses para concluir um ciclo completo de treino de pré-formação de modelos de linguagem de grande dimensão (pretraining

GateNews1h atrás

Engenheiro da OpenAI Clive Chan ContestA as Recomendações de Hardware da V4, Apontando Erros e Ambiguidade Face à V3

Mensagem do Gate News, 24 de Abril — O engenheiro da OpenAI Clive Chan apresentou objecções detalhadas ao capítulo de recomendações de hardware no relatório técnico V4, chamando-lhe "surpreendentemente medíocre e propenso a erros" em comparação com a aclamada versão V3. A orientação de hardware da V3, que incluía sessões de Q&A

GateNews2h atrás

Naver Launches AI Tab Beta as Google Gemini Enters South Korea Search Market

Gate News message, April 24 — Naver announced the start of a closed beta for AI Tab, its new conversational search feature, following Google's launch of Gemini in Chrome in South Korea. AI Tab will appear alongside Naver's existing search tabs, offering users a dedicated space for conversational

GateNews2h atrás
Comentar
0/400
Nenhum comentário