A Tilde Research descobre que o otimizador Muon mata 25% dos neurónios; a alternativa Aurora atinge um ganho de eficiência de dados de 100x

De acordo com a Tilde Research, o optimizador Muon adoptado por modelos de IA de topo, incluindo o DeepSeek V4 e o Kimi K2.5, tem uma falha oculta: faz com que mais de 25% dos neurónios da camada MLP morram permanentemente durante o treino inicial. A equipa concebeu a Aurora, um optimizador alternativo, e disponibilizou-a como open-source. Um modelo com 1,1B parâmetros treinado com apenas 100B tokens atingiu o desempenho do Qwen3-1,7B treinado com 36T tokens em benchmarks de compreensão de linguagem como HellaSwag e Winogrande, demonstrando uma melhoria de eficiência de dados de cerca de 100x. A Aurora acrescenta 6% de sobrecarga computacional em comparação com o Muon e pode servir como substituto directo.
Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário