Tilde Research descubre que el optimizador Muon mata el 25% de las neuronas; la alternativa Aurora logra una ganancia de eficiencia de datos 100x

Según Tilde Research, el optimizador Muon adoptado por modelos de IA líderes, incluido DeepSeek V4 y Kimi K2.5, tiene una falla oculta: hace que más del 25% de las neuronas de la capa MLP mueran de forma permanente durante el entrenamiento inicial. El equipo diseñó Aurora, un optimizador alternativo, y lo publicó como código abierto. Un modelo de 1,1B parámetros entrenado con solo 100B tokens igualó el rendimiento de Qwen3-1.7B entrenado con 36T tokens en benchmarks de comprensión del lenguaje como HellaSwag y Winogrande, demostrando una mejora de eficiencia de datos de aproximadamente 100x. Aurora agrega un 6% de sobrecarga computacional en comparación con Muon y puede servir como reemplazo directo.
Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios