Tilde Research découvre que l’optimiseur Muon détruit 25% des neurones ; l’alternative Aurora atteint un gain d’efficacité des données de 100x

D'après Tilde Research, l’optimiseur Muon adopté par les principaux modèles d’IA, dont DeepSeek V4 et Kimi K2.5, présente une faille cachée : il fait mourir de façon permanente plus de 25% des neurones des couches MLP pendant l’entraînement initial. L’équipe a conçu Aurora, un optimiseur alternatif, et l’a open-source. Un modèle de 1,1 milliard de paramètres entraîné avec seulement 100 milliards de tokens a atteint les performances de Qwen3-1,7B entraîné sur 36 T tokens sur des bancs d’essai de compréhension du langage comme HellaSwag et Winogrande, démontrant environ 100 fois une amélioration de l’efficacité des données. Aurora ajoute 6% de surcharge de calcul par rapport à Muon et peut servir de remplacement direct.
Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire