Tilde Research обнаруживает, что оптимизатор Muon убивает 25% нейронов; Aurora Alternative обеспечивает прирост эффективности работы с данными в 100 раз

По данным Tilde Research, оптимизатор Muon, который используют ведущие AI-модели, включая DeepSeek V4 и Kimi K2.5, имеет скрытый недостаток: он приводит к тому, что более 25% нейронов в слоях MLP необратимо умирают в ходе раннего обучения. Команда разработала Aurora — альтернативный оптимизатор — и открыла его исходный код. Модель с 1,1 млрд параметров, обученная всего на 100 млрд токенов, показала сопоставимую производительность с Qwen3-1,7B, обученной на 36 трлн токенов, на бенчмарках понимания языка вроде HellaSwag и Winogrande, продемонстрировав примерно 100-кратное улучшение эффективности данных. Aurora добавляет 6% вычислительных накладных расходов по сравнению с Muon и может выступать прямой заменой.
Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев