Tilde Research виявляє, що Muon Optimizer знищує 25% нейронів; альтернативний Aurora досягає приросту ефективності збирання даних у 100 разів

За даними Tilde Research, оптимізатор Muon, який використовують провідні моделі ШІ, зокрема DeepSeek V4 та Kimi K2.5, має прихований недолік: він спричиняє, що понад 25% нейронів шарів MLP назавжди гинуть під час раннього тренування. Команда розробила Aurora — альтернативний оптимізатор — і відкрила його код. Модель із 1,1B параметрами, натренована лише на 100B токенів, досягла продуктивності на рівні Qwen3-1.7B, навченої на 36T токенів, у бенчмарках розуміння мови, зокрема HellaSwag і Winogrande, що демонструє приблизно 100-кратне підвищення ефективності використання даних. Aurora додає 6% обчислювальних витрат порівняно з Muon і може бути прямою заміною.
Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів