По данным Tilde Research, оптимизатор Muon, который используют ведущие AI-модели, включая DeepSeek V4 и Kimi K2.5, имеет скрытый недостаток: он приводит к тому, что более 25% нейронов в слоях MLP необратимо умирают в ходе раннего обучения. Команда разработала Aurora — альтернативный оптимизатор — и открыла его исходный код. Модель с 1,1 млрд параметров, обученная всего на 100 млрд токенов, показала сопоставимую производительность с Qwen3-1,7B, обученной на 36 трлн токенов, на бенчмарках понимания языка вроде HellaSwag и Winogrande, продемонстрировав примерно 100-кратное улучшение эффективности данных. Aurora добавляет 6% вычислительных накладных расходов по сравнению с Muon и может выступать прямой заменой.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

05-10 01:55

TeraWulf публикует $427M Q1 убыток, поскольку доходы от вычислений для ИИ растут на 117% и обгоняют майнинг Bitcoin

05-09 11:17

Google DeepMind AI со-математик достиг 47,9% на FrontierMath Tier 4, обогнав GPT-5.5 Pro, и решил 3 ранее неразрешимые задачи

05-09 09:54

Система вознаграждений OpenAI непреднамеренно оценивает цепочки рассуждений на 6 моделях, включая GPT-5.4

05-09 07:41

MiniMax просканировала 200 тыс. токенов и обнаружила деградацию на 4,9% в моделях серии M2

05-09 05:52

Deepseek планирует обновление модели V4 к релизу в июне

Детальный анализ

Опрос ФРС показывает, что обеспокоенность ИИ растёт на рынках, в кредитовании и занятости

Coinpedia05-10 03:39

NVIDIA открывает долгосрочного партнёра по ИИ Deepinfra — 107 млн долларов серии B для создания «фабрики токенов»

ChainNewsAbmedia05-10 00:04

OpenAI раскрывает неожиданные последствия оценки CoT: сохранение мониторинга цепочек рассуждений — ключевая линия защиты для настройки AI-агентов к целям

ChainNewsAbmedia05-09 07:34

комментарий

0/400

Нет комментариев