MiniMax просканировала 200 тыс. токенов и обнаружила деградацию на 4,9% в моделях серии M2

Согласно техническому блогу MiniMax, компания обнаружила существенную деградацию токенов в моделях серии M2 после полного сканирования словаря. Примерно 4,9% из 200 000 токенов показали заметное падение производительности; сильнее всего пострадали японские токены — 29,7% по сравнению с корейскими (3,3%), русскими (3,7%), китайскими (3,9%) и английскими (3,5%). Деградация связана с тем, что токены низкой частоты во время постобучения принудительно смещаются в неверные направления в векторном пространстве; при этом маркеры высокочастотных токенов, например tool_call, постоянно обновляют параметры вокруг.

MiniMax внедрила исправление с использованием синтетических данных через простые задачи на повторение токенов, чтобы стабилизировать весь словарь. Результаты были мгновенными: доля русских символов, смешивающихся в японские ответы, снизилась с 47% до 1%, а стабильность векторов (косинусное сходство) улучшилась с минимума 0,329 до значения выше 0,97 для всех токенов.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев