Согласно техническому блогу MiniMax, компания обнаружила существенную деградацию токенов в моделях серии M2 после полного сканирования словаря. Примерно 4,9% из 200 000 токенов показали заметное падение производительности; сильнее всего пострадали японские токены — 29,7% по сравнению с корейскими (3,3%), русскими (3,7%), китайскими (3,9%) и английскими (3,5%). Деградация связана с тем, что токены низкой частоты во время постобучения принудительно смещаются в неверные направления в векторном пространстве; при этом маркеры высокочастотных токенов, например tool_call, постоянно обновляют параметры вокруг.
MiniMax внедрила исправление с использованием синтетических данных через простые задачи на повторение токенов, чтобы стабилизировать весь словарь. Результаты были мгновенными: доля русских символов, смешивающихся в японские ответы, снизилась с 47% до 1%, а стабильность векторов (косинусное сходство) улучшилась с минимума 0,329 до значения выше 0,97 для всех токенов.