MiniMax сканує 200 тис. токенів і виявляє 4,9% деградації в моделях серії M2

Згідно з технічним блогом MiniMax, компанія виявила суттєву деградацію токенів у своїх моделях серії M2 під час повного сканування словника. Близько 4,9% із 200 000 токенів показали помітне падіння продуктивності, причому найсильніше постраждали японські токени — 29,7% проти корейських (3,3%), російських (3,7%), китайських (3,9%) та англійських (3,5%). Деградація спричинена токенами низької частоти, які під час посттренування спрямовуються в неправильні напрямки векторного простору, тоді як маркери high-frequency токенів, зокрема tool_call, безперервно оновлюють параметри навколо.

MiniMax упровадила виправлення на основі синтетичних даних із використанням простих задач на повторення токенів, щоб стабілізувати весь словник. Результати були миттєвими: російські символи, що змішувалися в японські відповіді, знизилися з 47% до 1%, а стабільність векторів (косинусна подібність) покращилася з мінімуму 0,329 до понад 0,97 для всіх токенів.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів