MiniMax Scans 200 mil tokens, descobre uma degradação de 4,9% nos modelos da série M2

De acordo com o blog técnico da MiniMax, a empresa descobriu uma degradação significativa dos tokens nos seus modelos da série M2 através de uma varredura completa do vocabulário. Aproximadamente 4,9% dos 200.000 tokens apresentaram uma queda notável de desempenho, com os tokens japoneses a serem os mais afetados, 29,7%, em comparação com o coreano (3,3%), o russo (3,7%), o chinês (3,9%) e o inglês (3,5%). A degradação resulta de tokens de baixa frequência serem empurrados para direções incorretas no espaço vetorial durante o pós-treino, onde tokens de alta frequência, como os marcadores de tool_call, atualizam continuamente os parâmetros em torno.

A MiniMax implementou uma correção com dados sintéticos usando tarefas simples de repetição de tokens para estabilizar todo o vocabulário. Os resultados foram imediatos: os caracteres russos misturados nas respostas japonesas desceram de 47% para 1%, e a estabilidade dos vetores (semelhança cosseno) melhorou de um mínimo de 0,329 para acima de 0,97 em todos os tokens.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário