MiniMax analyse 200 000 tokens, découvre une dégradation de 4,9 % dans les modèles de la série M2

D’après le blog technique de MiniMax, la société a découvert une dégradation significative des jetons dans ses modèles de la série M2 grâce à un scan complet du vocabulaire. Environ 4,9% des 200 000 jetons ont montré une baisse notable des performances, les jetons japonais étant les plus touchés avec 29,7%, contre 3,3% pour le coréen, 3,7% pour le russe, 3,9% pour le chinois et 3,5% pour l’anglais. La dégradation provient du fait que des jetons à basse fréquence sont poussés vers de mauvaises directions d’espace vectoriel pendant le post-entraînement, où des jetons à haute fréquence comme les marqueurs tool_call mettent continuellement à jour les paramètres environnants.

MiniMax a mis en place un correctif de données synthétiques en utilisant des tâches simples de répétition de jetons afin de stabiliser l’ensemble du vocabulaire. Les résultats ont été immédiats : les caractères russes mélangés dans les réponses japonaises sont passés de 47% à 1%, et la stabilité des vecteurs (similarité cosinus) s’est améliorée, passant d’un plus bas de 0,329 à plus de 0,97 sur l’ensemble des jetons.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire