Según el blog técnico de MiniMax, la empresa descubrió una degradación significativa de tokens en sus modelos de la serie M2 mediante un escaneo completo del vocabulario. Aproximadamente el 4,9% de los 200.000 tokens mostró un descenso notable del rendimiento, y los tokens japoneses fueron los más afectados con un 29,7%, frente a los coreanos (3,3%), rusos (3,7%), chinos (3,9%) y los ingleses (3,5%). La degradación se origina porque los tokens de baja frecuencia se empujan hacia direcciones incorrectas del espacio vectorial durante el post-entrenamiento, donde los tokens de alta frecuencia como los marcadores de tool_call actualizan continuamente los parámetros que los rodean.
MiniMax implementó una solución con datos sintéticos usando tareas simples de repetición de tokens para estabilizar todo el vocabulario. Los resultados fueron inmediatos: los caracteres rusos mezclados en respuestas japonesas bajaron del 47% al 1%, y la estabilidad del vector (similitud coseno) mejoró, pasando de un mínimo de 0,329 a más de 0,97 en todos los tokens.