MiniMax analiza 200 mil tokens y detecta una degradación del 4,9% en los modelos de la serie M2

Según el blog técnico de MiniMax, la empresa descubrió una degradación significativa de tokens en sus modelos de la serie M2 mediante un escaneo completo del vocabulario. Aproximadamente el 4,9% de los 200.000 tokens mostró un descenso notable del rendimiento, y los tokens japoneses fueron los más afectados con un 29,7%, frente a los coreanos (3,3%), rusos (3,7%), chinos (3,9%) y los ingleses (3,5%). La degradación se origina porque los tokens de baja frecuencia se empujan hacia direcciones incorrectas del espacio vectorial durante el post-entrenamiento, donde los tokens de alta frecuencia como los marcadores de tool_call actualizan continuamente los parámetros que los rodean.

MiniMax implementó una solución con datos sintéticos usando tareas simples de repetición de tokens para estabilizar todo el vocabulario. Los resultados fueron inmediatos: los caracteres rusos mezclados en respuestas japonesas bajaron del 47% al 1%, y la estabilidad del vector (similitud coseno) mejoró, pasando de un mínimo de 0,329 a más de 0,97 en todos los tokens.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios