MiniMax scannt 200.000 Tokens und entdeckt eine 4,9%ige Verschlechterung in M2-Serienmodellen

Laut dem technischen Blog von MiniMax hat das Unternehmen durch einen vollständigen Vokabel-Scan eine erhebliche Token-Degradation in seinen M2-Serienmodellen entdeckt. Ungefähr 4,9% der 200.000 Tokens zeigten einen deutlichen Leistungsabfall; am stärksten betroffen waren japanische Tokens mit 29,7% – im Vergleich zu Koreanisch (3,3%), Russisch (3,7%), Chinesisch (3,9%) und Englisch (3,5%). Die Degradation entsteht dadurch, dass Tokens mit niedriger Häufigkeit während des Post-Trainings in falsche Richtungen des Vektorraums gedrückt werden, während hochfrequente Tokens wie tool_call-Marker die umgebenden Parameter kontinuierlich aktualisieren.

MiniMax setzte eine Korrektur mit synthetischen Daten um, indem es einfache Token-Wiederholungsaufgaben einsetzte, um das gesamte Vokabular zu stabilisieren. Die Ergebnisse waren sofort: In japanische Antworten gemischte russische Zeichen sanken von 47% auf 1%, und die Vektor-Stabilität (Kosinus-Ähnlichkeit) verbesserte sich von einem Tiefstwert von 0,329 auf über 0,97 bei allen Tokens.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare