MiniMax Memindai 200 Ribu Token, Menemukan Degradasi 4,9% pada Model Seri M2

Menurut blog teknis MiniMax, perusahaan menemukan degradasi token yang signifikan pada model seri M2 melalui pemindaian kosakata lengkap. Sekitar 4,9% dari 200.000 token menunjukkan penurunan kinerja yang menonjol, dengan token bahasa Jepang paling terdampak sebesar 29,7%, dibandingkan dengan Korea (3,3%), Rusia (3,7%), Tiongkok (3,9%), dan Inggris (3,5%). Degradasi berasal dari token berfrekuensi rendah yang didorong ke arah ruang vektor yang salah selama post-training, ketika token berfrekuensi tinggi seperti penanda tool_call terus memperbarui parameter di sekitarnya.

MiniMax menerapkan perbaikan berbasis data sintetis menggunakan tugas repetisi token sederhana untuk menstabilkan seluruh kosakata. Hasilnya langsung terlihat: karakter Rusia yang bercampur dalam respons bahasa Jepang turun dari 47% menjadi 1%, dan stabilitas vektor (cosine similarity) meningkat dari titik terendah 0,329 menjadi di atas 0,97 di seluruh token.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar