Menurut Ryan Lee, kepala developer relations MiniMax, perusahaan telah merilis open-source MiniMax Sparse Attention (MSA), pustaka attention berperforma tinggi untuk GPU NVIDIA Blackwell (SM100), di bawah lisensi MIT. Lee mengumumkan bobot model M3 akan diluncurkan pada Jumat, 13 Juni.
Saat diterapkan pada inferensi konteks token sejuta milik MiniMax-M3, MSA menurunkan komputasi attention sebesar 28,4x dibanding Dense GQA pada konfigurasi yang setara. Di GPU H800, pustaka tersebut mencapai percepatan pre-fill 14,2x dan percepatan decoding 7,6x.