ตามที่ Ryan Lee หัวหน้าฝ่ายความสัมพันธ์นักพัฒนาของ MiniMax ระบุ บริษัทได้เปิดซอร์ส MiniMax Sparse Attention (MSA) ซึ่งเป็นไลบรารีการประมวลผลความสนใจประสิทธิภาพสูงสำหรับ GPU NVIDIA Blackwell (SM100) ภายใต้ใบอนุญาต MIT Lee ประกาศว่า น้ำหนักโมเดล M3 จะเปิดตัวในวันศุกร์ที่ 13 มิถุนายน
เมื่อใช้กับการอนุมานบริบทขนาด million-token ของ MiniMax-M3 MSA จะลดการคำนวณ attention ลง 28.4x เมื่อเทียบกับ Dense GQA ในการตั้งค่าระดับเดียวกัน บน GPU H800 ไลบรารีดังกล่าวทำความเร็ว pre-fill ได้เร็วขึ้น 14.2x และเร่งความเร็วการถอดรหัส (decoding) ได้ 7.6x