За словами Раяна Лі, керівника напрямку developer relations у MiniMax, компанія оприлюднила у відкритому доступі MiniMax Sparse Attention (MSA) — бібліотеку високопродуктивного attention для GPU NVIDIA Blackwell (SM100) — під ліцензією MIT. Лі оголосив, що ваги моделі M3 стартують у п’ятницю, 13 червня.
Під час застосування до інференсу в контексті MiniMax-M3 на мільйон токенів MSA зменшує обчислення attention на 28,4x порівняно з Dense GQA за еквівалентної конфігурації. На GPU H800 бібліотека досягла приросту швидкості pre-fill у 14,2x і прискорення декодування у 7,6x.