Laut Ryan Lee, dem Leiter für Developer Relations von MiniMax, hat das Unternehmen MiniMax Sparse Attention (MSA) unter der MIT-Lizenz Open Source gestellt – eine leistungsstarke Attention-Bibliothek für NVIDIA-Blackwell (SM100)-GPUs. Lee kündigte an, dass die M3-Modellgewichte am Freitag, den 13. Juni, starten werden.
Wenn sie auf die millionen-token-Context-Inferenz von MiniMax-M3 angewendet wird, reduziert MSA die Berechnung der Attention um 28,4x im Vergleich zu Dense GQA bei gleicher Konfiguration. Auf H800-GPUs erreichte die Bibliothek 14,2x schnellere Pre-Fill-Phasen und 7,6x schnellere Decoding-Acceleration.