MiniMax lanza en código abierto una biblioteca de Sparse Attention para Blackwell con pesos M3 que llega el viernes

De acuerdo con Ryan Lee, director de relaciones con desarrolladores de MiniMax, la empresa ha publicado como open-source MiniMax Sparse Attention (MSA), una biblioteca de atención de alto rendimiento para GPU NVIDIA Blackwell (SM100), bajo la licencia MIT. Lee anunció que los pesos del modelo M3 se lanzarán el viernes 13 de junio.

Cuando se aplica a la inferencia de contexto de un millón de tokens de MiniMax-M3, MSA reduce el cómputo de la atención en 28,4x en comparación con Dense GQA con una configuración equivalente. En GPU H800, la biblioteca logró una mejora de pre-fill de 14,2x y una aceleración de decodificación de 7,6x.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios