Nous Research publica en código abierto Lighthouse Attention con una aceleración de 17x en B200 para contexto de 512K

Según Beating, Nous Research ha publicado como código abierto Lighthouse Attention, un mecanismo de entrenamiento de contexto largo que logra una aceleración de 17x para el procesamiento de textos de 512K de longitud en una sola GPU B200, y una aceleración de entrenamiento de extremo a extremo de 1,4–1,7x con una longitud de 98K. La técnica utiliza un enfoque de “lo grueso a lo fino”: primero explora resúmenes comprimidos en distintos niveles para identificar segmentos clave y, luego, pasa el texto filtrado a FlashAttention para su procesamiento. En pruebas con un modelo de 5,3 mil millones de parámetros entrenado con 50 mil millones de tokens, el enfoque no solo redujo el tiempo de entrenamiento, sino que también igualó o superó el rendimiento base del entrenamiento basado en atención completa.
Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios