Nous Research open-source Lighthouse Attention avec un gain de vitesse de 17x sur B200 pour un contexte de 512K

D’après Beating, Nous Research a open-sourcé Lighthouse Attention, un mécanisme d’entraînement sur long contexte qui permet d’obtenir un accélération de 17x pour le traitement de texte de 512K caractères sur un seul GPU B200, et une accélération d’entraînement de bout en bout de 1,4–1,7x pour une longueur de 98K. La technique utilise une approche grossière à fine : elle commence par analyser des résumés compressés à différents niveaux pour identifier les segments essentiels, puis transmet le texte filtré à FlashAttention pour le traitement. Lors de tests sur un modèle de 5,3 milliards de paramètres entraîné sur 50 milliards de tokens, l’approche a non seulement réduit le temps d’entraînement, mais a aussi égalé ou dépassé la performance de référence d’un entraînement reposant entièrement sur l’attention.
Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire