Nous Research veröffentlicht Open-Source Lighthouse Attention mit 17-fachem Speedup auf B200 für 512K-Context

Laut Beating hat Nous Research Lighthouse Attention Open-Source veröffentlicht – eine Long-Context-Trainingsmethode, die bei der Verarbeitung von Text mit einer Länge von 512K auf einer einzelnen B200-GPU eine 17-fache Beschleunigung erreicht und bei einer Länge von 98K eine 1,4- bis 1,7-fache End-to-End-Trainingsbeschleunigung. Die Technik setzt auf einen grob-zu-fein-Ansatz: Zuerst werden komprimierte Zusammenfassungen auf unterschiedlichen Ebenen gescannt, um Kernsegmente zu identifizieren, anschließend wird der gefilterte Text zur Verarbeitung an FlashAttention übergeben. In Tests mit einem Modell mit 5,3 Milliarden Parametern, das auf 50 Milliarden Tokens trainiert wurde, verkürzte das Vorgehen nicht nur die Trainingszeit, sondern erreichte auch die Basislinien-Performance des vollständig auf Attention basierenden Trainings bzw. übertraf sie.
Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare