Nous Research Mở mã nguồn Lighthouse Attention với tốc độ nhanh hơn 17 lần trên B200 cho ngữ cảnh 512K

Theo Beating, Nous Research đã công bố mã nguồn mở Lighthouse Attention, một cơ chế huấn luyện cho ngữ cảnh dài giúp tăng tốc 17 lần cho việc xử lý văn bản dài 512K trên một GPU B200 duy nhất, đồng thời tăng tốc huấn luyện end-to-end 1,4–1,7 lần ở độ dài 98K. Kỹ thuật này sử dụng phương pháp thô đến tinh: trước tiên, nó quét các bản tóm tắt đã được nén ở nhiều mức độ khác nhau để xác định các đoạn cốt lõi, sau đó chuyển phần văn bản đã lọc sang FlashAttention để xử lý. Trong các thử nghiệm với một mô hình 5,3 tỷ tham số được huấn luyện trên 50 tỷ token, cách tiếp cận này không chỉ rút ngắn thời gian huấn luyện mà còn đạt mức tương đương hoặc vượt hiệu năng nền của huấn luyện dựa hoàn toàn vào cơ chế attention.
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận