根據 Beating,Nous Research 已將 Lighthouse Attention 開源。這是一種長上下文訓練機制,可在單一 B200 GPU 上,將 512K 長度文字處理速度提升 17 倍,並在 98K 長度時提供 1.4–1.7 倍的端到端訓練加速。該技術採用粗到細的方法:先在不同層級掃描壓縮摘要以辨識核心片段,接著將篩選後的文本交由 FlashAttention 進行處理。在針對一個於 500 億 tokens 訓練的 51.2萬參數模型進行測試時,此方法不僅縮短了訓練時間,還達到或超越了全注意力式訓練的基準效能。
免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱
免責聲明。