Cursor公開MoE推理優化技術Warp Decode，Blackwell GPU上吞吐量提升1.84倍

区块律动

2026-04-07 01:21:09

據 1M AI News 監測，AI 編程工具 Cursor 發布技術部落格，介紹其自研的 MoE（混合專家模型）推理加速方法 Warp Decode。該方法針對英偉達 Blackwell GPU 上的小批量 token 生成情境，將傳統以專家為中心的平行策略翻轉為以輸出為中心：GPU 中每個 warp（32 個並行處理單元組成的最小排程單位）只負責計算一個輸出值，獨立遍歷所有被路由到的專家，並在暫存器中完成累加，無需任何跨 warp 同步或中間緩衝區。

傳統 MoE 推理流水線共 8 個階段，其中 5 個僅用於為專家視圖搬運資料，不執行實際計算。Warp Decode 將整個 MoE 計算層壓縮為 2 個 CUDA kernel，省去了填充、分散、合併等中間步驟，每個 token 減少超過 32KB 的中間緩衝區讀寫。

在英偉達 B200 GPU 上以 Qwen-3 風格模型實測，Warp Decode 實現 1.84 倍端到端解碼吞吐量提升，且因全程以 BF16/FP32 精度計算、避免了中間量化損失，輸出精度比傳統路徑接近 FP32 基準值 1.4 倍。硬體頻寬利用率方面，批次大小為 32 時持續吞吐達 3.95 TB/s，約為 B200 峰值頻寬（6.8 TB/s）的 58%。該最佳化直接加速了 Cursor 自研編程模型 Composer 的研發迭代與版本發布節奏。

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言