據 1M AI News 監測,AI 編程工具 Cursor 發布技術部落格,介紹其自研的 MoE(混合專家模型)推理加速方法 Warp Decode。該方法針對英偉達 Blackwell GPU 上的小批量 token 生成情境,將傳統以專家為中心的平行策略翻轉為以輸出為中心:GPU 中每個 warp(32 個並行處理單元組成的最小排程單位)只負責計算一個輸出值,獨立遍歷所有被路由到的專家,並在暫存器中完成累加,無需任何跨 warp 同步或中間緩衝區。
傳統 MoE 推理流水線共 8 個階段,其中 5 個僅用於為專家視圖搬運資料,不執行實際計算。Warp Decode 將整個 MoE 計算層壓縮為 2 個 CUDA kernel,省去了填充、分散、合併等中間步驟,每個 token 減少超過 32KB 的中間緩衝區讀寫。
在英偉達 B200 GPU 上以 Qwen-3 風格模型實測,Warp Decode 實現 1.84 倍端到端解碼吞吐量提升,且因全程以 BF16/FP32 精度計算、避免了中間量化損失,輸出精度比傳統路徑接近 FP32 基準值 1.4 倍。硬體頻寬利用率方面,批次大小為 32 時持續吞吐達 3.95 TB/s,約為 B200 峰值頻寬(6.8 TB/s)的 58%。該最佳化直接加速了 Cursor 自研編程模型 Composer 的研發迭代與版本發布節奏。