Ramp Labs 提出多智能體記憶共享新方案，Token 消耗最高降低 65%

GateNews

2026-04-11 05:14:49

閘道消息，4 月 11 日，AI 基礎設施公司 Ramp Labs 發布研究成果「Latent Briefing」，透過直接壓縮大模型 KV 快取，實現多智能體系統之間的高效記憶共享；在不損失準確率的前提下，大幅降低 Token 消耗。在主流多智能體架構中，編排者（Orchestrator）將任務拆解並反覆呼叫工作者（Worker）模型，隨著推理鏈路不斷延伸，Token 用量呈指數級膨脹。Latent Briefing 的核心思路是借助注意力機制識別上下文中真正關鍵的部分，於表示層直接丟棄冗餘資訊，而非依賴速度慢的 LLM 摘要或穩定性差的 RAG 檢索。在 LongBench v2 基準測試中，該方法表現亮眼：Worker 模型 Token 消耗降低 65%，中等長度文件（32k 至 100k）的 Token 節省中位數達 49%，整體準確率較基線提升約 3 個百分點；而每次壓縮的額外耗時僅約 1.7 秒，較原始演算法提速約 20 倍。實驗以 Claude Sonnet 4 作為編排者、Qwen3-14B 作為工作者模型，涵蓋學術論文、法律文書、小說及政府報告等多種文件情境。研究還發現，最佳壓縮閾值會因任務難度與文件長度而異——難題適合採取激進壓縮以過濾投機性推理雜訊，長文件則更適合輕度壓縮以保留分散的關鍵資訊。

View Source

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言