在重複的記憶摘要之後,ARC-AGI 上的 GPT-5.4 準確率從 100% 下降至 54%

根據 Beating,伊利諾伊大學的博士生 Dylan Zhang 所進行的一項近期「代理(Agent)記憶」研究發現,反覆摘要化模型的經驗可能會降低表現,而不是提升它。在 ARC-AGI 任務中,GPT-5.4 在不使用記憶的情況下,於 19 個問題上達到 100% 準確率;但在基於正確解題軌跡進行多輪記憶壓縮之後,準確率降至 54%。同樣地,在 WebShop 購物任務中,AWM 記憶方法在 8 條專家軌跡時得分為 0.64,但在 128 條軌跡時降至 0.20,並回到基準值。研究指出,這個問題源於過度摘要:每一步抽象化都會流失特定細節,並將任務專屬的規則合併成通用指引,最終導致模型表現惡化。
免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆