GLM 5.2 在 Vending-Bench 2 長期商業模擬中排名第二,顯示每月利潤增長約 1000 美元

根據 Andon Labs 最新的 Vending-Bench 2 評估,GLM 5.2 在長期商業模擬測試中排名第二。該基準模擬了一家自動販賣機公司的 365 天營運,模型根據財務數據每天做出庫存和定價決策,以評估在長期任務中的決策連貫性。

GLM 版本展現出穩定的線性成長,平均每月利潤改善近 1000 美元(GLM 5 平均得分 4432 美元,GLM 5.1 達到 5634 美元)。相比之下,Kimi K2.7 Code 相對於 K2.6 表現不佳,而 Minimax M3 較 M2.5 有顯著改善,但整體盈利能力仍遠低於 Kimi 和 GLM 系列。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆