V4-Pro 在內部自我測試中達到 67% 程式通過率,接近 Opus 4.5 的效能

Gate News 消息,4 月 24 日 — V4 已公開披露其 V4-Pro 模型的內部自我測試(dogfooding)數據。該公司從超過 50 位工程師收集了約 200 項真實世界的工程任務,涵蓋功能開發、錯誤修復、重構以及跨技術棧的診斷,包括 PyTorch、CUDA、Rust 和 C++。經過嚴格篩選後,保留了 30 項任務用於基準評估。

V4-Pro-Max 的程式通過率達到 67%,顯著超越 Sonnet 4.5 的 47%,並接近 Opus 4.5 的 70%。不過,它仍落後於 Opus 4.5 Thinking (73%) 與 Opus 4.6 Thinking (80%),同時遠高於 Haiku 4.5 的 13%。

在一項包含 85 位受訪者的內部調查中,所有參與者都表示在日常工作流程中使用 V4-Pro 進行具代理(agentic)的程式編寫。52% 將 V4-Pro 作為其預設的主要程式模型,39% 傾向於表示批准,而不到 9% 表達不認同。回報的問題包括底層錯誤、對含糊指令的誤解,以及偶爾出現過度思考的行為。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆