🚨 ANTHROPIC 設定了新的基準,推出 CLAUDE OPUS 4.7


此版本更注重可靠性與執行,而非純性能。
它引入能持續運行數小時且不偏離的代理,並降低幻覺現象與提升校準。安全性也得到加強,對提示注入與越獄攻擊的抵抗力更佳。
模型仍保持一百萬詞元的上下文窗口,但現在在大輸入中展現出更有效的檢索與推理能力。
一個關鍵新增是“例行程序”。
這些是由 API、排程或事件觸發的持久工作流程,允許任務在背景中自主運行。
這就是轉變:
AI 正從助手轉向基礎設施。
在 SWE-bench 上得分 64.3%,高於 53.4%
在經過驗證的代理編碼上達到 87.6%
在擴展工具使用上達到 77.3%
在現實世界電腦任務上達到 78.0%
它也改善了模型通常會退化的領域:
代理搜索達到 79.3%
金融分析達到 64.4%
多語言問答達到 91.5%
而且,長上下文推理的能力依然穩固:
使用工具的視覺推理超過 90%
在研究生水平基準中達到 94.2%
這是重點:
這不是追求最高分數。
而是追求跨領域的一致性。
Opus 4.7 並非在每個類別都領先。
但它在所有領域都表現穩定。
這才是實際應用系統所需。
前沿已不僅僅是智慧。
而是面對真實工作負載時的穩定性。
查看原文
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言