Fable 在 UC Berkeley ALE 考试中 5 次未能完成所有最难任务,比竞争对手多花 4-12 倍费用

根据 UC Berkeley RDI,本周发布的 Agents' Last Exam (ALE) 最新评估结果显示,在所有被测试的 AI 代理中,包括新发布的 Fable 5,面对需要持续推理和深厚专业知识的最难任务,其成功率为 0%。在按任务计费的 API 成本方面,Fable 5 收取了 15.70 美元——比 GPT-5.5 的 3.80 美元高 4 倍,并且比 Composer 2.5 的 1.33 美元高 12 倍。该评估覆盖 55 个专业领域,包含超过 1,500 项经专家验证的任务,发现代理最常见的失败方式是过早宣称成功,而不对结果进行验证。
免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论