Mythos 5 让通才型博士在 16 小时生物防御红队中胜过专才

根据 Anthropic 的系统卡披露,Mythos 5 模型使通才型微生物学家在一项历时 16 小时的生物防御红队演练中表现优于专才,其中 3 个通才团队中的 2 个在科学质量与可行性方面超越了全部 3 个专家团队。专家估计,在没有 AI 协助的情况下,该任务通常需要 40 到 95 个工作日,平均为 72.5 天。

不过,Anthropic 指出,Mythos 5 仍然在自主研究能力方面受限。该模型在开放式灵感生成方面表现较弱,更倾向于对现有文献进行重组,而非提出全新的方法;即使在识别出缺陷之后,仍可能继续推进有问题的框架。CUSP 科学预测基准印证了这些结论:GPT-5.4 在机制识别任务上的准确率达到 81.9%,但在关于科学进展是否实际会成功的二元分类上仅为 45.3% 到 51.9%,接近随机猜测水平。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论