Claude Opus 4.5 登场！准确率大赢 GPT-5.1 与 Gemini 3，乐天：自我进化强

2025-11-25 08:54:29

就在 Google 推出 Gemini 3 后一周，Anthropic 也于 11/25 宣布推出最新旗舰模型 Claude Opus 4.5，更表示该版本在写程式、AI 代理操作与使用电脑应用上大幅升级，还能处理更长的对话内容。Anthropic 的开发者关系主管 Alex Albert 甚至在受访时也对此表示：「这就是全世界最聪明的模型。」

Claude Opus 4.5 最强亮点一次看

亮点一：效能打趴 GPT-5.1 与 Gemini 3，强化代理应用

官方将 Opus 4.5 定位为「世界最强模型之一」，并从即日起开放于 App、API 与三大云端平台 (AWS、GCP、Azure) 使用。从 Anthropic 提供的 AI 模型效能对比图可得知：

「Opus 4.5 具有高达 80.9 % 准确率，力压 Gemini 3 Pro 与 GPT-5.1。」

官方表示，这次 Opus 4.5 在写程式、AI Agents、多步骤推理与电脑工具操作特别突出，像是一般工作如长篇研究、PowerPoint、Excel 等应用上表现也明显增强。

而新定价为每百万输入 token 为 5 美元、每百万输出为 25 美元，比前一代 Opus 4.1 更亲民，让更多企业与团队能采用 Opus 等级功能。

亮点二：内部测试一致好评，能理解也能解题

Anthropic 透露，释出测试版后，团队成员给出一致回馈。尤其是：

「Opus 4.5 能处理一些模糊不清的问题、推理权衡，遇到多系统复杂 bug 时会自行摸索解法。」

原本 Sonnet 4.5 几乎做不到的任务，如今 Opus 4.5 能完成。测试者普遍表示 Opus 4.5 很懂「使用者的意思」，官方也认为这带来明显体验差异。

Windsurf、GitHub 等执行长皆为 Opus 4.5 背书亮点三：程式测验创新纪录，两小时考题表现超越人类

Anthropic 指出，公司在招募工程师时会使用一份难度相当高的实作测验。这次在相同的两小时作答时限内，Claude Opus 4.5 的表现竟超越历年所有人类求职者，创下新纪录。

官方补充，这份测验主要评估的是技术能力与压力下的判断力，不涉及合作、沟通等软实力。不过从这次结果可以看出，AI 在工程领域的纯技术层面正以极快速度进步。

亮点四：安全性再强化，对提示注入攻击更难被骗

Anthropic 强调，Opus 4.5 是目前为止「对齐度最高、也是最安全」的模型版本。

这次的安全升级重点在于，模型在面对提示注入攻击时的抵抗力大幅提升，恶意指令不容易被夹带进模型中，也更难欺骗系统误执行不当行为。相较其他前沿模型，Opus 4.5 在相关安全测试中的表现同样拿下最佳成绩。从下图可得知：

「Opus 4.5 与其他知名模型在相同测试条件下，是最不容易被骗，最不容易被提示注入攻击成功，防御表现亮眼。」

亮点五：长对话不断线，Chrome 与 App 全面提升体验

Anthropic 也同时更新多项产品。首先，Claude Code 的 Plan Mode 进一步升级，会先把问题厘清后自动产生可编辑的 plan.md，再进行程式执行。桌面版也加入多重 Session，可同时让多个代理执行不同任务。

一般用户常用的 Claude App 也同步改进，长对话不再因上下文太长而卡住，系统会自动整理前段内容让对话不中断。Claude for Chrome 则全面向 Max 用户开放，可跨分页处理复杂操作。

Claude for Excel 原本仅限 Beta 用户，如今扩大至 Max、Team、Enterprise 用户，并结合 Opus 4.5 强化表格与资料处理能力。最后，Anthropic 也上调整体使用量上限，取消 Opus 专属限制，让 Max 与 Team Premium 用户能以「日常工作量」的级别使用 Opus 4.5，未来若推出更强模型，相关用量也将再调整。

(注：

plan.md

不是外部文件，而是一种 Claude Code 在执行任务前自动生成的「任务计划文件」，格式采用常见的 Markdown。)

两点六：乐天指出 Opus 4.5 具有自我进化功能

其中有个特别亮点，日本乐天 (Rakuten) 指出，Claude Opus 4.5 在自我进化型 AI 代理上展现明显突破。

在办公室自动化的实际应用中，相关代理程式能自行优化能力，只需四次迭代就能达到最佳表现，而其他模型即使跑到十次也追不上同等品质。

乐天强调，这项差异让 Opus 4.5 在企业级应用中展现更高效率。

这篇文章 Claude Opus 4.5 登场！准确率大赢 GPT-5.1 与 Gemini 3，乐天：自我进化强最早出现于链新闻 ABMedia。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

0/400

暂无评论

鏈新聞abmedia

热门话题查看更多
#成长值抽奖赢iPhone17和周边
22.74万热度
#十二月行情展望
2.13万热度
#GIGGLE和PIPPIN强势上涨
3429 热度
#LINKETF将上线
3196 热度
#百倍币种分享
3358 热度

热门 Gate Fun查看更多

1
web3Web3
市值:$3406.89持有人数:1
0.00%
2
POPOPopo
市值:$3441.99持有人数:1
0.29%
3
GB CRT GB CRIPTO
市值:$3420.12持有人数:2
0.10%
4
MARYSMary S
市值:$3401.76持有人数:2
0.00%
5
CHIPChip-in
市值:$3419.66持有人数:2
0.09%