✍️ Gate 广场「创作者认证激励计划」优质创作者持续招募中!
Gate 广场现正面向优质创作者开放认证申请!
立即加入,发布优质内容,参与活动即可瓜分月度 $10,000+ 创作奖励!
📕 认证申请步骤:
1️⃣ 打开 App 首页底部【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】,提交申请等待审核
注:请确保 App 版本更新至 7.25.0 或以上。
👉 立即报名:https://www.gate.com/questionnaire/7159
豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000 丰厚奖励等你拿!
📅 活动自 11 月 1 日起持续进行
在 Gate 广场让优质内容变现,创作赚取奖励!
活动详情:https://www.gate.com/announcements/article/47889
Claude Opus 4.5 登场!准确率大赢 GPT-5.1 与 Gemini 3,乐天:自我进化强
就在 Google 推出 Gemini 3 后一周,Anthropic 也于 11/25 宣布推出最新旗舰模型 Claude Opus 4.5,更表示该版本在写程式、AI 代理操作与使用电脑应用上大幅升级,还能处理更长的对话内容。Anthropic 的开发者关系主管 Alex Albert 甚至在受访时也对此表示:「这就是全世界最聪明的模型。」
Claude Opus 4.5 最强亮点一次看
亮点一:效能打趴 GPT-5.1 与 Gemini 3,强化代理应用
官方将 Opus 4.5 定位为「世界最强模型之一」,并从即日起开放于 App、API 与三大云端平台 (AWS、GCP、Azure) 使用。从 Anthropic 提供的 AI 模型效能对比图可得知:
「Opus 4.5 具有高达 80.9 % 准确率,力压 Gemini 3 Pro 与 GPT-5.1。」
官方表示,这次 Opus 4.5 在写程式、AI Agents、多步骤推理与电脑工具操作特别突出,像是一般工作如长篇研究、PowerPoint、Excel 等应用上表现也明显增强。
而新定价为每百万输入 token 为 5 美元、每百万输出为 25 美元,比前一代 Opus 4.1 更亲民,让更多企业与团队能采用 Opus 等级功能。
亮点二:内部测试一致好评,能理解也能解题
Anthropic 透露,释出测试版后,团队成员给出一致回馈。尤其是:
「Opus 4.5 能处理一些模糊不清的问题、推理权衡,遇到多系统复杂 bug 时会自行摸索解法。」
原本 Sonnet 4.5 几乎做不到的任务,如今 Opus 4.5 能完成。测试者普遍表示 Opus 4.5 很懂「使用者的意思」,官方也认为这带来明显体验差异。
Windsurf、GitHub 等执行长皆为 Opus 4.5 背书 亮点三:程式测验创新纪录,两小时考题表现超越人类
Anthropic 指出,公司在招募工程师时会使用一份难度相当高的实作测验。这次在相同的两小时作答时限内,Claude Opus 4.5 的表现竟超越历年所有人类求职者,创下新纪录。
官方补充,这份测验主要评估的是技术能力与压力下的判断力,不涉及合作、沟通等软实力。不过从这次结果可以看出,AI 在工程领域的纯技术层面正以极快速度进步。
亮点四:安全性再强化,对提示注入攻击更难被骗
Anthropic 强调,Opus 4.5 是目前为止「对齐度最高、也是最安全」的模型版本。
这次的安全升级重点在于,模型在面对提示注入攻击时的抵抗力大幅提升,恶意指令不容易被夹带进模型中,也更难欺骗系统误执行不当行为。相较其他前沿模型,Opus 4.5 在相关安全测试中的表现同样拿下最佳成绩。从下图可得知:
「Opus 4.5 与其他知名模型在相同测试条件下,是最不容易被骗,最不容易被提示注入攻击成功,防御表现亮眼。」
亮点五:长对话不断线,Chrome 与 App 全面提升体验
Anthropic 也同时更新多项产品。首先,Claude Code 的 Plan Mode 进一步升级,会先把问题厘清后自动产生可编辑的 plan.md,再进行程式执行。桌面版也加入多重 Session,可同时让多个代理执行不同任务。
一般用户常用的 Claude App 也同步改进,长对话不再因上下文太长而卡住,系统会自动整理前段内容让对话不中断。Claude for Chrome 则全面向 Max 用户开放,可跨分页处理复杂操作。
Claude for Excel 原本仅限 Beta 用户,如今扩大至 Max、Team、Enterprise 用户,并结合 Opus 4.5 强化表格与资料处理能力。最后,Anthropic 也上调整体使用量上限,取消 Opus 专属限制,让 Max 与 Team Premium 用户能以「日常工作量」的级别使用 Opus 4.5,未来若推出更强模型,相关用量也将再调整。
(注:
plan.md
不是外部文件,而是一种 Claude Code 在执行任务前自动生成的「任务计划文件」,格式采用常见的 Markdown。)
两点六:乐天指出 Opus 4.5 具有自我进化功能
其中有个特别亮点,日本乐天 (Rakuten) 指出,Claude Opus 4.5 在自我进化型 AI 代理上展现明显突破。
在办公室自动化的实际应用中,相关代理程式能自行优化能力,只需四次迭代就能达到最佳表现,而其他模型即使跑到十次也追不上同等品质。
乐天强调,这项差异让 Opus 4.5 在企业级应用中展现更高效率。
这篇文章 Claude Opus 4.5 登场!准确率大赢 GPT-5.1 与 Gemini 3,乐天:自我进化强 最早出现于 链新闻 ABMedia。