Gate News 消息,4 月 27 日——SemiAnalysis,一家半导体与 AI 分析公司,发布了包含 GPT-5.5、Claude Opus 4.7 和 DeepSeek V4 在内的代码助手对比基准测试。关键发现:GPT-5.5 标志着 OpenAI 在六个月后首次重返编程模型前沿;随后 SemiAnalysis 工程师在 Codex 和 Claude Code 之间交替使用;此前他们几乎完全依赖 Claude。GPT-5.5 基于代号为 “Spud” 的新预训练方法,代表 OpenAI 自 GPT-4.5 以来首次扩展预训练规模。
在实际测试中,出现了明确的分工。Claude 负责新的项目规划与初始搭建,而 Codex 在推理密集型的漏洞修复方面表现更出色。Codex 展现出更强的数据结构理解与逻辑推理能力,但在推断含糊的用户意图方面存在困难。在一个单一的仪表盘任务上,Claude 会自动复刻参考页面布局,但会捏造大量数据;而 Codex 跳过布局,却提供了显著更准确的数据。
分析揭示了一个基准测试操纵细节:OpenAI 2 月的一篇博客文章敦促业界将 SWE-bench Pro 作为代码基准测试的新标准。然而,GPT-5.5 的公告改用了一个名为 “Expert-SWE” 的新基准。原因被藏在细微的说明中:GPT-5.5 在 SWE-bench Pro 上被 Opus 4.7 超越,并且与 Anthropic 尚未发布的 Mythos (77.8%) 相比差距巨大。
关于 Opus 4.7,Anthropic 在发布后一周发表了死后复盘分析,承认 Claude Code 中存在三个在 3 月至 4 月持续了数周、影响近乎所有用户的漏洞。多名工程师此前曾报告 4.6 版本的性能下降,但这些说法被当作主观观察而否定。此外,Opus 4.7 的新分词器会使 token 使用量最高增加 35%,而 Anthropic 公开承认了这一点——本质上相当于隐性涨价。
DeepSeek V4 被评为 “跟上前沿但并不领先”,将自己定位为封闭源模型中成本最低的替代方案。分析还指出,“Claude 在高难度中文写作任务上继续优于 DeepSeek V4 Pro”,并评论道:“Claude 在它自己的语言上赢过了中文模型。”
文章提出了一个关键概念:模型定价应通过 “每任务成本(cost per task)” 来评估,而不是通过 “每 token 成本(cost per token)”。GPT-5.5 的定价是 GPT-5.4 的两倍 (input $5, output $30 per million tokens),但它使用更少的 tokens 完成相同的任务,因此实际成本未必更高。最初的 SemiAnalysis 数据显示,Codex 的输入到输出比例为 80:1,低于 Claude Code 的 100:1。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
用 AI 提高产出还是降低成本?百倍效率没换来百倍营收,但硅谷没人敢喊停
五源资本合伙人孟醒,近日发表硅谷考察报告,提出一个让他自己都改变记笔记习惯的判断:硅谷正在进入一个连造浪的人都被浪淹没的阶段。AI 的迭代速度已经从「按月」变成「按周」,连硅谷自己都跟不上自己。
当 AI 把一个团队的生产力放大五倍,你可以减少八成人力维持原本产出,也可以维持人数量做五倍的事。孟醒这次硅谷的观察,等于是在现场给出了答案的初稿:当 100 倍效率没有换来 100 倍营收,当 token 预算逼近人力成本,当蒸汽机还跑不过马车却没有人敢停下,硅谷现在选的是「先把速度冲上去再说」。但这条路最终会走到「扩张能力」还是「压缩成本」,目前没有定论。
YC 从领先指标变成落后指标
孟醒今年
鏈新聞abmedia4 分钟前
YC 合伙人分享如何用 AI 从头开始建立公司,创业公司应将 AI 当作操作系统而非工具
AI 对新创公司的影响,已经不只是让工程师写代码更快、让客服流程自动化,或是在既有产品里加上一个 Copilot。YC 合伙人 Diana 近日指出,真正的变化在于,AI 正在改写「一家公司应该如何从零开始被建立」。对早期创办人而言,AI 不应该只是公司偶尔使用的效率工具,而应该从第一天开始,就被设计成整间公司的作业系统。
生产力视角已经过时,AI 正在改写公司的设计起点
Diana 认为,目前市场谈 AI 时,仍太常停留在「生产力提升」的框架,例如工程师可以更快写代码、团队可以自动化更多流程、公司可以推出更多功能。但这个说法其实低估了 AI 带来的结构性改变。她指出,正确的人搭配 AI 工
鏈新聞abmedia14 分钟前
Cursor AI 代理出包!一行程式碼 9 秒清空公司資料庫,安全把關淪空談
PocketOS 的创办人 Jer Crane 指称 Cursor AI 代理在测试环境中自行执行维护,滥用一个新增/移除自定义域的 API Token,向 Railway 的 GraphQL API 发动删除指令。9 秒内数据与同区域快照全被摧毁,最新可还原到三个月前。代理人承认违反不可逆操作、未研读技术文件、未验证环境隔离等规定,受害者为租车业客户,预约与数据全都消失,对账工程耗时很长。Crane 提出五项改革:人工确认、细粒度 API 权限、备份与主数据分离、公开 SLA、底层强制机制。
鏈新聞abmedia16 分钟前
DeepSeek V4 Pro 在 Ollama Cloud 上:Claude Code 一键串接
根据 Ollama 推文,DeepSeek V4 Pro 于 4/24 发布,已以云端模式进入 Ollama 目录,仅一行指令即可调用 Claude Code、Hermes、OpenClaw、OpenCode、Codex 等工具。V4 Pro1.6T 参、1M context,Mixture-of-Experts;云端推理不下载本机权重。若要本地需自取权重并以 INT4/GGUF 与多卡 GPU 执行。早期测速受云端负载影响,常态约 30 tok/s,峰值 1.1 tok/s;建议以云端原型,正式量产再自行推理或使用商用 API。
鏈新聞abmedia1小时前
DeepSeek 将 V4-Pro 价格下调75%,将 API 缓存成本削减至原来的十分之一
Gate News 消息,4月27日——DeepSeek宣布对其面向开发者的新 V4-Pro 模型提供75%的折扣,并将其 API 产品线中输入缓存命中价格下调至此前水平的十分之一。
V4 模型于4月25日发布,提供 Pro 和 Flash 版本,已针对华为的 Ascend 处理器进行了优化。DeepSeek 表示,V4-Pro 在世界知识基准测试中优于其他开源模型,并仅次于谷歌的闭源 Gemini-Pro-3.1。V4 系列专为 AI 代理而设计,用于处理超出聊天机器人能力范围的复杂任务。
V4-Pro API 成本已经低于主要的西方竞争对手,定价为每百万输出 tokens 3.48 美元,而 对应 OpenAI 的 GPT-4.5。V4-Flash 的定价为每百万输入 tokens 0.14 美元、每百万输出 tokens 0.28 美元,可能使诸如在单次请求中审阅完整代码库或监管文件等具备成本效益的应用成为可能。
GateNews1小时前
Coachella 借助谷歌的 DeepMind AI 来重新想象舞台之外的演出
Coachella 与 Google DeepMind 合作,测试新的 AI 工具,这些工具正在重塑现场音乐表演的创作方式与体验方式。
摘要
Coachella 已与 Google DeepMind 测试 AI 工具,将现场表演转化为交互式数字环境。
共构建了三个原型,
Cryptonews 1小时前