Google DeepMind 发布了 AI 共数学家(AI co-mathematician),一种多智能体数学研究助手,在 FrontierMath 第 4 级基准上实现 47.9% 的准确率,超越 GPT-5.5 Pro 在 5 月 9 日创下的先前纪录(39.6%)。该系统解决了 48 道题中的 23 道题,包括 3 道此前所有模型都无法解答的问题。该系统基于 Gemini 3.1 Pro 构建,采用分层架构:项目协调员智能体向子智能体分发任务,由子智能体分别负责文献检索、编码与推理,并在提交前由多个审阅智能体对证明进行验证。
Epoch AI 进行了盲测,确保 DeepMind 团队看不到题目,每道题允许进行 48 小时的计算。在实际应用中,数学家 Marc Lackenby 使用该系统解决了《Kourovka Notebook》中的一个未决猜想,展示了其实际研究价值。目前,该系统正处于测试版阶段,仅向少数数学家开放。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
Anthropic Code Mode:解 MCP Vs CLI 之争:工具住 Runtime、tokens 从 150K 压到 2K
2025 年整年 AI 工程社群在「MCP vs CLI」哪个更适合 Agent 工具呼叫的问題上爭論不休、Anthropic 2025 年 11 月发表的「Code execution with MCP」论文从第一原則重新定義了问題。akshay\pachaar 5/10 整理 thread 说明:问題从来不在協议本身、而在「session 开始时把所有工具描述塞进 context」的旧习惯;Anthropic 的解法是让模型寫程式码呼叫工具、运行时负责管理工具細节。新模式被称为「Code Mode」。 旧模式的问題:150K tokens 中模型大部分用不到 旧 MCP 模式的浪费结构: Playwright MCP:13.7K tokens(一次塞滿) Chrome DevTools MCP:18K tokens 5 个 server 设定:尚未开始工作就燒掉 55K tokens 單一 workflow 完整执行:可膨胀到 150K tokens 模型实际用到的:絕大部分都用不上 批評者主張改用 CLI、但 CLI 在多租户 app 容易出错、缺乏 typed contract
鏈新聞abmedia1小时前
字节跳动计划今年在 AI 基础设施支出上增加 25%,达到 2000 亿人民币
据 ChainCatcher 援引 Golden Data 称,字节跳动计划今年将 AI 基础设施支出提高 25%,达到 2000 亿人民币,原因是内存芯片成本上升以及人工智能开发加速。
GateNews2小时前
企业 AI 平台 Pit 关闭 $16M 系列融资,由 a16z 领投
据 Odaily,企业级 AI 平台 Pit 宣布完成一轮由 a16z 牵头的 1600 万美元融资,Lakestar 参与其中,OpenAI、Anthropic、Google、Deel 和 Revolut 的高管也加入了本轮。Pit 将自己定位为“AI 产品团队即服务”,旨在取代传统电子表格和僵化的 SaaS 系统。
GateNews2小时前
谷歌试点招聘考试,允许工程师使用 AI 工具
据《朝鲜日报》报道,谷歌正在试点招聘考试,允许美国软件工程候选人在部分入门级和中级岗位中使用 AI 工具。该试点包括代码理解任务,申请者需要审查现有代码、修复漏洞并提升性能。面试官将评估候选人如何提示 AI、核查其输出、编辑结果以及调试代码,而不是仅评估其从零编写代码的能力。
GateNews4小时前
OpenAI 立即停止微调 API。现有用户可访问至 2027 年 1 月 6 日
根据 Beating 监测到的 OpenAI 官方公告,该公司将从即刻起停止为开发者提供自助式微调 API。新的用户将不再能够创建微调任务,而现有的活跃用户可在 2027 年 1 月 6 日之前继续访问该服务。已部署的微调模型,其推理服务将与其基础模型的生命周期绑定,当基础模型被下线时,推理服务也将停止。 OpenAI 表示,其新的基础模型(例如 GPT-5.5)在遵循指令和格式化方面现在已足够强大。该公司称,将提示工程与检索增强生成(Retrieval-Augmented Generation, RAG)结合使用,相比微调更便宜、更快速,并且足以满足大多数用例。
GateNews4小时前
Sakana AI 和 Nvidia 通过跳过 80% 的无效计算,实现 30% 更快的 H100 推理
Sakana AI 和 Nvidia 已开源 TwELL,这是一种稀疏数据格式,可让 H100 GPU 在大型语言模型中跳过 80% 的无效计算,同时不牺牲准确性。该解决方案在 H100 上可实现最高 30% 更快的推理和 24% 更快的训练,并降低峰值内存使用。在对一个 1.5 十亿参数的模型进行测试时,通过训练期间的轻量级正则化,该方法将活跃神经元降至低于 2%,且在七个下游任务中没有出现性能下降。
GateNews5小时前