Gate News 信息,4 月 29 日 — OpenAI 研究人员 Sébastien Bubeck 和 Ernest Ryu 表示,AI 系统或可在两年内完成大部分人类研究工作,并将数学呈现为衡量 AI 进展的清晰指标。与模糊的性能测试不同,数学问题提供精确的验证:答案要么正确要么错误,不留任何歧义空间。
Bubeck 指出,真正的 AI 思考需要能够穿越冗长的推理链条。在多步骤论证中出现一个错误,就会使整个证明崩塌,因此,对于先进模型而言,过程中的错误检测与纠正才是最终目标。OpenAI 的内部实验室已经生成了超过十个全新的、可发表在顶级组合数学期刊上的定理,表明 AI 现在能够产出真正原创、具有突破性的工作,而不仅仅是重新组合既有论文。
然而,持续的科学突破要求在数周的测试中保持稳定的专注。当前系统仍需要严格的人类监督,以引导并核验每一次方向的调整。Bubeck 使用 "AGI 时间" 来衡量一个模型能独立模仿人类思考多久;当前系统大致运行在数天到一周的量级,而行业目标是以数周或数月的时间框架,来让自主工作在生物等领域成为可能。
长期记忆对这一未来至关重要。标准聊天窗口会限制深度——复杂的数学证明往往超过 50 页——而代码仓库则展示了延长的工作会话如何带来更深入的问题求解。随着 AI 逐步获得独立性并建立记忆,人类专业知识的价值将变得更高,而不是更低。工作者必须保留扎实的深层基础知识,以挑战并核验机器给出的答案;组织则需要新的自动化过滤器与声誉系统,以便在充斥 AI 辅助研究的洪流中维持信任。