Berkeley GEPA 解析:不更新权重就能让 AI 学会新任务、35 倍少训练成本胜 RL

鏈新聞abmedia

加州大学伯克利分校研究团队提出新的 AI 训练方法 GEPA、已被 ICLR 2026 接收为 Oral 论文。GEPA 不更新模型权重、不需 GPU 训练,只用一个「读取训练记录」的 LLM 反复改写 AI 系统的提示词,便在 6 项任务上平均胜过主流强化学习方法 GRPO 6%、最高胜出 20%、所需训练尝试次数(rollouts)少 35 倍。研究经 AI 工程社群整理扩散后在 X 平台引发讨论,目前已整合进 DSPy 成为一等优化器。

GEPA 在做什么:把训练记录当教材、不再只看分数

传统强化学习方法(如 GRPO)的工作流是:让 AI 跑一次任务、根据结果给一个「+1 或 -1」的分数,再用这个分数反复调整模型权重。问题是 AI 跑这一次任务的过程通常包含上千 token 的推理步骤、工具调用、错误讯息——这些丰富细节全被压缩成一个分数,过程信息被丢掉。所以 RL 需要跑成千上万次才能收敛。

GEPA 的做法相反:每次 AI 跑完任务,把整段过程(reasoning、工具调用、报错记录)原原本本交给另一个「反思 LLM」阅读。反思 LLM 像个资深工程师读程序 log,找出哪一步出错、为何出错、应该如何修改提示词,然后直接重写该模块的提示。同样一次跑任务、GEPA 从中提取的讯号量远多于 RL 的单一分数。

为何能赢:把「打分数」改成「读整段过程」

GEPA 在 6 项任务上平均胜 GRPO 6%、最高胜 20%;对比另一个主流提示优化器 MIPROv2 也胜出 10% 以上(在 AIME-2025 数学题基准上提升 12%)。最关键的是训练成本:GEPA 达到同等性能所需的 rollouts(一次完整跑任务)少 35 倍。

另一项数据是 GEPA 与 DSPy 整合后的「Full Program Adapter」可优化整个 DSPy 程式(包含 signature、模块、控制流),在 MATH 数学基准达 93% 准确率,大幅超过 DSPy 原本的 ChainOfThought 写法的 67%。GEPA 也在 multi-module 工作流(多模块串接的 AI agent)上表现特别好——可精确锁定某一个出错的模块改写提示,而不是调整整个系统。

谁会先用上:DSPy 一等公民、GitHub 已开源

GEPA 程式码已开源于 GitHub,并以 dspy.GEPA 形式整合进 DSPy 框架、也独立发布为 Python library。研究团队跨 UC Berkeley、Stanford、Notre Dame、Anthropic 等机构,论文作者包含 Matei Zaharia(Databricks 共同创办人、DSPy 主要作者)与 Omar Khattab(DSPy 主要作者)。

对开发者社群而言,GEPA 提供了「拥有大量 rollout 但不知如何利用」的新解法——多数团队已累积成千上万笔 agent 跑任务记录,但除了出错时翻几笔查 bug,并无系统性方法把这些记录转成模型改进。下一个观察点是 GEPA 在企业 agentic 工作流(如客服自动化、程式自动修复)的实际导入案例,以及是否会出现非 DSPy 框架的 GEPA 对应实现。

这篇文章 Berkeley GEPA 解析:不更新权重就能让 AI 学会新任务、35 倍少训练成本胜 RL 最早出现在 链新闻 ABMedia。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

比特币金库公司 K Wave Media 为 AI 基础设施建设最多获得 $485M

据 ChainCatcher 报道,纳斯达克上市的比特币金库公司 K Wave Media 于 5 月 4 日宣布战略转型至 AI 基础设施,争取最高 4.85 亿美元的资本支持,用于数据中心投资、GPU 租赁服务,以及 AI 基础设施的收购和合作。 该公司

GateNews48 分钟前

反物质公司推出 AI 数据中心计划,并获得 3 亿欧元的资金支持

反物质(Antimatter)是一家总部位于法国的云基础设施公司,面向 AI 工作负载。该公司于 5 月 4 日通过整合三家现有公司:Datafactory、Policloud 和 Hivenet 启动。公司正在筹集 3 亿欧元(3.51 亿美元),计划在 2026 年部署 100 个微型数据中心单元用于 AI 推理

Crypto Frontier2小时前

教育部“馆馆有 AI”图书馆免费使用 ChatGPT、Claude!适用时间地点一次看

教育部推动“馆馆有 AI”,今年第四季度起在国家图书馆等国家图书馆每馆配置 5 台 AI 电脑,民众只需凭借书证即可免费使用 ChatGPT、Claude、Gemini 等工具,缩小付费 AI 差距,并拓展至 47 所国家大学图书馆;资金由学校自筹或申请补助;同时需克服使用时段、账号管理、隐私与授权等挑战。

鏈新聞abmedia3小时前

AI 虚拟模特儿经济学:Aitana、Emily 与 4 档 Markdown 系统解析

AI 虚拟模特儿从话题实验、走到月入数万美元的商业实体、整个技术 stack 在 18 个月内快速成熟。本文整理三个典型案例:The Clueless 旗下 Aitana López(巴塞罗那、月入 €10,000)、匿名创作者打造的 Emily Pellegrini(每周收入约 1 万美元)、以及最近在 X 平台流传的「Maya」案例——一名德州学生据称以 4 个 markdown 文件搭建的 AI 虚拟人格、首月于 OnlyFans 账户上产生 4.3 万美元收入。 Aitana López:The Clueless 自有的虚拟模特儿、月入最高 €10,000 Aitana López 是西

鏈新聞abmedia6小时前

TipTip 随着 AI 提升娱乐售票,达到 EBITDA 盈利能力

印尼娱乐平台与体验平台 TipTip 于 5 月 4 日宣布,它在 2026 年初实现了全公司范围的 EBITDA 盈利,得益于成本控制、单位经济模型的改善,以及与领投方 East Ventures 的合作。 娱乐票务增长 TipTip 的娱乐 t

Crypto Frontier8小时前

Astro 联合创始人开源 Rosie:在 10 个 AI 编程代理之间同步技能

据 Beating,Astro 前端框架联合创始人 Matthew Phillips 已开源 Rosie,这是一款用于管理 AI 代理技能包的命令行工具。该工具会自动检测本地已安装的编码代理,并在包括 Claude 在内的 10 个平台之间同步技能。

GateNews11小时前
评论
0/400
暂无评论