Berkeley GEPA 解析:不更新权重就能让 AI 学会新任务、35 倍少训练成本胜 RL

鏈新聞abmedia

加州大学伯克利分校研究团队提出新的 AI 训练方法 GEPA、已被 ICLR 2026 接收为 Oral 论文。GEPA 不更新模型权重、不需 GPU 训练,只用一个「读取训练记录」的 LLM 反复改写 AI 系统的提示词,便在 6 项任务上平均胜过主流强化学习方法 GRPO 6%、最高胜出 20%、所需训练尝试次数(rollouts)少 35 倍。研究经 AI 工程社群整理扩散后在 X 平台引发讨论,目前已整合进 DSPy 成为一等优化器。

GEPA 在做什么:把训练记录当教材、不再只看分数

传统强化学习方法(如 GRPO)的工作流是:让 AI 跑一次任务、根据结果给一个「+1 或 -1」的分数,再用这个分数反复调整模型权重。问题是 AI 跑这一次任务的过程通常包含上千 token 的推理步骤、工具调用、错误讯息——这些丰富细节全被压缩成一个分数,过程信息被丢掉。所以 RL 需要跑成千上万次才能收敛。

GEPA 的做法相反:每次 AI 跑完任务,把整段过程(reasoning、工具调用、报错记录)原原本本交给另一个「反思 LLM」阅读。反思 LLM 像个资深工程师读程序 log,找出哪一步出错、为何出错、应该如何修改提示词,然后直接重写该模块的提示。同样一次跑任务、GEPA 从中提取的讯号量远多于 RL 的单一分数。

为何能赢:把「打分数」改成「读整段过程」

GEPA 在 6 项任务上平均胜 GRPO 6%、最高胜 20%;对比另一个主流提示优化器 MIPROv2 也胜出 10% 以上(在 AIME-2025 数学题基准上提升 12%)。最关键的是训练成本:GEPA 达到同等性能所需的 rollouts(一次完整跑任务)少 35 倍。

另一项数据是 GEPA 与 DSPy 整合后的「Full Program Adapter」可优化整个 DSPy 程式(包含 signature、模块、控制流),在 MATH 数学基准达 93% 准确率,大幅超过 DSPy 原本的 ChainOfThought 写法的 67%。GEPA 也在 multi-module 工作流(多模块串接的 AI agent)上表现特别好——可精确锁定某一个出错的模块改写提示,而不是调整整个系统。

谁会先用上:DSPy 一等公民、GitHub 已开源

GEPA 程式码已开源于 GitHub,并以 dspy.GEPA 形式整合进 DSPy 框架、也独立发布为 Python library。研究团队跨 UC Berkeley、Stanford、Notre Dame、Anthropic 等机构,论文作者包含 Matei Zaharia(Databricks 共同创办人、DSPy 主要作者)与 Omar Khattab(DSPy 主要作者)。

对开发者社群而言,GEPA 提供了「拥有大量 rollout 但不知如何利用」的新解法——多数团队已累积成千上万笔 agent 跑任务记录,但除了出错时翻几笔查 bug,并无系统性方法把这些记录转成模型改进。下一个观察点是 GEPA 在企业 agentic 工作流(如客服自动化、程式自动修复)的实际导入案例,以及是否会出现非 DSPy 框架的 GEPA 对应实现。

这篇文章 Berkeley GEPA 解析:不更新权重就能让 AI 学会新任务、35 倍少训练成本胜 RL 最早出现在 链新闻 ABMedia。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

OpenAI 推出 Codex Pets,具备定制生成的 AI 驱动虚拟伴侣

据 Beating 称,OpenAI 已为 Codex 桌面应用添加了一项名为“Codex Pets”的新功能,允许用户生成并与一只动画虚拟伴侣互动。用户可以在编辑器中输入 /pet 来激活宠物。该功能作为代理状态指示器运行,用于显示一项

GateNews5小时前

MoonPay 在 Mastercard 网络上推出用于 AI 代理的 MoonAgents 卡片

据 The Block 报道,MoonPay 于周五推出 MoonAgents Card,这是一张虚拟 Mastercard 借记卡,可在支付时将稳定币实时兑换为法币。该卡通过 Monavate 发行,Monavate 是受监管的支付平台,并且是 Mastercard 的主要成员;并与 Exodus M

GateNews9小时前

xAI 推出语音克隆 API,支持跨 28 种语言的 80+ 种声音

据 PANews 称,xAI 于 5 月 2 日推出了其语音克隆 API,允许用户在约 2 分钟内创建自定义语音,或从 80+ 个预设语音中选择,覆盖 28 种语言,适用于语音助手、有声读物和游戏角色等应用。该功能目前处于

GateNews10小时前

MoonPay 将于周五推出 MoonAgents 卡,一种面向 AI 代理和用户的虚拟万事达卡

据 The Block 称,MoonPay 于周五推出了 MoonAgents Card,一种面向 AI 代理和用户的虚拟万事达借记卡。该卡可在支付时将稳定币兑换为法币,并可在全球任何接受万事达卡的线上商户处使用。由 Monavate 发行,这是一家受监管的支付

GateNews18小时前

MoonPay 将于周五在 Mastercard 网络上推出 MoonAgents 卡

据 The Block 称,MoonPay 于周五推出 MoonAgents Card——一款虚拟万事达借记卡,使 AI 代理与用户能够直接从链上钱包中使用稳定币进行消费。该卡由 Monavate(一个受监管的全球支付平台,并且是万事达主要成员)发行,in

GateNews21小时前

Nubank 计划于 2026 年在巴西进行 82 亿美元投资,且将对 AI 和信贷扩张的支出增加一倍

据 Crowdfundinsider 称,Nubank 宣布计划在 2026 年向巴西市场投资 82 亿美元,与两年前相比几乎翻倍。资金将重点用于基于 AI 的信用评估系统、数字金融产品、团队扩张、基础设施

GateNews22小时前
评论
0/400
暂无评论