Berkeley GEPA 解析:不更新权重就能让 AI 学会新任务、35 倍少训练成本胜 RL

鏈新聞abmedia

加州大学伯克利分校研究团队提出新的 AI 训练方法 GEPA、已被 ICLR 2026 接收为 Oral 论文。GEPA 不更新模型权重、不需 GPU 训练,只用一个「读取训练记录」的 LLM 反复改写 AI 系统的提示词,便在 6 项任务上平均胜过主流强化学习方法 GRPO 6%、最高胜出 20%、所需训练尝试次数(rollouts)少 35 倍。研究经 AI 工程社群整理扩散后在 X 平台引发讨论,目前已整合进 DSPy 成为一等优化器。

GEPA 在做什么:把训练记录当教材、不再只看分数

传统强化学习方法(如 GRPO)的工作流是:让 AI 跑一次任务、根据结果给一个「+1 或 -1」的分数,再用这个分数反复调整模型权重。问题是 AI 跑这一次任务的过程通常包含上千 token 的推理步骤、工具调用、错误讯息——这些丰富细节全被压缩成一个分数,过程信息被丢掉。所以 RL 需要跑成千上万次才能收敛。

GEPA 的做法相反:每次 AI 跑完任务,把整段过程(reasoning、工具调用、报错记录)原原本本交给另一个「反思 LLM」阅读。反思 LLM 像个资深工程师读程序 log,找出哪一步出错、为何出错、应该如何修改提示词,然后直接重写该模块的提示。同样一次跑任务、GEPA 从中提取的讯号量远多于 RL 的单一分数。

为何能赢:把「打分数」改成「读整段过程」

GEPA 在 6 项任务上平均胜 GRPO 6%、最高胜 20%;对比另一个主流提示优化器 MIPROv2 也胜出 10% 以上(在 AIME-2025 数学题基准上提升 12%)。最关键的是训练成本:GEPA 达到同等性能所需的 rollouts(一次完整跑任务)少 35 倍。

另一项数据是 GEPA 与 DSPy 整合后的「Full Program Adapter」可优化整个 DSPy 程式(包含 signature、模块、控制流),在 MATH 数学基准达 93% 准确率,大幅超过 DSPy 原本的 ChainOfThought 写法的 67%。GEPA 也在 multi-module 工作流(多模块串接的 AI agent)上表现特别好——可精确锁定某一个出错的模块改写提示,而不是调整整个系统。

谁会先用上:DSPy 一等公民、GitHub 已开源

GEPA 程式码已开源于 GitHub,并以 dspy.GEPA 形式整合进 DSPy 框架、也独立发布为 Python library。研究团队跨 UC Berkeley、Stanford、Notre Dame、Anthropic 等机构,论文作者包含 Matei Zaharia(Databricks 共同创办人、DSPy 主要作者)与 Omar Khattab(DSPy 主要作者)。

对开发者社群而言,GEPA 提供了「拥有大量 rollout 但不知如何利用」的新解法——多数团队已累积成千上万笔 agent 跑任务记录,但除了出错时翻几笔查 bug,并无系统性方法把这些记录转成模型改进。下一个观察点是 GEPA 在企业 agentic 工作流(如客服自动化、程式自动修复)的实际导入案例,以及是否会出现非 DSPy 框架的 GEPA 对应实现。

这篇文章 Berkeley GEPA 解析:不更新权重就能让 AI 学会新任务、35 倍少训练成本胜 RL 最早出现在 链新闻 ABMedia。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

Particle Network 发布通用账户路线图,推出 Universal Deposit SDK 和 AI 代理账户

据 ChainCatcher 称,Particle Network 今天发布了通用账户(Universal Accounts)的下一阶段路线图,未来几个月将推出两款新产品:Universal Deposit SDK,使开发者能够用大约 10 行代码添加多链存款,以及 Universal Agent Accounts,

GateNews4小时前

Roblox 推出 AI 软件以挑战 Unity 和 Epic Games

据彭博报道,Roblox 正在推出新的 AI 软件,以与 Unity Technologies 和 Epic Games 竞争;它们的引擎主导着大型预算游戏的开发。首席执行官 Dave Baszucki 表示,该工具旨在帮助创作者更轻松地构建具有逼真画面的多人游戏,由 ar 驱动。

GateNews9小时前

美国海军与 Domino Data Lab 签署接近 1 亿美元的 AI 合同,用于在霍尔木兹海峡进行水雷探测

据新华社报道,美国海军信息作战系统司令部近期与总部位于旧金山的 AI 公司 Domino Data Lab 签署合同,以采购并部署机器学习软件解决方案。该合同在全面履行的情况下价值近 1 亿美元,旨在

GateNews11小时前

XAI Grok 推出自定义语音:2 分钟克隆、双阶段身份验证

xAI 推出 Grok 自定义语音, 在控制台录制约 1 分钟语音,2 分钟内产出可用于 TTS 和 Voice Agent API 的定制声音模型,同步发布 Grok 4.3 和 Voice Library。为防止克隆,采用两阶段验证:先朗读验证句,再对比 speaker embedding,确保同一人方可生成。Voice Library 将自制与预建声音进行统一管理,包含 80+ 种、28 语言,后续还将扩增。

鏈新聞abmedia13小时前

OpenAI Codex 桌面版加寵物功能:3 狀態提示、依使用語言孵化

OpenAI Codex 桌面版近期上架「宠物」(Pets)功能,让开发者能在编码时通过悬浮的动画角色即时掌握 Codex 任务状态。根据 OpenAI 官方文件,宠物 overlay 会根据 Codex 当下状态切换 3

鏈新聞abmedia14小时前

MoonPay 将于周五推出 MoonAgents 卡,为 AI 代理提供虚拟万事达卡(并开始提供)

据 The Block 称,MoonPay 于周五推出 MoonAgents Card,这是一款虚拟 万事达借记卡。该卡面向 AI 代理和用户,能够在支付时将稳定币兑换为法币,并使用户可在全球任何接受万事达卡的线上商户处进行消费。 该卡 i

GateNews05-02 13:51
评论
0/400
暂无评论