加州大学伯克利分校研究团队提出新的 AI 训练方法 GEPA、已被 ICLR 2026 接收为 Oral 论文。GEPA 不更新模型权重、不需 GPU 训练,只用一个「读取训练记录」的 LLM 反复改写 AI 系统的提示词,便在 6 项任务上平均胜过主流强化学习方法 GRPO 6%、最高胜出 20%、所需训练尝试次数(rollouts)少 35 倍。研究经 AI 工程社群整理扩散后在 X 平台引发讨论,目前已整合进 DSPy 成为一等优化器。
GEPA 在做什么:把训练记录当教材、不再只看分数
传统强化学习方法(如 GRPO)的工作流是:让 AI 跑一次任务、根据结果给一个「+1 或 -1」的分数,再用这个分数反复调整模型权重。问题是 AI 跑这一次任务的过程通常包含上千 token 的推理步骤、工具调用、错误讯息——这些丰富细节全被压缩成一个分数,过程信息被丢掉。所以 RL 需要跑成千上万次才能收敛。
GEPA 的做法相反:每次 AI 跑完任务,把整段过程(reasoning、工具调用、报错记录)原原本本交给另一个「反思 LLM」阅读。反思 LLM 像个资深工程师读程序 log,找出哪一步出错、为何出错、应该如何修改提示词,然后直接重写该模块的提示。同样一次跑任务、GEPA 从中提取的讯号量远多于 RL 的单一分数。
为何能赢:把「打分数」改成「读整段过程」
GEPA 在 6 项任务上平均胜 GRPO 6%、最高胜 20%;对比另一个主流提示优化器 MIPROv2 也胜出 10% 以上(在 AIME-2025 数学题基准上提升 12%)。最关键的是训练成本:GEPA 达到同等性能所需的 rollouts(一次完整跑任务)少 35 倍。
另一项数据是 GEPA 与 DSPy 整合后的「Full Program Adapter」可优化整个 DSPy 程式(包含 signature、模块、控制流),在 MATH 数学基准达 93% 准确率,大幅超过 DSPy 原本的 ChainOfThought 写法的 67%。GEPA 也在 multi-module 工作流(多模块串接的 AI agent)上表现特别好——可精确锁定某一个出错的模块改写提示,而不是调整整个系统。
谁会先用上:DSPy 一等公民、GitHub 已开源
GEPA 程式码已开源于 GitHub,并以 dspy.GEPA 形式整合进 DSPy 框架、也独立发布为 Python library。研究团队跨 UC Berkeley、Stanford、Notre Dame、Anthropic 等机构,论文作者包含 Matei Zaharia(Databricks 共同创办人、DSPy 主要作者)与 Omar Khattab(DSPy 主要作者)。
对开发者社群而言,GEPA 提供了「拥有大量 rollout 但不知如何利用」的新解法——多数团队已累积成千上万笔 agent 跑任务记录,但除了出错时翻几笔查 bug,并无系统性方法把这些记录转成模型改进。下一个观察点是 GEPA 在企业 agentic 工作流(如客服自动化、程式自动修复)的实际导入案例,以及是否会出现非 DSPy 框架的 GEPA 对应实现。
这篇文章 Berkeley GEPA 解析:不更新权重就能让 AI 学会新任务、35 倍少训练成本胜 RL 最早出现在 链新闻 ABMedia。
相关文章