Gate 新闻消息,4月22日——谷歌研究发布了 ReasoningBank,这是一个智能体记忆框架,使基于大型语言模型的智能体能够在部署后持续学习。该框架从成功和失败的任务经验中提取通用推理策略,并将其存储在记忆库中,以便在未来相似任务中检索与执行。相关论文发表于 ICLR,代码已在 GitHub 上开源。
ReasoningBank 在两种现有方法的基础上进行了改进:Synapse 会记录完整的行动轨迹,但由于粒度较细,迁移能力有限;Agent Workflow Memory 只从成功案例中学习。ReasoningBank 做出了两项关键改变:存储“推理模式”而不是“行动序列”,并且每条记忆包含用于标题、描述和内容的结构化字段;将失败轨迹纳入学习。该框架使用一个模型对执行轨迹进行自我评估,将失败经验转化为反陷阱规则。例如,规则“看到就点击‘加载更多’按钮”会演化为“先验证当前页面标识符,避免陷入无限滚动循环,然后点击加载更多”。
论文还提出了 Memory-aware Test-time Scaling (MaTTS),它会在推理期间分配额外计算,用于探索多条轨迹并将发现存储到记忆库中。并行扩展会为同一任务运行多个不同的轨迹,通过自我对比来进一步完善更稳健的策略;串行扩展则会对单条轨迹进行迭代细化,并将中间推理存入记忆。
在使用 Gemini 2.5 Flash 作为 ReAct 智能体的 WebArena 浏览任务以及 SWE-Bench-Verified 编码任务中,ReasoningBank 相比没有记忆的基线,在 WebArena 上成功率提高了 8.3%,在 SWE-Bench-Verified 上提高了 4.6%,同时将每个任务的平均步骤数减少了约 3。将 MaTTS 与并行扩展结合((k=5))后,WebArena 的成功率还进一步提升了 3 个百分点,并且步骤数额外减少了 0.4。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
Google Jules 重新定位为端到端智能体式产品开发平台,开启新版本候补名单
Gate News 消息,4月23日——Google 的 Jules 团队宣布为产品新版本开启候补名单,将 Jules 从异步代码编写代理重新定位为端到端的智能体式产品开发平台。根据官方描述,这个升级后的平台会读取完整的产品上下文,决定接下来应该构建什么,提出解决方案,并提交拉取请求。
GateNews11 分钟前
Perplexity 公开网页搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本上胜过 GPT-5.4
Perplexity 使用 Qwen3.5 模型进行先 SFT 后 RL 的训练流程,借助多跳 QA 数据集和评分规则检查来提升搜索的准确性与效率,实现同类最佳的 FRAMES 表现。
摘要:Perplexity 面向网页搜索代理的后训练工作流将使用监督微调 (SFT) 来强化指令遵循与语言一致性,并通过 GRPO 算法结合在线强化学习 (RL)。强化学习阶段使用专有的多跳可验证 QA 数据集以及基于评分规则的对话数据,以防止 SFT 漂移,并采用奖励门控与组内效率惩罚。评估显示,Qwen3.5-397B-SFT-RL 在 FRAMES 上取得顶级表现:单次工具调用准确率为 57.3%,四次调用为 73.9%,成本为每次查询 $0.02,且在这些指标上优于 GPT-5.4 和 Claude Sonnet 4.6。定价基于 API,并且不包括缓存。
GateNews44 分钟前
OpenAI Codex团队修复OpenClaw身份验证错误,显著改善智能体表现
OpenClaw从Pi切换到Codex挂载器(harness),以修复静默的身份验证后备机制;通过两个PR分别解决桥接与后备问题;修复后,智能体从浅层心跳轮询转向完整的工作循环,使得进展得以推进。
摘要:OpenClaw的Codex挂载器优化解决了一个关键的身份验证缺陷,该缺陷会在使用OpenAI模型的Codex时,导致静默回退到Pi挂载器。两项拉取请求修复了身份验证桥接,并防止静默回退,从而更改了运行时适配器。其结果是,智能体行为从浅层心跳轮询演进为完整的工作循环:读取上下文、分析任务、编辑代码仓库,并验证进展,从而提升跨心跳的连续性与可视性。
GateNews1小时前
OpenAI 推出 ChatGPT Workspace Agents:Codex 驱动、团队共享、Slack 集成
OpenAI于4月22日在ChatGPT Business/Enterprise/Edu/Teachers推出WorkspaceAgents,由Codex驱动、云端长时、团队共享且可离线执行,能在Slack主动回应与开票、执行多步工作流,并支持排程。研究预览免费到5月6日,之后采用credit-based计费,价格待公布。与GoogleGeminiEnterpriseAgentPlatform、AnthropicClaudeCowork同场竞争,三家聚焦企业级代理但定位各有不同。
鏈新聞abmedia2小时前
Google Cloud Next 2026:推出 Gemini 企业代理平台,7.5 亿美元助顾问落地
Google Cloud 在 Cloud Next 2026 公布 Gemini 企业代理平台,整合模型选择、代理构建、DevOps、编排与企业安全管控,并推出 7.5 亿美元基金以协助 McKinsey、Accenture、Deloitte 部署企业代理。平台搭配 Ironwood TPU、A2A 与 MCP,打造自家全栈与顾问通路,对抗 OpenAI Operator 与 Anthropic Claude 企业版。
鏈新聞abmedia2小时前
Google 扩展 Wiz 云安全至 AWS、Azure 和 Google Cloud
Google 宣布了新的安全功能,以及其在收购以色列云安全公司 Wiz 后,将其在美国$32 十亿美元规模内更深度集成到 Google Cloud 和竞争对手平台的相关计划,具体将在其 Cloud Next '26 活动中展示。该公司以预览模式推出了面向安全运营的三个 AI 代理,旨在为
Crypto Frontier2小时前