Gate 新闻消息，4月22日——谷歌研究发布了 ReasoningBank，这是一个智能体记忆框架，使基于大型语言模型的智能体能够在部署后持续学习。该框架从成功和失败的任务经验中提取通用推理策略，并将其存储在记忆库中，以便在未来相似任务中检索与执行。相关论文发表于 ICLR，代码已在 GitHub 上开源。

ReasoningBank 在两种现有方法的基础上进行了改进：Synapse 会记录完整的行动轨迹，但由于粒度较细，迁移能力有限；Agent Workflow Memory 只从成功案例中学习。ReasoningBank 做出了两项关键改变：存储“推理模式”而不是“行动序列”，并且每条记忆包含用于标题、描述和内容的结构化字段；将失败轨迹纳入学习。该框架使用一个模型对执行轨迹进行自我评估，将失败经验转化为反陷阱规则。例如，规则“看到就点击‘加载更多’按钮”会演化为“先验证当前页面标识符，避免陷入无限滚动循环，然后点击加载更多”。

论文还提出了 Memory-aware Test-time Scaling (MaTTS)，它会在推理期间分配额外计算，用于探索多条轨迹并将发现存储到记忆库中。并行扩展会为同一任务运行多个不同的轨迹，通过自我对比来进一步完善更稳健的策略；串行扩展则会对单条轨迹进行迭代细化，并将中间推理存入记忆。

在使用 Gemini 2.5 Flash 作为 ReAct 智能体的 WebArena 浏览任务以及 SWE-Bench-Verified 编码任务中，ReasoningBank 相比没有记忆的基线，在 WebArena 上成功率提高了 8.3%，在 SWE-Bench-Verified 上提高了 4.6%，同时将每个任务的平均步骤数减少了约 3。将 MaTTS 与并行扩展结合（(k=5)）后，WebArena 的成功率还进一步提升了 3 个百分点，并且步骤数额外减少了 0.4。

View Source

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

Google Jules 重新定位为端到端智能体式产品开发平台，开启新版本候补名单

AI Agent AI 行业动态

Gate News 消息，4月23日——Google 的 Jules 团队宣布为产品新版本开启候补名单，将 Jules 从异步代码编写代理重新定位为端到端的智能体式产品开发平台。根据官方描述，这个升级后的平台会读取完整的产品上下文，决定接下来应该构建什么，提出解决方案，并提交拉取请求。

GateNews11 分钟前

Perplexity 公开网页搜索代理的后训练方法；基于 Qwen3.5 的模型在准确率与成本上胜过 GPT-5.4

AI Agent AI 行业动态

Perplexity 使用 Qwen3.5 模型进行先 SFT 后 RL 的训练流程，借助多跳 QA 数据集和评分规则检查来提升搜索的准确性与效率，实现同类最佳的 FRAMES 表现。摘要：Perplexity 面向网页搜索代理的后训练工作流将使用监督微调 (SFT) 来强化指令遵循与语言一致性，并通过 GRPO 算法结合在线强化学习 (RL)。强化学习阶段使用专有的多跳可验证 QA 数据集以及基于评分规则的对话数据，以防止 SFT 漂移，并采用奖励门控与组内效率惩罚。评估显示，Qwen3.5-397B-SFT-RL 在 FRAMES 上取得顶级表现：单次工具调用准确率为 57.3%，四次调用为 73.9%，成本为每次查询 $0.02，且在这些指标上优于 GPT-5.4 和 Claude Sonnet 4.6。定价基于 API，并且不包括缓存。

GateNews44 分钟前

OpenAI Codex团队修复OpenClaw身份验证错误，显著改善智能体表现

AI Agent AI 行业动态

OpenClaw从Pi切换到Codex挂载器（harness），以修复静默的身份验证后备机制；通过两个PR分别解决桥接与后备问题；修复后，智能体从浅层心跳轮询转向完整的工作循环，使得进展得以推进。摘要：OpenClaw的Codex挂载器优化解决了一个关键的身份验证缺陷，该缺陷会在使用OpenAI模型的Codex时，导致静默回退到Pi挂载器。两项拉取请求修复了身份验证桥接，并防止静默回退，从而更改了运行时适配器。其结果是，智能体行为从浅层心跳轮询演进为完整的工作循环：读取上下文、分析任务、编辑代码仓库，并验证进展，从而提升跨心跳的连续性与可视性。

GateNews1小时前

OpenAI 推出 ChatGPT Workspace Agents：Codex 驱动、团队共享、Slack 集成

AI Agent AI 行业动态

OpenAI于4月22日在ChatGPT Business/Enterprise/Edu/Teachers推出WorkspaceAgents，由Codex驱动、云端长时、团队共享且可离线执行，能在Slack主动回应与开票、执行多步工作流，并支持排程。研究预览免费到5月6日，之后采用credit-based计费，价格待公布。与GoogleGeminiEnterpriseAgentPlatform、AnthropicClaudeCowork同场竞争，三家聚焦企业级代理但定位各有不同。

鏈新聞abmedia2小时前

Google Cloud Next 2026：推出 Gemini 企业代理平台，7.5 亿美元助顾问落地

AI Agent AI 行业动态

Google Cloud 在 Cloud Next 2026 公布 Gemini 企业代理平台，整合模型选择、代理构建、DevOps、编排与企业安全管控，并推出 7.5 亿美元基金以协助 McKinsey、Accenture、Deloitte 部署企业代理。平台搭配 Ironwood TPU、A2A 与 MCP，打造自家全栈与顾问通路，对抗 OpenAI Operator 与 Anthropic Claude 企业版。

鏈新聞abmedia2小时前

Google 扩展 Wiz 云安全至 AWS、Azure 和 Google Cloud

AI Agent AI 行业动态

Google 宣布了新的安全功能，以及其在收购以色列云安全公司 Wiz 后，将其在美国$32 十亿美元规模内更深度集成到 Google Cloud 和竞争对手平台的相关计划，具体将在其 Cloud Next '26 活动中展示。该公司以预览模式推出了面向安全运营的三个 AI 代理，旨在为

Crypto Frontier2小时前

0/400

暂无评论