Google Research publica ReasoningBank: los agentes de IA aprenden estrategias de razonamiento del éxito y del fracaso

Mensaje de Gate News, 22 de abril — Google Research publicó ReasoningBank, un marco de memoria para agentes que permite a los agentes impulsados por modelos de lenguaje aprender continuamente después del despliegue. El marco extrae estrategias universales de razonamiento a partir de experiencias tanto de tareas exitosas como fallidas, almacenándolas en un banco de memoria para su recuperación y ejecución en tareas futuras similares. El artículo asociado se publicó en ICLR, y el código se ha publicado como código abierto en GitHub.

ReasoningBank mejora dos enfoques existentes: Synapse, que registra trayectorias completas de acciones, pero tiene una transferibilidad limitada debido a la gran granularidad, y Agent Workflow Memory, que solo aprende de casos exitosos. ReasoningBank realiza dos cambios clave: almacenar “patrones de razonamiento” en lugar de “secuencias de acciones”, con cada memoria que contiene campos estructurados para título, descripción y contenido; e incorporar trayectorias de fallo en el aprendizaje. El marco utiliza un modelo para autoevaluar las trayectorias de ejecución, transformando las experiencias de fallo en reglas anti-errores. Por ejemplo, la regla “hacer clic en el botón Load More cuando se vea” evoluciona a “verificar primero el identificador de la página actual, evitar bucles infinitos de desplazamiento y luego hacer clic en load more.”

El artículo también introduce Memory-aware Test-time Scaling (MaTTS), que asigna cómputo adicional durante la inferencia para explorar múltiples trayectorias y almacenar hallazgos en el banco de memoria. La expansión en paralelo ejecuta múltiples trayectorias distintas para la misma tarea, refinando estrategias más robustas mediante auto-comparación; la expansión secuencial refina iterativamente una sola trayectoria, almacenando el razonamiento intermedio en memoria.

En tareas de navegador WebArena y tareas de codificación SWE-Bench-Verified usando Gemini 2.5 Flash como agente ReAct, ReasoningBank logró una tasa de éxito 8.3% más alta en WebArena y 4.6% más alta en SWE-Bench-Verified en comparación con una línea base sin memoria, reduciendo los pasos promedio por tarea en aproximadamente 3. Al agregar MaTTS con expansión en paralelo (k=5), la tasa de éxito en WebArena mejoró aún en 3 puntos porcentuales y los pasos se redujeron en 0.4 adicionales.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Google Jules se renombra como plataforma de desarrollo de productos agentica de extremo a extremo y abre lista de espera para una nueva versión

Mensaje de Gate News, 23 de abril — El equipo de Jules de Google anunció la apertura de una lista de espera para una nueva versión del producto, reposicionando a Jules de un agente de codificación asíncrono a una plataforma de desarrollo de productos agentica de extremo a extremo. Según la descripción oficial, la plataforma mejorada lee el contexto completo del producto, determina qué debe construirse a continuación, propone soluciones y envía solicitudes de extracción. La versión anterior funcionaba como un agente de codificación asíncrono integrado con GitHub que ejecutaba tareas específicas asignadas por los usuarios y enviaba código en segundo plano. La nueva versión marca un cambio importante: en lugar de limitarse a ejecutar tareas concretas, el agente ahora comprende de forma proactiva el panorama del producto y decide de manera autónoma qué construir.

GateNewsHace11m

Perplexity 披露网络搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本上优于 GPT-5.4

Perplexity 使用 Qwen3.5 模型进行 SFT,随后使用带有 RL 的训练流程,借助多跳 QA 数据集和评分标准检查来提升搜索准确性与效率,实现了同类最佳的 FRAMES 表现。 摘要:Perplexity 的用于网络搜索代理的后训练工作流,将监督微调 (SFT) 与通过 GRPO 算法的在线强化学习 (RL) 结合在一起。监督微调用于强化指令遵循和语言一致性;强化学习阶段则用于进一步优化。RL 阶段使用专有的多跳可验证问答数据集以及基于评分标准的对话数据,以防止 SFT 漂移,并采用奖励门控以及组内效率惩罚。评估显示 Qwen3.5-397B-SFT-RL 在 FRAMES 上达到顶级表现:单次工具调用准确率 57.3%,四次调用准确率 73.9%,成本为每次查询 $0.02,在这些指标上优于 GPT-5.4 与 Claude Sonnet 4.6。定价基于 API,并不包含缓存。

GateNewsHace44m

OpenAI Codex Team Fixes OpenClaw Authentication Bug, Significantly Improves Agent Behavior

OpenClaw switches from Pi to Codex harness to fix a silent authentication fallback, with two PRs addressing the bridge and fallback; post-fix, the agent shifts from shallow heartbeat polling to a full work loop, enabling progress. Abstract: OpenClaw’s Codex harness optimization addressed a critical authentication flaw that caused silent fallback to the Pi harness when using Codex with OpenAI models. Two pull requests fix the authentication bridge and prevent silent fallback, changing the runtime adapter. As a result, agent behavior evolves from shallow heartbeat polling to a full work loop that reads context, analyzes tasks, edits repositories, and verifies progress, improving continuity and visibility across heartbeats.

GateNewshace1h

OpenAI anuncia los ChatGPT Workspace Agents: impulsados por Codex, compartidos por el equipo, integración con Slack

OpenAI lanzó Workspace Agents en ChatGPT Business/Enterprise/Edu/Teachers el 22 de abril, impulsados por Codex, con ejecución en la nube de larga duración, compartidos por equipos y con capacidad de funcionar sin conexión; pueden responder proactivamente en Slack y emitir tickets, ejecutar flujos de trabajo de múltiples pasos y también admitir la programación. La vista previa de investigación es gratuita hasta el 6 de mayo; después, se cobrará mediante una tarifa basada en créditos, y los precios se darán a conocer. Compiten en el mismo escenario que el GoogleGeminiEnterpriseAgentPlatform y AnthropicClaudeCowork; las tres se centran en agentes a nivel empresarial, pero su posicionamiento es distinto.

ChainNewsAbmediahace2h

Google Cloud Next 2026: lanza la plataforma de agentes empresariales Gemini, 750 millones de dólares para ayudar a los consultores a implementarlo

Google Cloud anunció en Cloud Next 2026 la plataforma Gemini Enterprise Agent Platform, que integra selección de modelos, construcción de agentes, DevOps, orquestación y controles de seguridad para empresas, y lanzó un fondo de 750 millones de dólares para ayudar a McKinsey, Accenture y Deloitte a implementar agentes empresariales. La plataforma, junto con Ironwood TPU, A2A y MCP, construye su propio stack completo y una vía de acceso para consultores, para hacer frente a OpenAI Operator y a la versión empresarial de Anthropic Claude.

ChainNewsAbmediahace2h

Google amplía la seguridad en la nube Wiz en AWS, Azure y Google Cloud

Google anunció nuevas funciones de seguridad e integración más profunda de Wiz, la empresa israelí de ciberseguridad que adquirió por US$32 billion, en Google Cloud y plataformas rivales en su evento Cloud Next '26. La compañía presentó tres agentes de IA para las Operaciones de Seguridad en modo de vista previa, diseñados para

CryptoFrontierhace2h
Comentar
0/400
Sin comentarios