Google Research publie ReasoningBank : les agents IA apprennent des stratégies de raisonnement grâce à la réussite et à l’échec

Message de Gate News, 22 avril — Google Research a publié ReasoningBank, un cadre de mémoire d’agent qui permet à des agents pilotés par de grands modèles de langage d’apprendre en continu après leur déploiement. Le cadre extrait des stratégies universelles de raisonnement à partir d’expériences de tâches à la fois réussies et échouées, les stockant dans une banque de mémoire pour la récupération et l’exécution sur des tâches futures similaires. L’article associé a été publié à l’ICLR, et le code a été open-sourcé sur GitHub.

ReasoningBank améliore deux approches existantes : Synapse, qui enregistre des trajectoires d’action complètes mais dispose d’une transférabilité limitée en raison d’une granularité trop fine, et Agent Workflow Memory, qui n’apprend que des cas réussis. ReasoningBank apporte deux changements clés : stocker des « modèles de raisonnement » au lieu de « séquences d’action », chaque mémoire contenant des champs structurés pour le titre, la description et le contenu ; et intégrer des trajectoires d’échec à l’apprentissage. Le cadre utilise un modèle pour s’auto-évaluer sur les trajectoires d’exécution, transformant les expériences d’échec en règles anti-pièges. Par exemple, la règle « cliquer sur le bouton Charger plus lorsqu’il est visible » évolue vers « vérifier d’abord l’identifiant de la page actuelle, éviter les boucles de défilement infini, puis cliquer sur charger plus. »

L’article introduit également Memory-aware Test-time Scaling (MaTTS), qui alloue une puissance de calcul supplémentaire pendant l’inférence afin d’explorer plusieurs trajectoires et de stocker les résultats dans la banque de mémoire. L’expansion parallèle exécute plusieurs trajectoires distinctes pour la même tâche, en affinant des stratégies plus robustes grâce à une auto-comparaison ; l’expansion séquentielle affine itérativement une seule trajectoire, en stockant un raisonnement intermédiaire en mémoire.

Sur les tâches de navigateur WebArena et les tâches de codage SWE-Bench-Verified en utilisant Gemini 2.5 Flash comme agent ReAct, ReasoningBank a atteint un taux de réussite supérieur de 8,3 % sur WebArena et de 4,6 % sur SWE-Bench-Verified par rapport à une référence sans mémoire, en réduisant d’environ 3 le nombre moyen d’étapes par tâche. L’ajout de MaTTS avec expansion parallèle (k=5) a encore amélioré le taux de réussite sur WebArena de 3 points de pourcentage et réduit les étapes d’un supplément de 0,4.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

L’agent de découverte de vulnérabilités par IA de 360 trouve près de 1 000 exploits de type zero-day, en concurrence avec Mythos

L’agent piloté par IA de 360 Digital Security affirme avoir découvert environ 1 000 nouvelles vulnérabilités, notamment dans Office et OpenClaw ; l’IA est désormais au cœur de la découverte et de la préparation de la chaîne d’exploitation, rivalisant avec Mythos. Résumé : Un rapport cité par Bloomberg indique que l’agent de découverte de vulnérabilités piloté par IA de 360 Digital Security Group a identifié près de 1 000 vulnérabilités auparavant inconnues ces derniers mois, notamment dans Microsoft Office et le framework OpenClaw. La société affirme que l’IA est devenue le moteur central de la découverte des vulnérabilités et a annoncé un outil d’IA pour accélérer la construction des chaînes d’exploitation. Benincasa décrit 360 comme un concurrent de Mythos d’Anthropic, sur la base de la revue des annonces en langue chinoise de la société par Natto Thoughts.

GateNewsIl y a 6h

Lancement d’Aethir Claw V1 : déployez des agents IA sans code en moins de cinq minutes

Message de Gate News, 22 avril — Aethir, fournisseur d’infrastructure décentralisée de cloud GPU, a lancé aujourd’hui la version 1.0 d’Aethir Claw, sa plateforme d’hébergement d’agents IA. La plateforme permet aux utilisateurs sans bagage technique de déployer et configurer des agents IA entièrement dans leur navigateur en moins de cinq

GateNewsIl y a 8h

Google lance des outils d’agents d’IA pour aider les entreprises à automatiser des tâches

Google dévoile des outils pour créer des agents d’IA afin d’automatiser des tâches, de suivre l’avancement et de gérer les flux de travail via des boîtes de réception d’agents dédiées, avec des mises à jour de Workspace et une vision d’agents d’IA qui transforment les routines quotidiennes des employés. Résumé : Google a présenté des outils pour créer des agents d’IA destinés à l’automatisation des tâches, au suivi de leur progression et à la rationalisation des flux de travail, annonçant des mises à jour de Workspace et un futur où les agents d’IA transforment le travail quotidien.

GateNewsIl y a 9h

Microsoft dévoile une infrastructure de commerce pour les agents IA : place de marché pour les éditeurs, protocoles pour les marchands et outils publicitaires

Message de Gate News, 22 avril — Le vice-président à la monétisation de l’IA chez Microsoft, Tim Frank, a annoncé une série de mises à jour d’infrastructure commerciale conçues pour l’ère de « l’agentic web », permettant aux éditeurs, marchands et annonceurs de rester découvrables et négociables à mesure que des agents IA prennent des décisions d’achat au nom des utilisateurs, sur

GateNewsIl y a 11h

NeoCognition lève $40M en financement de démarrage pour des agents IA d’apprentissage sur le poste de travail

Message de Gate News, 22 avril — Le laboratoire de recherche en IA NeoCognition a annoncé l’achèvement d’un tour de table de $40 millions, en sortant du mode furtif. Fondée par le professeur agrégé de l’université d’État de l’Ohio Yu Su, ainsi qu’avec Xiang Deng et Yu Gu, la société a son siège à Palo Alto, en Californie. Le tour w

GateNewsIl y a 11h

PicWe lance un portefeuille à agent IA avec gestion des clés sur l’appareil

PicWe annonce la version bêta publique de PicWe Wallet, un portefeuille de clés sur appareil doté d’agents IA, sans phrases de récupération. Il prend en charge des actifs multi-chaînes, des échanges, une automatisation accessible par l’IA et vise à unifier l’infrastructure RWA. PicWe a lancé la version bêta publique de PicWe Wallet, un portefeuille avec des agents IA qui stocke les clés sur l’appareil, supprime les phrases de récupération et maintient les opérations critiques localement. La bêta prend en charge la gestion d’actifs multi-chaînes, les échanges, et des paiements de frais basés sur les stablecoins tout en permettant des interactions programmables avec l’IA. Les initiatives plus larges de PicWe positionnent la plateforme comme une infrastructure unifiée pour les actifs du monde réel, permettant l’émission, la circulation, le règlement, les paiements transfrontaliers, la tokenisation et la coordination de la chaîne d’approvisionnement pour des cas d’usage en entreprise.

GateNewsIl y a 12h
Commentaire
0/400
Aucun commentaire