Google Research publie ReasoningBank : les agents IA apprennent des stratégies de raisonnement grâce à la réussite et à l’échec

Agent IA Actualités de l’industrie de l’IA

2026-04-22 08:25:39

Message de Gate News, 22 avril — Google Research a publié ReasoningBank, un cadre de mémoire d’agent qui permet à des agents pilotés par de grands modèles de langage d’apprendre en continu après leur déploiement. Le cadre extrait des stratégies universelles de raisonnement à partir d’expériences de tâches à la fois réussies et échouées, les stockant dans une banque de mémoire pour la récupération et l’exécution sur des tâches futures similaires. L’article associé a été publié à l’ICLR, et le code a été open-sourcé sur GitHub.

ReasoningBank améliore deux approches existantes : Synapse, qui enregistre des trajectoires d’action complètes mais dispose d’une transférabilité limitée en raison d’une granularité trop fine, et Agent Workflow Memory, qui n’apprend que des cas réussis. ReasoningBank apporte deux changements clés : stocker des « modèles de raisonnement » au lieu de « séquences d’action », chaque mémoire contenant des champs structurés pour le titre, la description et le contenu ; et intégrer des trajectoires d’échec à l’apprentissage. Le cadre utilise un modèle pour s’auto-évaluer sur les trajectoires d’exécution, transformant les expériences d’échec en règles anti-pièges. Par exemple, la règle « cliquer sur le bouton Charger plus lorsqu’il est visible » évolue vers « vérifier d’abord l’identifiant de la page actuelle, éviter les boucles de défilement infini, puis cliquer sur charger plus. »

L’article introduit également Memory-aware Test-time Scaling (MaTTS), qui alloue une puissance de calcul supplémentaire pendant l’inférence afin d’explorer plusieurs trajectoires et de stocker les résultats dans la banque de mémoire. L’expansion parallèle exécute plusieurs trajectoires distinctes pour la même tâche, en affinant des stratégies plus robustes grâce à une auto-comparaison ; l’expansion séquentielle affine itérativement une seule trajectoire, en stockant un raisonnement intermédiaire en mémoire.

Sur les tâches de navigateur WebArena et les tâches de codage SWE-Bench-Verified en utilisant Gemini 2.5 Flash comme agent ReAct, ReasoningBank a atteint un taux de réussite supérieur de 8,3 % sur WebArena et de 4,6 % sur SWE-Bench-Verified par rapport à une référence sans mémoire, en réduisant d’environ 3 le nombre moyen d’étapes par tâche. L’ajout de MaTTS avec expansion parallèle (k=5) a encore amélioré le taux de réussite sur WebArena de 3 points de pourcentage et réduit les étapes d’un supplément de 0,4.

Afficher la source

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.

Actualités associées

04-22 07:51

AWS Expands Multi-Agent AI Workflows, Supports Claude Opus 4.7 on Bedrock

04-22 06:41

0G Labs s’associe à Alibaba Cloud pour permettre l’accès aux agents IA en chaîne au modèle Qwen

04-22 02:41

Google consolide ses outils de codage par IA sous la plateforme Antigravity

04-22 01:21

OpenAI étend ses partenariats avec Accenture et TCS pour déployer Codex auprès de clients professionnels

04-22 01:11

Moonshot AI publie un modèle open source Kimi K2.6 avec des workflows d’agents avancés

Analyse approfondie