Mensaje de Gate News, 22 de abril — Google Research publicó ReasoningBank, un marco de memoria para agentes que permite a los agentes impulsados por modelos de lenguaje aprender continuamente después del despliegue. El marco extrae estrategias universales de razonamiento a partir de experiencias tanto de tareas exitosas como fallidas, almacenándolas en un banco de memoria para su recuperación y ejecución en tareas futuras similares. El artículo asociado se publicó en ICLR, y el código se ha publicado como código abierto en GitHub.

ReasoningBank mejora dos enfoques existentes: Synapse, que registra trayectorias completas de acciones, pero tiene una transferibilidad limitada debido a la gran granularidad, y Agent Workflow Memory, que solo aprende de casos exitosos. ReasoningBank realiza dos cambios clave: almacenar "patrones de razonamiento" en lugar de "secuencias de acciones", con cada memoria que contiene campos estructurados para título, descripción y contenido; e incorporar trayectorias de fallo en el aprendizaje. El marco utiliza un modelo para autoevaluar las trayectorias de ejecución, transformando las experiencias de fallo en reglas anti-errores. Por ejemplo, la regla "hacer clic en el botón Load More cuando se vea" evoluciona a "verificar primero el identificador de la página actual, evitar bucles infinitos de desplazamiento y luego hacer clic en load more."

El artículo también introduce Memory-aware Test-time Scaling (MaTTS), que asigna cómputo adicional durante la inferencia para explorar múltiples trayectorias y almacenar hallazgos en el banco de memoria. La expansión en paralelo ejecuta múltiples trayectorias distintas para la misma tarea, refinando estrategias más robustas mediante auto-comparación; la expansión secuencial refina iterativamente una sola trayectoria, almacenando el razonamiento intermedio en memoria.

En tareas de navegador WebArena y tareas de codificación SWE-Bench-Verified usando Gemini 2.5 Flash como agente ReAct, ReasoningBank logró una tasa de éxito 8.3% más alta en WebArena y 4.6% más alta en SWE-Bench-Verified en comparación con una línea base sin memoria, reduciendo los pasos promedio por tarea en aproximadamente 3. Al agregar MaTTS con expansión en paralelo (k=5), la tasa de éxito en WebArena mejoró aún en 3 puntos porcentuales y los pasos se redujeron en 0.4 adicionales.

Ver fuente

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.

Noticias relacionadas

04-22 07:51

AWS Amplía los Flujos de Trabajo de IA de Múltiples Agentes y Admite Claude Opus 4.7 en Bedrock

04-22 06:41

0G Labs se asocia con Alibaba Cloud para habilitar acceso a agentes de IA en cadena al modelo Qwen

04-22 02:41

Google consolida herramientas de codificación con IA bajo la plataforma Antigravity

04-22 01:21

OpenAI 扩大与 Accenture 和 TCS 的合作：为企业客户部署 Codex

04-22 01:11

Moonshot AI lanza el modelo de código abierto Kimi K2.6 con flujos de trabajo avanzados de agentes

Análisis en profundidad