谷歌研究发布 ReasoningBank:AI 智能体从成功与失败中学习推理策略

Gate 新闻消息,4月22日——谷歌研究发布了 ReasoningBank,这是一个智能体记忆框架,使基于大型语言模型的智能体能够在部署后持续学习。该框架从成功和失败的任务经验中提取通用推理策略,并将其存储在记忆库中,以便在未来相似任务中检索与执行。相关论文发表于 ICLR,代码已在 GitHub 上开源。

ReasoningBank 在两种现有方法的基础上进行了改进:Synapse 会记录完整的行动轨迹,但由于粒度较细,迁移能力有限;Agent Workflow Memory 只从成功案例中学习。ReasoningBank 做出了两项关键改变:存储“推理模式”而不是“行动序列”,并且每条记忆包含用于标题、描述和内容的结构化字段;将失败轨迹纳入学习。该框架使用一个模型对执行轨迹进行自我评估,将失败经验转化为反陷阱规则。例如,规则“看到就点击‘加载更多’按钮”会演化为“先验证当前页面标识符,避免陷入无限滚动循环,然后点击加载更多”。

论文还提出了 Memory-aware Test-time Scaling (MaTTS),它会在推理期间分配额外计算,用于探索多条轨迹并将发现存储到记忆库中。并行扩展会为同一任务运行多个不同的轨迹,通过自我对比来进一步完善更稳健的策略;串行扩展则会对单条轨迹进行迭代细化,并将中间推理存入记忆。

在使用 Gemini 2.5 Flash 作为 ReAct 智能体的 WebArena 浏览任务以及 SWE-Bench-Verified 编码任务中,ReasoningBank 相比没有记忆的基线,在 WebArena 上成功率提高了 8.3%,在 SWE-Bench-Verified 上提高了 4.6%,同时将每个任务的平均步骤数减少了约 3。将 MaTTS 与并行扩展结合((k=5))后,WebArena 的成功率还进一步提升了 3 个百分点,并且步骤数额外减少了 0.4。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

AI 代理 Manfred 组建公司,并在 5 月交易启动前取得加密钱包

AI 代理 Manfred 已成立自己的公司,并获得了一个加密钱包和商业资质,尽管它将在 5 月底之前不会开始交易加密货币。该代理现在已具备雇佣员工、进行付款以及开展业务的条件

GateNews2小时前

MoonPay 将于周五推出 MoonAgents 卡,一种面向 AI 代理和用户的虚拟万事达卡

据 The Block 称,MoonPay 于周五推出了 MoonAgents Card,一种面向 AI 代理和用户的虚拟万事达借记卡。该卡可在支付时将稳定币兑换为法币,并可在全球任何接受万事达卡的线上商户处使用。由 Monavate 发行,这是一家受监管的支付

GateNews6小时前

MoonPay 将于周五在 Mastercard 网络上推出 MoonAgents 卡

据 The Block 称,MoonPay 于周五推出 MoonAgents Card——一款虚拟万事达借记卡,使 AI 代理与用户能够直接从链上钱包中使用稳定币进行消费。该卡由 Monavate(一个受监管的全球支付平台,并且是万事达主要成员)发行,in

GateNews8小时前

137 Ventures 在新资金中完成 $700M ,管理资产(AUM)达到 150 亿美元

据 ChainCatcher 报道,137 Ventures,这家是 SpaceX 的早期投资者,最近已完成两只新基金的募资,总计超过 7 亿美元,使其管理资产规模提升至超过 150 亿美元。新资金将支持在 AI 代理、机器人和太空推进方面的投资

GateNews9小时前

Reddit 在强劲的 Q2 展望带动下飙升 16%;苹果面临 Mac 供应短缺,因 AI 需求超过供给

Reddit 的股价在周五开盘前上涨了 16%,原因是该公司发布了高于预期的未来一个季度营收展望。日活跃访问者增长 17% 至 1.268 亿人次,而全球人均营收跃升 44%,受 AI 驱动的

GateNews9小时前

Visa 于 5 月 1 日在香港推出面向具备代理能力的计划(Agentic Ready Program),使 AI 代理支付成为可能

据香港媒体明报称,Visa 于 5 月 1 日在香港推出 Visa Agentic Ready 计划,支持 AI 代理支付。该计划利用代币化、身份验证、风险管理和授权机制。首批参与者包括

GateNews12小时前
评论
0/400
暂无评论