Google Research представляет ReasoningBank: ИИ-агенты учатся стратегиям рассуждений на успехах и неудачах

Сообщение Gate News, 22 апреля — Google Research выпустила ReasoningBank, фреймворк агентной памяти, который позволяет агентам, управляемым большими языковыми моделями, непрерывно учиться после развертывания. Фреймворк извлекает универсальные стратегии рассуждений как из успешных, так и из неудачных опытов выполнения задач, сохраняя их в банке памяти для поиска и выполнения при выполнении похожих будущих задач. Соответствующая работа была опубликована в ICLR, а код выложен в открытый доступ на GitHub.

ReasoningBank улучшает два существующих подхода: Synapse, который фиксирует полные траектории действий, но имеет ограниченную переносимость из-за мелкозернистой детализации, и Agent Workflow Memory, который обучается только на успешных случаях. ReasoningBank вносит два ключевых изменения: хранит «паттерны рассуждений» вместо «последовательностей действий», при этом каждая запись памяти содержит структурированные поля для заголовка, описания и содержимого; и включает траектории неудач в обучение. Фреймворк использует модель для самопроверки траекторий выполнения, превращая неудачные опыты в правила против типичных ошибок. Например, правило «нажимай кнопку Load More, когда она видна» развивается в «сначала проверь идентификатор текущей страницы, избегай циклов бесконечной прокрутки, затем нажми load more».

В статье также вводится Memory-aware Test-time Scaling (MaTTS), которое выделяет дополнительные вычисления во время вывода, чтобы исследовать несколько траекторий и сохранять результаты в банке памяти. Параллельное расширение запускает несколько различных траекторий для одной и той же задачи, уточняя более надежные стратегии за счет самосравнения; последовательное расширение итеративно уточняет одну траекторию, сохраняя промежуточные рассуждения в памяти.

В задачах браузера WebArena и задачах по программированию SWE-Bench-Verified с использованием Gemini 2.5 Flash в качестве ReAct-агента ReasoningBank достигла на 8,3% более высокой доли успешных исходов на WebArena и на 4,6% более высокой на SWE-Bench-Verified по сравнению с базовой версией без памяти, сократив среднее число шагов на задачу примерно на 3. Добавление MaTTS с параллельным расширением (k=5) дополнительно улучшило успешность на WebArena на 3 процентных пункта и уменьшило число шагов еще на 0,4.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

ИИ-агент Манфред создаёт компанию и получает криптокошелёк до старта торгов в мае

AI-агент Manfred создал собственную компанию и получил криптокошелёк и бизнес-документы, хотя начинать торговлю криптовалютой он будет только в конце мая. Теперь агент готов нанимать сотрудников, осуществлять платежи и вести бизнес

GateNews34м назад

MoonPay запускает MoonAgents Card — виртуальную Mastercard для AI-агентов и пользователей в пятницу

По данным The Block, MoonPay в пятницу запустила MoonAgents Card — виртуальную дебетовую карту Mastercard для AI-агентов и пользователей. Карта конвертирует стейблкоины в фиат непосредственно в момент оплаты и может использоваться у любых онлайн-мерчантов по всему миру, которые принимают Mastercard. Карта выпущена через Monavate, регулируемого платежного провайдера

GateNews4ч назад

MoonPay запускает MoonAgents Card в сети Mastercard в пятницу

По данным The Block, MoonPay запустила MoonAgents Card в пятницу — виртуальную дебетовую карту Mastercard, позволяющую AI-агентам и пользователям тратить стейблкоины напрямую из onchain-кошельков. Карта выпускается через Monavate, регулируемую глобальную платежную платформу и principal member Mastercard, в

GateNews6ч назад

137 Ventures закрывает $700M в новых фондах, AUM достигает 15 млрд долларов

По данным ChainCatcher, 137 Ventures, ранний инвестор в SpaceX, недавно завершила сбор средств для двух новых фондов на общую сумму свыше $700 миллионов, доведя объем активов под управлением до более $15 миллиардов. Новые средства пойдут на инвестиции в AI-агентов, робототехнику и космическую силовую установку

GateNews7ч назад

Reddit взлетает на 16% на сильный прогноз на 2-й квартал; Apple сталкивается с дефицитом Mac из-за того, что спрос на ИИ опережает поставки

Акции Reddit выросли на 16% до открытия рынка в пятницу после того, как компания опубликовала прогноз по выручке на следующий квартал выше ожиданий. Ежедневная активная аудитория увеличилась на 17% до 126,8 миллиона, а средняя выручка на пользователя по всему миру подскочила на 44%, благодаря AI-powered

GateNews7ч назад

Visa запускает агентскую программу Ready в Гонконге 1 мая, чтобы обеспечить платежи через AI-агентов

Согласно гонконгским СМИ Ming Pao, Visa запустила программу Visa Agentic Ready в Гонконге 1 мая, чтобы обеспечить платежи с помощью ИИ-агентов. Программа использует токенизацию, проверку личности, механизмы управления рисками и авторизации. Первые участники включают

GateNews10ч назад
комментарий
0/400
Нет комментариев