Повідомлення Gate News, 22 квітня — Google Research опублікувала ReasoningBank, фреймворк пам’яті агентів, який дає змогу агентам, керованим великими мовними моделями, безперервно вчитись після розгортання. Фреймворк витягує універсальні стратегії міркування як з успішних, так і з невдалих досвідів виконання завдань, зберігаючи їх у банку пам’яті для пошуку та виконання під час подібних майбутніх завдань. Відповідна стаття була опублікована в ICLR, а код відкрито на GitHub.
ReasoningBank удосконалює два наявні підходи: Synapse, який записує повні траєкторії дій, але має обмежену переносимість через дрібнозернисту деталізацію, та Agent Workflow Memory, яка навчається лише на успішних випадках. ReasoningBank вносить дві ключові зміни: зберігання “patternів міркування” замість “послідовностей дій”, де кожна пам’ять містить структуровані поля для назви, опису та вмісту; і включення невдалих траєкторій у процес навчання. Фреймворк використовує модель для самостійної оцінки траєкторій виконання, перетворюючи невдалий досвід на правила проти типових помилок. Наприклад, правило “клікніть кнопку Load More, коли її побачите” еволюціонує в “спершу перевірте ідентифікатор поточної сторінки, уникайте нескінченних циклів прокрутки, а потім натисніть load more.”
Стаття також вводить Memory-aware Test-time Scaling (MaTTS), яке виділяє додаткові обчислення під час інференсу, щоб досліджувати кілька траєкторій і зберігати результати в банку пам’яті. Паралельне розгортання виконує кілька різних траєкторій для одного й того ж завдання, уточнюючи більш надійні стратегії через самопорівняння; послідовне розгортання ітеративно уточнює одну траєкторію, зберігаючи проміжне міркування в пам’яті.
У браузерних задачах WebArena та задачах кодування SWE-Bench-Verified із використанням Gemini 2.5 Flash як агента ReAct, ReasoningBank досягла на 8.3% вищого рівня успіху на WebArena та на 4.6% вищого на SWE-Bench-Verified порівняно з базовим підходом без пам’яті, зменшивши середню кількість кроків на завдання приблизно на 3. Додавання MaTTS із паралельним розгортанням (k=5) ще більше покращило рівень успіху на WebArena на 3 відсоткові пункти та зменшило кількість кроків додатково на 0.4.
Пов'язані статті
AI-агент Манфред створює компанію, готує криптогаманець до торгівлі до кінця травня
MoonPay запускає MoonAgents Card у мережі Mastercard у п’ятницю
137 Ventures закриває $700M для нових фондів, AUM досягає $15B
Reddit зростає на 16% на сильних прогнозах щодо 2 кварталу; Apple стикається з дефіцитом Mac через те, що попит на ШІ випереджає пропозицію
Visa запускає програму Agentic Ready у Гонконзі 1 травня, що дає змогу платити через AI-агенти
OpenClaw випускає v2026.4.29 29 квітня та оновлює пам’ять до персоналізованої вікі з відстеженням зв’язків