Tin cổng Gate News, ngày 22 tháng 4 — Google Research đã phát hành ReasoningBank, một khung bộ nhớ tác nhân cho phép các tác nhân điều khiển bởi mô hình ngôn ngữ lớn liên tục học hỏi sau khi triển khai. Khung này trích xuất các chiến lược suy luận phổ quát từ cả kinh nghiệm nhiệm vụ thành công và thất bại, lưu chúng vào một ngân hàng bộ nhớ để tra cứu và thực thi trên các nhiệm vụ tương tự trong tương lai. Bài báo liên quan được công bố tại ICLR, và mã nguồn đã được mở trên GitHub.
ReasoningBank cải tiến dựa trên hai cách tiếp cận hiện có: Synapse, ghi lại toàn bộ quỹ đạo hành động nhưng có khả năng chuyển giao hạn chế do mức độ chi tiết quá nhỏ, và Agent Workflow Memory, chỉ học từ các trường hợp thành công. ReasoningBank thực hiện hai thay đổi then chốt: lưu “các mẫu suy luận” thay vì “chuỗi hành động,” với mỗi bộ nhớ chứa các trường có cấu trúc cho tiêu đề, mô tả và nội dung; và đưa các quỹ đạo thất bại vào quá trình học. Khung sử dụng một mô hình để tự đánh giá các quỹ đạo thực thi, biến các trải nghiệm thất bại thành các quy tắc tránh bẫy. Ví dụ, quy tắc “nhấp vào nút Tải thêm khi thấy” phát triển thành “xác minh trước mã định danh của trang hiện tại, tránh các vòng lặp cuộn vô tận, rồi sau đó nhấp tải thêm.”
Bài báo cũng giới thiệu Memory-aware Test-time Scaling (MaTTS), phân bổ thêm năng lực tính toán trong quá trình suy luận để khám phá nhiều quỹ đạo và lưu kết quả vào ngân hàng bộ nhớ. Mở rộng song song chạy nhiều quỹ đạo riêng biệt cho cùng một nhiệm vụ, tinh chỉnh các chiến lược mạnh mẽ hơn thông qua so sánh tự thân; mở rộng tuần tự tinh chỉnh lặp một quỹ đạo duy nhất, lưu suy luận trung gian vào bộ nhớ.
Trong các tác vụ trình duyệt WebArena và các tác vụ mã hóa SWE-Bench-Verified sử dụng Gemini 2.5 Flash làm tác nhân ReAct, ReasoningBank đạt tỷ lệ thành công cao hơn 8,3% trên WebArena và cao hơn 4,6% trên SWE-Bench-Verified so với một chuẩn không có bộ nhớ, đồng thời giảm trung bình số bước trên mỗi tác vụ khoảng 3. Việc thêm MaTTS với mở rộng song song (k=5) tiếp tục cải thiện tỷ lệ thành công trên WebArena thêm 3 điểm phần trăm và giảm số bước thêm 0,4.
Bài viết liên quan
Các nhà nghiên cứu triển khai công nghệ DPN-LE để chỉnh sửa các đặc điểm tính cách của AI, chỉ chỉnh sửa 0,5% số nơ-ron
AI Agent Manfred thành lập công ty, chuẩn bị ví tiền mã hóa để giao dịch trước cuối tháng 5
CEO của Tether đề xuất tích hợp WDK và QVAC để hỗ trợ thẻ tác nhân
Particle Network Ra Mắt Lộ Trình Tài Khoản Phổ Quát, Khởi Chạy Universal Deposit SDK và Tài Khoản AI Agent
OpenAI Cho Phép Các Gói Đăng Ký ChatGPT Hoạt Động Trên Nền Tảng Tác Nhân OpenClaw
AI Agent Manfred thành lập công ty, chuẩn bị giao dịch crypto vào cuối tháng 5