Google Research Phát hành ReasoningBank: Các tác nhân AI Học các chiến lược suy luận từ Thành công và Thất bại

Tin cổng Gate News, ngày 22 tháng 4 — Google Research đã phát hành ReasoningBank, một khung bộ nhớ tác nhân cho phép các tác nhân điều khiển bởi mô hình ngôn ngữ lớn liên tục học hỏi sau khi triển khai. Khung này trích xuất các chiến lược suy luận phổ quát từ cả kinh nghiệm nhiệm vụ thành công và thất bại, lưu chúng vào một ngân hàng bộ nhớ để tra cứu và thực thi trên các nhiệm vụ tương tự trong tương lai. Bài báo liên quan được công bố tại ICLR, và mã nguồn đã được mở trên GitHub.

ReasoningBank cải tiến dựa trên hai cách tiếp cận hiện có: Synapse, ghi lại toàn bộ quỹ đạo hành động nhưng có khả năng chuyển giao hạn chế do mức độ chi tiết quá nhỏ, và Agent Workflow Memory, chỉ học từ các trường hợp thành công. ReasoningBank thực hiện hai thay đổi then chốt: lưu “các mẫu suy luận” thay vì “chuỗi hành động,” với mỗi bộ nhớ chứa các trường có cấu trúc cho tiêu đề, mô tả và nội dung; và đưa các quỹ đạo thất bại vào quá trình học. Khung sử dụng một mô hình để tự đánh giá các quỹ đạo thực thi, biến các trải nghiệm thất bại thành các quy tắc tránh bẫy. Ví dụ, quy tắc “nhấp vào nút Tải thêm khi thấy” phát triển thành “xác minh trước mã định danh của trang hiện tại, tránh các vòng lặp cuộn vô tận, rồi sau đó nhấp tải thêm.”

Bài báo cũng giới thiệu Memory-aware Test-time Scaling (MaTTS), phân bổ thêm năng lực tính toán trong quá trình suy luận để khám phá nhiều quỹ đạo và lưu kết quả vào ngân hàng bộ nhớ. Mở rộng song song chạy nhiều quỹ đạo riêng biệt cho cùng một nhiệm vụ, tinh chỉnh các chiến lược mạnh mẽ hơn thông qua so sánh tự thân; mở rộng tuần tự tinh chỉnh lặp một quỹ đạo duy nhất, lưu suy luận trung gian vào bộ nhớ.

Trong các tác vụ trình duyệt WebArena và các tác vụ mã hóa SWE-Bench-Verified sử dụng Gemini 2.5 Flash làm tác nhân ReAct, ReasoningBank đạt tỷ lệ thành công cao hơn 8,3% trên WebArena và cao hơn 4,6% trên SWE-Bench-Verified so với một chuẩn không có bộ nhớ, đồng thời giảm trung bình số bước trên mỗi tác vụ khoảng 3. Việc thêm MaTTS với mở rộng song song (k=5) tiếp tục cải thiện tỷ lệ thành công trên WebArena thêm 3 điểm phần trăm và giảm số bước thêm 0,4.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Các nhà nghiên cứu triển khai công nghệ DPN-LE để chỉnh sửa các đặc điểm tính cách của AI, chỉ chỉnh sửa 0,5% số nơ-ron

Theo BlockBeats, vào ngày 3/5, nhà nghiên cứu AI Brian Roemmele đã tiết lộ rằng công ty Zero-Human của ông đã triển khai công nghệ DPN-LE (Dual Personality Neuron Localization and Editing) để điều chỉnh chính xác

GateNews3giờ trước

AI Agent Manfred thành lập công ty, chuẩn bị ví tiền mã hóa để giao dịch trước cuối tháng 5

Tác nhân AI Manfred đã thành lập công ty của riêng mình và nhận được một ví crypto cùng các giấy tờ kinh doanh, bao gồm khả năng thuê nhân sự và thực hiện thanh toán. Tác nhân này dự kiến sẽ bắt đầu giao dịch crypto vào cuối

GateNews4giờ trước

CEO của Tether đề xuất tích hợp WDK và QVAC để hỗ trợ thẻ tác nhân

Theo Foresight News, CEO Tether Paolo Ardoino cho biết trên X rằng công ty phát hành stablecoin có thể cần thúc đẩy việc tích hợp giữa WDK và QVAC để hỗ trợ chức năng Agent Cards.

GateNews7giờ trước

Particle Network Ra Mắt Lộ Trình Tài Khoản Phổ Quát, Khởi Chạy Universal Deposit SDK và Tài Khoản AI Agent

Theo ChainCatcher, hôm nay Particle Network đã công bố lộ trình giai đoạn tiếp theo cho Universal Accounts, giới thiệu hai sản phẩm mới trong vài tháng tới: Universal Deposit SDK, cho phép nhà phát triển thêm tiền gửi đa chuỗi với khoảng 10 dòng code và Universal Agent Accounts,

GateNews7giờ trước

OpenAI Cho Phép Các Gói Đăng Ký ChatGPT Hoạt Động Trên Nền Tảng Tác Nhân OpenClaw

Theo CEO OpenAI Sam Altman vào ngày 2/5, người dùng ChatGPT hiện có thể đăng nhập vào nền tảng tác nhân OpenClaw bằng tài khoản ChatGPT của họ và trực tiếp sử dụng các gói đăng ký ChatGPT hiện có trên nền tảng này.

GateNews10giờ trước

AI Agent Manfred thành lập công ty, chuẩn bị giao dịch crypto vào cuối tháng 5

Tác nhân AI Manfred đã thành lập công ty riêng và có được một ví tiền mã hóa kèm theo các thông tin đăng nhập để tuyển nhân sự, thực hiện thanh toán và tiến hành hoạt động kinh doanh. Tác nhân này dự định bắt đầu giao dịch tiền mã hóa vào cuối

GateNews10giờ trước
Bình luận
0/400
Không có bình luận