Theo theo dõi từ Beat Inc., Viện Nghiên cứu Google đã phát hành khung nhớ trí tuệ cho điều ReasoningBank, cho phép các đại lý trí tuệ được điều khiển bởi mô hình lớn tiếp tục học sau khi triển khai. Phương pháp cốt lõi là rút trích trải nghiệm thành công và thất bại từ các nhiệm vụ trước đó thành chiến lược suy luận chung được lưu trữ trong bộ nhớ, để tiếp tục tìm kiếm và thực thi khi gặp nhiệm vụ tương tự. Bài báo liên quan được công bố tại ICLR, mã nguồn đã được công bố trên GitHub.
Trước đó, hai loại giải pháp tiêu biểu đều có nhược điểm: Synapse ghi lại toàn bộ quỹ đạo hành động, tuy nhiên độ mịn quá khó chuyển giao; Agent Workflow Memory chỉ rút trích luồng làm việc từ các trường hợp thành công. ReasoningBank đã thay đổi hai điểm: thay đổi đối tượng lưu trữ từ "chuỗi hành động" sang "mẫu suy luận", mỗi bộ nhớ bao gồm ba trường được cấu trúc là tiêu đề, mô tả và nội dung; các quỹ đạo thất bại cũng được học. Mô hình sử dụng mô hình lớn thứ hai để tự đánh giá quỹ đạo thực thi, trải nghiệm thất bại được chia thành các quy tắc tránh rủi ro, ví dụ như từ "nhìn thấy nút Load More là nhấn" được nâng cấp thành "kiểm tra nhãn trang hiện tại trước, tránh rơi vào cuộc lăn không giới hạn, sau đó nhấp để tải thêm".
Trong bài báo, cũng đề xuất Memory-aware Test-time Scaling (MaTTS), dùng nhiều sức mạnh tính toán khi suy luận, lưu trữ quá trình khám phá trong bộ nhớ. Mở rộng song song cho phép đại lý trí tuệ chạy nhiều quỹ đạo khác nhau cho cùng một nhiệm vụ, thông qua tự so sánh để rút trích chiến lược ổn định hơn; mở rộng tuần tự tập trung vào cải thiện một quỹ đạo, lưu trữ suy luận trung gian vào bộ nhớ.
Trên hai bài kiểm tra cơ bản WebArena và SWE-Bench-Verified với nhiệm vụ trình duyệt WebArena và nhiệm vụ mã SWE-Bench-Verified, sử dụng Gemini 2.5 Flash cho đại lý trí tuệ ReAct, ReasoningBank so với cơ sở không nhớ trạng thái có tỷ lệ thành công cao hơn 8.3% trên WebArena, cao hơn 4.6% trên SWE-Bench-Verified, trung bình tiết kiệm khoảng 3 bước cho mỗi nhiệm vụ; sau đó, thêm MaTTS song song (k=5), tỷ lệ thành công tại WebArena tăng thêm 3 điểm phần trăm, và tiết kiệm thêm 0.4 bước.
