Theo theo giám sát từ Beat Oracle, sinh viên tiến sĩ ngành Khoa học Máy tính tại Đại học Illinois Dylan Zhang đã thực hiện một loạt thí nghiệm về Agent Memory, kết quả chỉ ra một kết luận bất thường: Cho mô hình tóm tắt kinh nghiệm lặp đi lặp lại có thể khiến nó nhớ càng ngày càng tệ.
Kết quả ấn tượng nhất đến từ ARC-AGI: Nhà nghiên cứu đã chọn ra 19 câu hỏi mà GPT-5.4 có thể trả lời đúng tất cả khi không có bộ nhớ, sau đó cung cấp giải pháp đúng cho những câu hỏi này cho mô hình, để nó xem và viết "tóm tắt kinh nghiệm" đồng thời. Lí thuyết cho rằng điều này tương đương với ôn tập mở sách; kết quả sau nhiều vòng nén ký ức, độ chính xác của cùng một mô hình giảm từ 100% xuống còn 54%. Quỹ đạo ban đầu không có vấn đề, vấn đề thực sự là mô hình đã biến giải pháp đúng thành bước điều chỉnh chung.
Ấn tượng hơn, sự suy giảm ký ức này không phải là trường hợp đơn lẻ. Trong nhiệm vụ mua sắm trực tuyến WebShop, phương pháp nhớ AWM được ghi điểm 0.64 khi học 8 quỹ đạo chuyên gia, sau khi tăng quỹ đạo lên 128, điểm giảm xuống 0.20, chính xác quay trở lại mức cơ sở không nhớ. Nghĩa là, khi nhớ càng nhiều, lợi ích sẽ bị tự phá hủy.
Vấn đề không phải là "thiếu kinh nghiệm", mà là "tóm tắt quá nhiều". Kinh nghiệm mà mô hình lớn viết ra không phải là nhật ký khách quan, mỗi lần tóm tắt là một lần tái tạo. Khi viết đến cuối cùng, các điều kiện cụ thể sẽ bị xóa bỏ, các quy tắc cho các nhiệm vụ khác nhau sẽ bị trộn lẫn, chi tiết có thể hướng dẫn hoạt động sẽ trở thành "ưu tiên hành động trực tiếp nhất" hoặc "sử dụng công cụ đúng" vài điều ngụ ý đúng nhưng thực tế vô ích. Một ví dụ cực đoan mà nguyên tác đã hiển thị là, 50 quỹ đạo cấu trúc được hợp nhất thành 1 quỹ đạo, nhiều khác biệt của nhiệm vụ được nén thành cùng một quy trình chung, vòng đánh giá sau bỏ ngay từ 6 đến 13 mẫu thành công.
Đề xuất từ tác giả rất cẩn trọng: Đừng vội vàng khiến Agent viết "sổ lỗi" sau mỗi vòng. Phương pháp ổn định hơn là giữ lại quỹ đạo hoạt động gốc đã được lựa chọn, chỉ trừ khi thực sự cần, hãy tóm tắt trừu tượng. Trong thí nghiệm, việc giữ lại tập phim gốc, và không tóm tắt trừu tượng, đã đưa ra các kết quả tương đối hoặc vượt qua các phương pháp nén ký ức đã thử nghiệm trên nhiều tiêu chí của Agent. Đối với các nhà phát triển, kết luận này rất rõ ràng: Cho mô hình xem thực tế đã làm gì, thường có ích hơn việc nạp một loạt quy tắc trừu tượng vào nó.
