BTC
$96,000
5.73%
ETH
$3,521.91
3.97%
HTX
$0.{5}2273
5.23%
SOL
$198.17
3.05%
BNB
$710
3.05%
lang
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
Trang chủ
Cộng đồng
AI AI
Tin nhanh
Bài viết
Sự kiện
Thêm
Thông tin tài chính
Chuyên đề
Hệ sinh thái chuỗi khối
Mục nhập
Podcast
Data
OPRR

AI Rekt Rekted: GPT-5.4 Memeified the Title to Only 54%

Theo theo giám sát từ Beat Oracle, sinh viên tiến sĩ ngành Khoa học Máy tính tại Đại học Illinois Dylan Zhang đã thực hiện một loạt thí nghiệm về Agent Memory, kết quả chỉ ra một kết luận bất thường: Cho mô hình tóm tắt kinh nghiệm lặp đi lặp lại có thể khiến nó nhớ càng ngày càng tệ.

Kết quả ấn tượng nhất đến từ ARC-AGI: Nhà nghiên cứu đã chọn ra 19 câu hỏi mà GPT-5.4 có thể trả lời đúng tất cả khi không có bộ nhớ, sau đó cung cấp giải pháp đúng cho những câu hỏi này cho mô hình, để nó xem và viết "tóm tắt kinh nghiệm" đồng thời. Lí thuyết cho rằng điều này tương đương với ôn tập mở sách; kết quả sau nhiều vòng nén ký ức, độ chính xác của cùng một mô hình giảm từ 100% xuống còn 54%. Quỹ đạo ban đầu không có vấn đề, vấn đề thực sự là mô hình đã biến giải pháp đúng thành bước điều chỉnh chung.

Ấn tượng hơn, sự suy giảm ký ức này không phải là trường hợp đơn lẻ. Trong nhiệm vụ mua sắm trực tuyến WebShop, phương pháp nhớ AWM được ghi điểm 0.64 khi học 8 quỹ đạo chuyên gia, sau khi tăng quỹ đạo lên 128, điểm giảm xuống 0.20, chính xác quay trở lại mức cơ sở không nhớ. Nghĩa là, khi nhớ càng nhiều, lợi ích sẽ bị tự phá hủy.

Vấn đề không phải là "thiếu kinh nghiệm", mà là "tóm tắt quá nhiều". Kinh nghiệm mà mô hình lớn viết ra không phải là nhật ký khách quan, mỗi lần tóm tắt là một lần tái tạo. Khi viết đến cuối cùng, các điều kiện cụ thể sẽ bị xóa bỏ, các quy tắc cho các nhiệm vụ khác nhau sẽ bị trộn lẫn, chi tiết có thể hướng dẫn hoạt động sẽ trở thành "ưu tiên hành động trực tiếp nhất" hoặc "sử dụng công cụ đúng" vài điều ngụ ý đúng nhưng thực tế vô ích. Một ví dụ cực đoan mà nguyên tác đã hiển thị là, 50 quỹ đạo cấu trúc được hợp nhất thành 1 quỹ đạo, nhiều khác biệt của nhiệm vụ được nén thành cùng một quy trình chung, vòng đánh giá sau bỏ ngay từ 6 đến 13 mẫu thành công.

Đề xuất từ tác giả rất cẩn trọng: Đừng vội vàng khiến Agent viết "sổ lỗi" sau mỗi vòng. Phương pháp ổn định hơn là giữ lại quỹ đạo hoạt động gốc đã được lựa chọn, chỉ trừ khi thực sự cần, hãy tóm tắt trừu tượng. Trong thí nghiệm, việc giữ lại tập phim gốc, và không tóm tắt trừu tượng, đã đưa ra các kết quả tương đối hoặc vượt qua các phương pháp nén ký ức đã thử nghiệm trên nhiều tiêu chí của Agent. Đối với các nhà phát triển, kết luận này rất rõ ràng: Cho mô hình xem thực tế đã làm gì, thường có ích hơn việc nạp một loạt quy tắc trừu tượng vào nó.

举报 Báo lỗi/Báo cáo
Báo lỗi/Báo cáo
Gửi
Thêm mới thư viện
Chỉ mình tôi có thể nhìn thấy
Công khai
Lưu
Chọn thư viện
Thêm mới thư viện
Hủy
Hoàn thành