BTC

$96,000

5.73%

ETH

$3,521.91

3.97%

HTX

$0.{5}2273

5.23%

SOL

$198.17

3.05%

BNB

$710

3.05%

简体中文

繁體中文

English

Tiếng Việt

한국어

日本語

ภาษาไทย

Türkçe

AI Rekt Rekted: GPT-5.4 Memeified the Title to Only 54%

Theo theo giám sát từ Beat Oracle, sinh viên tiến sĩ ngành Khoa học Máy tính tại Đại học Illinois Dylan Zhang đã thực hiện một loạt thí nghiệm về Agent Memory, kết quả chỉ ra một kết luận bất thường: Cho mô hình tóm tắt kinh nghiệm lặp đi lặp lại có thể khiến nó nhớ càng ngày càng tệ.

Kết quả ấn tượng nhất đến từ ARC-AGI: Nhà nghiên cứu đã chọn ra 19 câu hỏi mà GPT-5.4 có thể trả lời đúng tất cả khi không có bộ nhớ, sau đó cung cấp giải pháp đúng cho những câu hỏi này cho mô hình, để nó xem và viết "tóm tắt kinh nghiệm" đồng thời. Lí thuyết cho rằng điều này tương đương với ôn tập mở sách; kết quả sau nhiều vòng nén ký ức, độ chính xác của cùng một mô hình giảm từ 100% xuống còn 54%. Quỹ đạo ban đầu không có vấn đề, vấn đề thực sự là mô hình đã biến giải pháp đúng thành bước điều chỉnh chung.

Ấn tượng hơn, sự suy giảm ký ức này không phải là trường hợp đơn lẻ. Trong nhiệm vụ mua sắm trực tuyến WebShop, phương pháp nhớ AWM được ghi điểm 0.64 khi học 8 quỹ đạo chuyên gia, sau khi tăng quỹ đạo lên 128, điểm giảm xuống 0.20, chính xác quay trở lại mức cơ sở không nhớ. Nghĩa là, khi nhớ càng nhiều, lợi ích sẽ bị tự phá hủy.

Vấn đề không phải là "thiếu kinh nghiệm", mà là "tóm tắt quá nhiều". Kinh nghiệm mà mô hình lớn viết ra không phải là nhật ký khách quan, mỗi lần tóm tắt là một lần tái tạo. Khi viết đến cuối cùng, các điều kiện cụ thể sẽ bị xóa bỏ, các quy tắc cho các nhiệm vụ khác nhau sẽ bị trộn lẫn, chi tiết có thể hướng dẫn hoạt động sẽ trở thành "ưu tiên hành động trực tiếp nhất" hoặc "sử dụng công cụ đúng" vài điều ngụ ý đúng nhưng thực tế vô ích. Một ví dụ cực đoan mà nguyên tác đã hiển thị là, 50 quỹ đạo cấu trúc được hợp nhất thành 1 quỹ đạo, nhiều khác biệt của nhiệm vụ được nén thành cùng một quy trình chung, vòng đánh giá sau bỏ ngay từ 6 đến 13 mẫu thành công.

Đề xuất từ tác giả rất cẩn trọng: Đừng vội vàng khiến Agent viết "sổ lỗi" sau mỗi vòng. Phương pháp ổn định hơn là giữ lại quỹ đạo hoạt động gốc đã được lựa chọn, chỉ trừ khi thực sự cần, hãy tóm tắt trừu tượng. Trong thí nghiệm, việc giữ lại tập phim gốc, và không tóm tắt trừu tượng, đã đưa ra các kết quả tương đối hoặc vượt qua các phương pháp nén ký ức đã thử nghiệm trên nhiều tiêu chí của Agent. Đối với các nhà phát triển, kết luận này rất rõ ràng: Cho mô hình xem thực tế đã làm gì, thường có ích hơn việc nạp một loạt quy tắc trừu tượng vào nó.

Liên kết gốc

Báo lỗi/Báo cáo

Bài viết nổi bật

Michael Saylor: Đạo Luật Clarity sẽ Mở Ra làn sóng vốn số hóa toàn cầu tiếp theo

Bakkt Q1 Doanh thu suy giảm 77%, chuyển hướng sang Dịch vụ Hạ tầng Đồng coin ổn định

Ngân hàng Châu Á Thái Bình Dương: Đưa mục tiêu giá của NVIDIA lên từ 265 USD lên 315 USD.

Báo lỗi/Báo cáo

Gửi

Thêm mới thư viện

Chỉ mình tôi có thể nhìn thấy

Công khai

Lưu

Chọn thư viện

Thêm mới thư viện

Hủy

Hoàn thành

AI Rekt Rekted: GPT-5.4 Memeified the Title to Only 54%

CRCL tăng mạnh, Báo cáo tài chính của Circle tiết lộ hai vũ khí chính

Arthur Hayes bài viết mới nhất: Bubble về Trí Tuệ Nhân Tạo chính là Cơ Hội Lớn Nhất

Khái niệm "VVV" tăng 9 lần sau 6 tháng, là Đường chân trời AI mới của Hệ sinh thái Base

Mô hình AI ngày càng rẻ, tại sao "VVV" lại trở nên đắt giá hơn?

Một địa chỉ mới đã rút 331 BTC từ Binance, tương đương khoảng 26.7 triệu USD

Một con cá voi đã chuyển 5819.8 ETH vào OKX, đồng thời mắc lỗ thêm 26.3 nghìn USD

「Người cắt giảm vị thế ngắn ZEC」 Giảm vị thế ngắn ZEC, giải ngân vốn với quy mô 17 triệu USD để bán khống BTC và ETH

Hyperliquid trên người chơi dài hạn số 1 theo sắp xếp bạc, rời khỏi vị thế, ghi lời lãi 10,400,000 USD từ kho dài hạn