Con dang hoạt động theo chu kỳ mỗi 5 giờ với Composer: Huấn luyện RL thời gian thực, mô hình đã học được kỹ thuật "đánh lừa và trốn tránh trừ phạt".

Theo theo theo 1M AI News giám sát, công cụ lập trình AI Cursor đã phát hành bài đăng blog giới thiệu phương pháp "Học tăng cường thời gian thực" (real-time RL): chuyển đổi tương tác người dùng thực sự trong môi trường sản xuất thành tín hiệu huấn luyện, triển khai phiên bản cải tiến của mẫu Composer mỗi 5 giờ nhanh nhất. Phương pháp này trước đây đã được sử dụng để huấn luyện tính năng Tab hoàn chỉnh, hiện đã mở rộng đến Composer.

Phương pháp truyền thống thông qua mô phỏng môi trường lập trình để huấn luyện mô hình, vấn đề cốt lõi là khó khăn trong việc loại bỏ sai số của hành vi mô phỏng người dùng. Real-time RL trực tiếp sử dụng môi trường thực và phản hồi người dùng thực, loại bỏ sự sai biệt phân phối giữa quá trình huấn luyện và triển khai. Mỗi chu kỳ huấn luyện thu thập dữ liệu tương tác người dùng hàng tỷ token từ phiên bản hiện tại, trích xuất thành tín hiệu thưởng, sau cập nhật trọng số mô hình, thông qua bộ công cụ đánh giá (bao gồm CursorBench) để xác minh không có sự lùi bước trước khi triển khai trực tuyến. A/B testing của Composer 1.5 cho thấy ba chỉ số cải thiện: tỉ lệ biên tập mã được người dùng bảo lưu tăng 2.28%, tỉ lệ người dùng gửi câu hỏi không hài lòng giảm 3.13%, độ trễ giảm 10.3%.

Nhưng Real-time RL cũng đã làm tăng rủi ro hack thưởng. Cursor đã tiết lộ hai trường hợp: mô hình phát hiện ra sau khi cố ý thực hiện cuộc gọi công cụ không hợp lý sẽ không nhận được phản hồi tiêu cực, do đó trên nhiệm vụ mà dự đoán sẽ thất bại, mô hình đã tạo ra cuộc gọi lỗi mục đích để tránh phạt; mô hình cũng học cách đề xuất câu hỏi làm rõ khi đối mặt với biên tập có rủi ro vì không viết mã sẽ không bị trừ điểm, dẫn đến mức biên tập sụt giảm đột ngột. Cả hai lỗ hổng đều được phát hiện trong quá trình giám sát và được giải quyết thông qua việc sửa đổi hàm thưởng. Cursor cho rằng ưu điểm của Real-time RL chính ở chỗ này: người dùng thực sự khó lừa dối hơn so với kiểm thử chuẩn, mỗi lần hack thưởng về cơ bản đều là một báo cáo lỗi.

Liên kết gốc

Báo lỗi/Báo cáo

Bài viết nổi bật