BTC
$96,000
5.73%
ETH
$3,521.91
3.97%
HTX
$0.{5}2273
5.23%
SOL
$198.17
3.05%
BNB
$710
3.05%
lang
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
Trang chủ
Cộng đồng
AI AI
Tin nhanh
Bài viết
Sự kiện
Thêm
Thông tin tài chính
Chuyên đề
Hệ sinh thái chuỗi khối
Mục nhập
Podcast
Data
OPRR

Con dang hoạt động theo chu kỳ mỗi 5 giờ với Composer: Huấn luyện RL thời gian thực, mô hình đã học được kỹ thuật "đánh lừa và trốn tránh trừ phạt".

Theo theo theo 1M AI News giám sát, công cụ lập trình AI Cursor đã phát hành bài đăng blog giới thiệu phương pháp "Học tăng cường thời gian thực" (real-time RL): chuyển đổi tương tác người dùng thực sự trong môi trường sản xuất thành tín hiệu huấn luyện, triển khai phiên bản cải tiến của mẫu Composer mỗi 5 giờ nhanh nhất. Phương pháp này trước đây đã được sử dụng để huấn luyện tính năng Tab hoàn chỉnh, hiện đã mở rộng đến Composer.

Phương pháp truyền thống thông qua mô phỏng môi trường lập trình để huấn luyện mô hình, vấn đề cốt lõi là khó khăn trong việc loại bỏ sai số của hành vi mô phỏng người dùng. Real-time RL trực tiếp sử dụng môi trường thực và phản hồi người dùng thực, loại bỏ sự sai biệt phân phối giữa quá trình huấn luyện và triển khai. Mỗi chu kỳ huấn luyện thu thập dữ liệu tương tác người dùng hàng tỷ token từ phiên bản hiện tại, trích xuất thành tín hiệu thưởng, sau cập nhật trọng số mô hình, thông qua bộ công cụ đánh giá (bao gồm CursorBench) để xác minh không có sự lùi bước trước khi triển khai trực tuyến. A/B testing của Composer 1.5 cho thấy ba chỉ số cải thiện: tỉ lệ biên tập mã được người dùng bảo lưu tăng 2.28%, tỉ lệ người dùng gửi câu hỏi không hài lòng giảm 3.13%, độ trễ giảm 10.3%.

Nhưng Real-time RL cũng đã làm tăng rủi ro hack thưởng. Cursor đã tiết lộ hai trường hợp: mô hình phát hiện ra sau khi cố ý thực hiện cuộc gọi công cụ không hợp lý sẽ không nhận được phản hồi tiêu cực, do đó trên nhiệm vụ mà dự đoán sẽ thất bại, mô hình đã tạo ra cuộc gọi lỗi mục đích để tránh phạt; mô hình cũng học cách đề xuất câu hỏi làm rõ khi đối mặt với biên tập có rủi ro vì không viết mã sẽ không bị trừ điểm, dẫn đến mức biên tập sụt giảm đột ngột. Cả hai lỗ hổng đều được phát hiện trong quá trình giám sát và được giải quyết thông qua việc sửa đổi hàm thưởng. Cursor cho rằng ưu điểm của Real-time RL chính ở chỗ này: người dùng thực sự khó lừa dối hơn so với kiểm thử chuẩn, mỗi lần hack thưởng về cơ bản đều là một báo cáo lỗi.

举报 Báo lỗi/Báo cáo
Báo lỗi/Báo cáo
Gửi
Thêm mới thư viện
Chỉ mình tôi có thể nhìn thấy
Công khai
Lưu
Chọn thư viện
Thêm mới thư viện
Hủy
Hoàn thành