Theo theo giới thiệu từ Telegram Beating, Codex's / mục tiêu tính năng cho phép Đặc Vụ lặp đi lặp lại cho đến khi hoàn thành nhiệm vụ, nhưng điều này đã mở rộng lỗi thẩm định mập mờ của con người. Kỹ sư của OpenAI, Chris Hayduk, dựa trên kinh nghiệm thực tế nội bộ, cho biết chỉ thị mập mờ như "tối ưu mã" sẽ khiến mô hình tự bỏ cuộc sớm vì không biết điểm kết thúc, hoặc mắc kẹt trong vòng lặp sửa đổi mù quáng.
Để Đặc Vụ có thể hoạt động ổn định trong vài ngày thậm chí hơn, anh ấy rút ra ba nguyên tắc sau:
- Loại bỏ từ chất lượng, thay bằng danh sách: Mô hình không thể đánh giá được điều gì là "tốt hơn", nhưng có thể hiểu được "rút ngắn thời gian 20% mà không bị treo khi kiểm thử". Đối mặt với nhiệm vụ có tính định tính như sắp xếp bài báo, anh ấy thậm chí đã đưa một danh sách định dạng chứa 200 yêu cầu cụ thể cho Codex, biến nhiệm vụ trừu tượng thành nhiệm vụ định lượng - "đánh dấu đầy là hoàn thành".
- Nén thời gian xác nhận xuống cấp độ phút: Đặc Vụ cần phải kiểm tra xem hành động có hiệu quả hay không. Đừng để nó chạy trong môi trường sản xuất lớn vài giờ, hãy cung cấp cho nó một tập dữ liệu mẫu và một hệ thống nhẹ, làm cho vòng lặp phản hồi ngắn nhất có thể.
- Xây ba tệp như "não": Ngay cả khi vùng ngữ cảnh lớn đến đâu, sau số ngày chạy vẫn có thể mất trí nhớ. Anh ấy đề xuất trực tiếp tạo ba tệp Markdown: PLAN.md (Kế hoạch toàn cầu), EXPERIMENTS.md (Ghi chép thử nghiệm) và EXPERIMENT_NOTES.md (Bản nháp suy nghĩ thời gian thực), buộc mô hình ghi lại quá trình thử lầm của mình trên ổ cứng.
