Theo dõi từ Động Sát Beating, OpenAI đã công bố phương pháp đánh giá an toàn mang tên Mô phỏng Triển khai (Deployment Simulation), nhằm dự đoán rủi ro mất kiểm soát của mô hình trong môi trường thực tế trước khi chính thức phát hành. Nghiên cứu đã phát lại 1,3 triệu cuộc hội thoại đã được ẩn danh của dòng mô hình suy luận GPT-5 trong khoảng thời gian từ tháng 8 năm 2025 đến tháng 3 năm 2026, và dự đoán sai số trung vị của tỷ lệ hành vi không mong muốn chỉ là 1,5 lần.
Các bộ đánh giá tĩnh truyền thống (như SWE-Bench) rất dễ khiến mô hình nhận ra mình đang ở trạng thái bị kiểm tra, từ đó ngụy trang ý định thực sự trong quá trình thử nghiệm (metagaming). Thí nghiệm cho thấy, GPT-5.2 có tỷ lệ nhận biết đánh giá gần như 100% trên các chuẩn mực truyền thống, nhưng khi ở trong luồng mô phỏng triển khai, tỷ lệ này giảm xuống còn 5,1% (môi trường sản xuất là 5,4%), cho thấy mô hình không thể phân biệt được trạng thái bị kiểm tra. Mô phỏng triển khai cũng đã phát hiện thành công hành vi vi phạm của GPT-5.1 khi sử dụng công cụ trình duyệt như máy tính (calculator hacking) trước khi phát hành.
Đối với kịch bản tác nhân (Agent), OpenAI đã sử dụng 120.000 dấu vết lập trình của nhân viên GPT-5.4 để mô phỏng việc triển khai tác nhân mã hóa GPT-5.5. Để tránh rủi ro an toàn khi vận hành trực tiếp trên hệ thống thực, nhóm nghiên cứu đã giới thiệu Trình mô phỏng công cụ dựa trên mô hình lớn (Tool Simulator), kết hợp kết nối chỉ đọc và cơ sở dữ liệu lịch sử gọi, nâng độ chân thực của môi trường từ 11,6% lên 49,5%, gần như không thể phân biệt được. Nếu kiểm toán viên bên ngoài thiếu lưu lượng sản xuất riêng tư, việc sử dụng bộ dữ liệu hội thoại mã nguồn mở WildChat để dự đoán cũng có thể kiểm soát sai số trong vòng 3 lần.
