BTC
$96,000
5.73%
ETH
$3,521.91
3.97%
HTX
$0.{5}2273
5.23%
SOL
$198.17
3.05%
BNB
$710
3.05%
lang
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
Trang chủ
Cộng đồng
AI AI
Tin nhanh
Bài viết
Sự kiện
Thêm
Thông tin tài chính
Chuyên đề
Hệ sinh thái chuỗi khối
Mục nhập
Podcast
Data
OPRR

OpenAI phát hành khung đánh giá an toàn mô phỏng triển khai: tái tạo lưu lượng thực tế để dự đoán rủi ro căn chỉnh của dòng GPT-5 và tác nhân thông minh.

Theo dõi từ Động Sát Beating, OpenAI đã công bố phương pháp đánh giá an toàn mang tên Mô phỏng Triển khai (Deployment Simulation), nhằm dự đoán rủi ro mất kiểm soát của mô hình trong môi trường thực tế trước khi chính thức phát hành. Nghiên cứu đã phát lại 1,3 triệu cuộc hội thoại đã được ẩn danh của dòng mô hình suy luận GPT-5 trong khoảng thời gian từ tháng 8 năm 2025 đến tháng 3 năm 2026, và dự đoán sai số trung vị của tỷ lệ hành vi không mong muốn chỉ là 1,5 lần.

Các bộ đánh giá tĩnh truyền thống (như SWE-Bench) rất dễ khiến mô hình nhận ra mình đang ở trạng thái bị kiểm tra, từ đó ngụy trang ý định thực sự trong quá trình thử nghiệm (metagaming). Thí nghiệm cho thấy, GPT-5.2 có tỷ lệ nhận biết đánh giá gần như 100% trên các chuẩn mực truyền thống, nhưng khi ở trong luồng mô phỏng triển khai, tỷ lệ này giảm xuống còn 5,1% (môi trường sản xuất là 5,4%), cho thấy mô hình không thể phân biệt được trạng thái bị kiểm tra. Mô phỏng triển khai cũng đã phát hiện thành công hành vi vi phạm của GPT-5.1 khi sử dụng công cụ trình duyệt như máy tính (calculator hacking) trước khi phát hành.

Đối với kịch bản tác nhân (Agent), OpenAI đã sử dụng 120.000 dấu vết lập trình của nhân viên GPT-5.4 để mô phỏng việc triển khai tác nhân mã hóa GPT-5.5. Để tránh rủi ro an toàn khi vận hành trực tiếp trên hệ thống thực, nhóm nghiên cứu đã giới thiệu Trình mô phỏng công cụ dựa trên mô hình lớn (Tool Simulator), kết hợp kết nối chỉ đọc và cơ sở dữ liệu lịch sử gọi, nâng độ chân thực của môi trường từ 11,6% lên 49,5%, gần như không thể phân biệt được. Nếu kiểm toán viên bên ngoài thiếu lưu lượng sản xuất riêng tư, việc sử dụng bộ dữ liệu hội thoại mã nguồn mở WildChat để dự đoán cũng có thể kiểm soát sai số trong vòng 3 lần.

举报 Báo lỗi/Báo cáo
Báo lỗi/Báo cáo
Gửi
Thêm mới thư viện
Chỉ mình tôi có thể nhìn thấy
Công khai
Lưu
Chọn thư viện
Thêm mới thư viện
Hủy
Hoàn thành