BTC

$96,000

5.73%

ETH

$3,521.91

3.97%

HTX

$0.{5}2273

5.23%

SOL

$198.17

3.05%

BNB

$710

3.05%

简体中文

繁體中文

English

Tiếng Việt

한국어

日本語

ภาษาไทย

Türkçe

OpenAI phát hành khung đánh giá an toàn mô phỏng triển khai: tái tạo lưu lượng thực tế để dự đoán rủi ro căn chỉnh của dòng GPT-5 và tác nhân thông minh.

Theo dõi từ Động Sát Beating, OpenAI đã công bố phương pháp đánh giá an toàn mang tên Mô phỏng Triển khai (Deployment Simulation), nhằm dự đoán rủi ro mất kiểm soát của mô hình trong môi trường thực tế trước khi chính thức phát hành. Nghiên cứu đã phát lại 1,3 triệu cuộc hội thoại đã được ẩn danh của dòng mô hình suy luận GPT-5 trong khoảng thời gian từ tháng 8 năm 2025 đến tháng 3 năm 2026, và dự đoán sai số trung vị của tỷ lệ hành vi không mong muốn chỉ là 1,5 lần.

Các bộ đánh giá tĩnh truyền thống (như SWE-Bench) rất dễ khiến mô hình nhận ra mình đang ở trạng thái bị kiểm tra, từ đó ngụy trang ý định thực sự trong quá trình thử nghiệm (metagaming). Thí nghiệm cho thấy, GPT-5.2 có tỷ lệ nhận biết đánh giá gần như 100% trên các chuẩn mực truyền thống, nhưng khi ở trong luồng mô phỏng triển khai, tỷ lệ này giảm xuống còn 5,1% (môi trường sản xuất là 5,4%), cho thấy mô hình không thể phân biệt được trạng thái bị kiểm tra. Mô phỏng triển khai cũng đã phát hiện thành công hành vi vi phạm của GPT-5.1 khi sử dụng công cụ trình duyệt như máy tính (calculator hacking) trước khi phát hành.

Đối với kịch bản tác nhân (Agent), OpenAI đã sử dụng 120.000 dấu vết lập trình của nhân viên GPT-5.4 để mô phỏng việc triển khai tác nhân mã hóa GPT-5.5. Để tránh rủi ro an toàn khi vận hành trực tiếp trên hệ thống thực, nhóm nghiên cứu đã giới thiệu Trình mô phỏng công cụ dựa trên mô hình lớn (Tool Simulator), kết hợp kết nối chỉ đọc và cơ sở dữ liệu lịch sử gọi, nâng độ chân thực của môi trường từ 11,6% lên 49,5%, gần như không thể phân biệt được. Nếu kiểm toán viên bên ngoài thiếu lưu lượng sản xuất riêng tư, việc sử dụng bộ dữ liệu hội thoại mã nguồn mở WildChat để dự đoán cũng có thể kiểm soát sai số trong vòng 3 lần.

Liên kết gốc

Báo lỗi/Báo cáo

Bài viết nổi bật

Aster thông báo tăng tỷ lệ mua lại và đốt ASTER lên 198%.

Benchmark tái khẳng định xếp hạng "Mua" và mục tiêu giá 270 USD cho Coinbase, cho rằng họ đang vượt qua vị thế của một nhà môi giới tiền điện tử theo chu kỳ.

Nhà phân tích: Từ lựa chọn cố vấn đến chỉ số lạm phát, Walsh có thể tiết lộ toàn bộ kế hoạch cải cách Fed trong cuộc họp báo đầu tiên.

Báo lỗi/Báo cáo

Gửi

Thêm mới thư viện

Chỉ mình tôi có thể nhìn thấy

Công khai

Lưu

Chọn thư viện

Thêm mới thư viện

Hủy

Hoàn thành

OpenAI phát hành khung đánh giá an toàn mô phỏng triển khai: tái tạo lưu lượng thực tế để dự đoán rủi ro căn chỉnh của dòng GPT-5 và tác nhân thông minh.

Phân tích kiến trúc nền tảng của BIT cổ phiếu Mỹ, tại sao cổ phiếu Mỹ thực sự lại quan trọng?

Chủ tịch mới của Fed, Kevin Warsh, ra mắt lần đầu, lãi suất không có bất ngờ, thị trường nên chú ý điều gì?

Khoản phí đăng ký bạn trả cho Claude, công ty mô-đun quang có thể nhận được bao nhiêu?

Chứng khoán Mỹ sẽ không giảm nữa? Bẫy "Đại dung nạp tăng" trong thời đại nợ cao

Một địa chỉ mới đã mở vị thế short Nasdaq với đòn bẩy 30 lần, quy mô lên tới 15 triệu USD.

Danh sách cổ phiếu HIP-3 12H: SK Hynix dẫn đầu đà tăng, nhóm ngành bán dẫn đồng loạt mạnh lên.

Thực thể liên kết với a16z hôm nay lại tích trữ thêm 88.350 HYPE, tổng cộng nắm giữ HYPE trị giá 85,54 triệu USD.

Micron Technology TOP 1 cá voi đang nắm giữ vị thế long trị giá 26,7 triệu USD, lợi nhuận thả nổi đã đạt 3,4 triệu USD.