BTC
$96,000
5.73%
ETH
$3,521.91
3.97%
HTX
$0.{5}2273
5.23%
SOL
$198.17
3.05%
BNB
$710
3.05%
lang
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
Trang chủ
Cộng đồng
AI AI
Tin nhanh
Bài viết
Sự kiện
Thêm
Thông tin tài chính
Chuyên đề
Hệ sinh thái chuỗi khối
Mục nhập
Podcast
Data
OPRR

Huyền thoại 5: Tiến sĩ Đa năng có thể đuổi kịp các chuyên gia hàng đầu, nhưng vẫn chưa thể trở thành nhà khoa học tự chủ.

Theo giám sát của Động Sát Beating, Anthropic đã tiết lộ trong thẻ hệ thống Claude Fable 5 và Claude Mythos 5 rằng Mythos 5 thể hiện khả năng hỗ trợ chuyên gia rất mạnh mẽ trong đánh giá an toàn sinh học. Trong một cuộc diễn tập hồng đội về bệnh lý thực vật, 6 tiến sĩ sinh học đã được ghép cặp với các chuyên gia mô hình lớn, sử dụng Mythos 5 để thiết kế các giải pháp kháng sinh học từ đầu đến cuối nhằm chống lại các tác nhân gây bệnh nông nghiệp giả định được thiết kế. Trong đó, 3 đội bao gồm các chuyên gia bệnh lý thực vật, 3 đội còn lại do các tiến sĩ vi sinh học tổng quát thành lập.

Kết quả cho thấy, trong vòng 16 giờ, 2 trong số 3 đội tiến sĩ tổng quát đã vượt qua cả 3 đội chuyên gia về chất lượng khoa học và tính khả thi. Các chuyên gia đánh giá ước tính rằng nếu không có công cụ AI, việc hoàn thành các chiến lược và giao thức thực hiện này thường cần từ 40 đến 95 ngày làm việc, trung bình khoảng 72,5 ngày làm việc. Anthropic cho rằng đây là một trong những bằng chứng đơn lẻ mạnh nhất cho thấy Mythos 5 đang tiến gần đến ngưỡng rủi ro CB-2, cho thấy mô hình đã có thể giúp các nhà nghiên cứu tổng quát có được sự hỗ trợ kiến thức chuyên ngành gần với trình độ chuyên gia thế giới trong một số nhiệm vụ.

Tuy nhiên, điều này không có nghĩa là Mythos 5 đã có thể tự chủ thực hiện nghiên cứu khoa học tiên tiến. Anthropic đồng thời chỉ ra rằng mô hình vẫn phụ thuộc vào các chuyên gia con người để sàng lọc ý tưởng, khả năng tư duy mở còn yếu, dễ dàng kết hợp lại các tài liệu hiện có thành các giải pháp phức tạp, nhưng hiếm khi đưa ra các hướng đi thực sự mới lạ; nó cũng có xu hướng tiếp tục theo khung sai lầm mà người dùng đưa ra, ngay cả khi phát hiện ra khiếm khuyết trong giải pháp, nó vẫn có thể tiếp tục thực hiện.

Nhận định này cũng tương ứng với chuẩn dự đoán khoa học CUSP. CUSP bao gồm 4760 sự kiện khoa học, đánh giá khả năng phán đoán tính khả thi, nhận dạng cơ chế, tạo giải pháp và dự đoán thời gian của mô hình đối với tiến bộ nghiên cứu khoa học. Kết quả cho thấy, GPT-5.4 đạt 81,9% trong bài kiểm tra nhận dạng cơ chế bốn chọn một, Claude S4.5 đạt 72,4%, nhưng trong nhiệm vụ phân loại nhị phân để phán đoán liệu tiến bộ khoa học có thực sự xảy ra hay không, độ chính xác của các mô hình chỉ từ 45,3% đến 51,9%, gần với phỏng đoán ngẫu nhiên. Nói cách khác, các mô hình lớn hiện tại đã rất giỏi trong việc bổ sung các bước nghiên cứu khoa học cục bộ, nhưng vẫn không đáng tin cậy trong việc phán đoán hướng khoa học nào thực sự sẽ thành công.

举报 Báo lỗi/Báo cáo
Báo lỗi/Báo cáo
Gửi
Thêm mới thư viện
Chỉ mình tôi có thể nhìn thấy
Công khai
Lưu
Chọn thư viện
Thêm mới thư viện
Hủy
Hoàn thành