BTC

$96,000

5.73%

ETH

$3,521.91

3.97%

HTX

$0.{5}2273

5.23%

SOL

$198.17

3.05%

BNB

$710

3.05%

简体中文

繁體中文

English

Tiếng Việt

한국어

日本語

ภาษาไทย

Türkçe

Huyền thoại 5: Tiến sĩ Đa năng có thể đuổi kịp các chuyên gia hàng đầu, nhưng vẫn chưa thể trở thành nhà khoa học tự chủ.

Theo giám sát của Động Sát Beating, Anthropic đã tiết lộ trong thẻ hệ thống Claude Fable 5 và Claude Mythos 5 rằng Mythos 5 thể hiện khả năng hỗ trợ chuyên gia rất mạnh mẽ trong đánh giá an toàn sinh học. Trong một cuộc diễn tập hồng đội về bệnh lý thực vật, 6 tiến sĩ sinh học đã được ghép cặp với các chuyên gia mô hình lớn, sử dụng Mythos 5 để thiết kế các giải pháp kháng sinh học từ đầu đến cuối nhằm chống lại các tác nhân gây bệnh nông nghiệp giả định được thiết kế. Trong đó, 3 đội bao gồm các chuyên gia bệnh lý thực vật, 3 đội còn lại do các tiến sĩ vi sinh học tổng quát thành lập.

Kết quả cho thấy, trong vòng 16 giờ, 2 trong số 3 đội tiến sĩ tổng quát đã vượt qua cả 3 đội chuyên gia về chất lượng khoa học và tính khả thi. Các chuyên gia đánh giá ước tính rằng nếu không có công cụ AI, việc hoàn thành các chiến lược và giao thức thực hiện này thường cần từ 40 đến 95 ngày làm việc, trung bình khoảng 72,5 ngày làm việc. Anthropic cho rằng đây là một trong những bằng chứng đơn lẻ mạnh nhất cho thấy Mythos 5 đang tiến gần đến ngưỡng rủi ro CB-2, cho thấy mô hình đã có thể giúp các nhà nghiên cứu tổng quát có được sự hỗ trợ kiến thức chuyên ngành gần với trình độ chuyên gia thế giới trong một số nhiệm vụ.

Tuy nhiên, điều này không có nghĩa là Mythos 5 đã có thể tự chủ thực hiện nghiên cứu khoa học tiên tiến. Anthropic đồng thời chỉ ra rằng mô hình vẫn phụ thuộc vào các chuyên gia con người để sàng lọc ý tưởng, khả năng tư duy mở còn yếu, dễ dàng kết hợp lại các tài liệu hiện có thành các giải pháp phức tạp, nhưng hiếm khi đưa ra các hướng đi thực sự mới lạ; nó cũng có xu hướng tiếp tục theo khung sai lầm mà người dùng đưa ra, ngay cả khi phát hiện ra khiếm khuyết trong giải pháp, nó vẫn có thể tiếp tục thực hiện.

Nhận định này cũng tương ứng với chuẩn dự đoán khoa học CUSP. CUSP bao gồm 4760 sự kiện khoa học, đánh giá khả năng phán đoán tính khả thi, nhận dạng cơ chế, tạo giải pháp và dự đoán thời gian của mô hình đối với tiến bộ nghiên cứu khoa học. Kết quả cho thấy, GPT-5.4 đạt 81,9% trong bài kiểm tra nhận dạng cơ chế bốn chọn một, Claude S4.5 đạt 72,4%, nhưng trong nhiệm vụ phân loại nhị phân để phán đoán liệu tiến bộ khoa học có thực sự xảy ra hay không, độ chính xác của các mô hình chỉ từ 45,3% đến 51,9%, gần với phỏng đoán ngẫu nhiên. Nói cách khác, các mô hình lớn hiện tại đã rất giỏi trong việc bổ sung các bước nghiên cứu khoa học cục bộ, nhưng vẫn không đáng tin cậy trong việc phán đoán hướng khoa học nào thực sự sẽ thành công.

Liên kết gốc

Báo lỗi/Báo cáo

Bài viết nổi bật

Arthur Hayes giải thích lý do thanh lý HYPE: Áp lực ba mặt từ bong bóng AI, giá dầu và bầu cử.

Mô hình mới nhất của Claude, Fable 5, đã được phát hành. Anthropic đang biến việc ra mắt mô hình thành ngôn ngữ niêm yết.

Các tổ chức nổi tiếng đối đầu với thần cổ phiếu tóc bạc, báo cáo đánh sập CPO đang nhắm đến mục tiêu nào?

Mua 1.550 BTC, nhưng đây có thể là giao dịch tệ nhất của Strategy trong thời gian gần đây.

Thám tử chuỗi tiếp tục giám sát

1h trước

Một cá voi bắt đầu thanh lý vị thế short 148 triệu USD trên S&P 500, có thể kỳ vọng thị trường chứng khoán Mỹ sẽ tăng sau khi CPI được công bố.

1h trước

Chuyên gia phân tích: Khi Bitcoin giảm xuống 60.000 USD, các cá voi đang hấp thụ làn sóng bán tháo hoảng loạn trên thị trường, có thể hình thành mức hỗ trợ quan trọng trong vùng này.

Ant International dự kiến huy động 1 tỷ USD, định giá có thể vượt 10 tỷ USD và lên kế hoạch IPO tại Hồng Kông trong năm nay.

CPI tháng 5 của Mỹ có thể quay lại mức "4%", giá năng lượng tăng đẩy cao kỳ vọng tăng lãi suất trong năm.

Báo lỗi/Báo cáo

Gửi

Thêm mới thư viện

Chỉ mình tôi có thể nhìn thấy

Công khai

Lưu

Chọn thư viện

Thêm mới thư viện

Hủy

Hoàn thành

Huyền thoại 5: Tiến sĩ Đa năng có thể đuổi kịp các chuyên gia hàng đầu, nhưng vẫn chưa thể trở thành nhà khoa học tự chủ.

Arthur Hayes giải thích lý do thanh lý HYPE: Áp lực ba mặt từ bong bóng AI, giá dầu và bầu cử.

Mô hình mới nhất của Claude, Fable 5, đã được phát hành. Anthropic đang biến việc ra mắt mô hình thành ngôn ngữ niêm yết.

Các tổ chức nổi tiếng đối đầu với thần cổ phiếu tóc bạc, báo cáo đánh sập CPO đang nhắm đến mục tiêu nào?

Mua 1.550 BTC, nhưng đây có thể là giao dịch tệ nhất của Strategy trong thời gian gần đây.

Một cá voi bắt đầu thanh lý vị thế short 148 triệu USD trên S&P 500, có thể kỳ vọng thị trường chứng khoán Mỹ sẽ tăng sau khi CPI được công bố.

Nhà giao dịch chứng khoán Mỹ CBB đã kích hoạt lại địa chỉ phụ, mở vị thế trị giá 18 triệu đô la.

Sáng nay, James Wynn đã bị thanh lý cưỡng bức 4 lần, sau đó lại mở vị thế short BTC với đòn bẩy 40 lần.

Hôm nay, 3 cá voi đã short chỉ số Nasdaq, tổng vị thế lên tới 10,08 triệu USD chờ đợi chỉ số CPI tối nay.