Sợ mở Hộp Pandor*a? Mô** hình mạnh nhất trong lịch sử của Anthropic hoàn toàn không dám công khai

律动BlockBeats

Đọc bài viết này mất 12 phút

Trong vài tháng sắp tới, điều cần quan tâm là xem các lỗ hổng mà các công ty trong danh sách trắng đã phát hiện trên họ đã được vá đến đâu

Trong kho mã nguồn của OpenBSD đã có một lỗ hổng từ 27 năm trước. Trong FFmpeg cũng có một lỗ hổng từ 16 năm trước, đoạn mã đó đã được gọi hơn 500 triệu lần trước khi được phát hiện. Người đã khai thác ra hai điều này không phải là các nhà nghiên cứu hàng đầu trên các nền tảng thưởng lỗi nổi tiếng, cũng không phải là Google Project Zero. Đó là Anthropic, một mô hình chưa được công bố ra bên ngoài, mang tên mã Claude Mythos Preview.

Vào ngày 7 tháng 4, Anthropic công bố dự án Glasswing. Hành động chính là gửi Mythos Preview đến một danh sách trắng. Danh sách này bao gồm AWS, Apple, Google, Microsoft, NVIDIA, Broadcom, Cisco, CrowdStrike, JP Morgan, Linux Foundation, Palo Alto Networks, cùng với khoảng 40 tổ chức chịu trách nhiệm với cơ sở hạ tầng chính yếu. Những người không có trong danh sách này sẽ không được nhận. Anthropic tuyên bố rằng họ không có kế hoạch công bố công khai mô hình này trong tương lai gần.

Đây là lần đầu tiên Phòng thí nghiệm Tân cổ điển tự nguyện cất giữ điều mạnh mẽ nhất của mình.

Trong hai năm qua, tần suất phát hành gần như trở nên tự phản xạ. Mỗi lần chuyển đời của GPT, Gemini, Claude đều là "phát hành, quan sát, vá lỗ hổng". Chính sách mở rộng trách nhiệm của Anthropic (RSP) cũng chính là một khung cam kết, đạt được ngưỡng năng lực nào đó, thì chuyển lên các biện pháp làm dịu tương ứng, và tiếp tục phát triển. Glasswing không phải là bước tiếp theo của khung này, mà là một trường hợp ngoại lệ đầu tiên của khung này. Một mô hình đã được Anthropic tự lựa chọn là "không thích hợp để phát hành theo quy trình ban đầu", bị rút riêng ra và chỉ dành cho phe bảo vệ.

Mythos Preview đã làm được gì. Theo lời tuyên bố chính thức, đó là "hàng ngàn lỗ hổng zero-day, bao phủ mỗi hệ điều hành phổ biến và mỗi trình duyệt phổ biến". Điều có thể diễn tả vấn đề hơn cả con số là phạm vi năng lực. Tỷ lệ thành công của Claude 4.6 Opus trong các nhiệm vụ phát triển lỗ hổng tự động gần như là không, nghĩa là, mô hình mạnh nhất của Anthropic được công bố sáu tháng trước không thể làm việc đó hoàn toàn. Mythos có khả năng kết nối nhiều lỗ hổng không liên quan thành một chuỗi tấn công hoàn chỉnh, và việc khai thác trình duyệt trong bốn bước đã được chứng minh. Từ "gần như không" đến "bốn chuỗi lỗ hổng", không phải là một lần tiến hóa theo thế hệ, mà là một bước nhảy vọt.

Người bảo trì đã cảm nhận được điều này. Greg Kroah-Hartman của nhân Linux và tác giả của curl Daniel Stenberg gần đây đã cùng nhau nói về điều này, trong vòng một năm qua, báo cáo bảo mật do trí tuệ nhân tạo tạo ra đã chuyển từ mức "rác rưởi" sang mức "thực, chất lượng cao, không thể không xem". Số lượng báo cáo nhận được từ dự án mã nguồn mở đang tăng, chất lượng cũng đang tăng, nhưng lực lượng của người bảo trì không tăng theo. Đây là sự khổ sở mà phía phòng thủ đã phải đối mặt từ lâu. Hành động của Anthropic chỉ đơn giản đưa vấn đề từ lo lắng mơ hồ lên bàn bạc.

Có ý nghĩa khi nhìn vào danh sách trắng chính mình. Ba đám mây lớn (AWS, Google, Microsoft), ba công ty phần cứng (Apple, NVIDIA, Broadcom), hai nhà sản xuất thiết bị mạng (Cisco, Palo Alto Networks), một công ty bảo mật điểm cuối (CrowdStrike), một cơ sở hạ tầng mã nguồn mở (Linux Foundation), một ngân hàng. Trên danh sách chỉ có một ngân hàng, đó là J.P. Morgan.

Đây không phải là phân bổ ngẫu nhiên. Anthropic đã vẽ ra một bản đồ "nếu không thể giữ chặt thì trời sẽ sập". Hầu hết mã nguồn trên thế giới chạy trên cấu trúc của những công ty này, hầu hết số tiền trên thế giới chạy trong tài khoản của một trong số các công ty này. Logic của danh sách trắng không phải là "ai cần nhất", mà là "ai sụp đổ sẽ ảnh hưởng đến tất cả mọi người trước tiên". Bên cạnh danh sách trắng, Anthropic đã hỗ trợ tổ chức an ninh mã nguồn mở khác với số tiền là 4 triệu đô la Mỹ. Tiền đưa ra để hỗ trợ lực lượng lao động, mô hình đưa ra để hỗ trợ khả năng, khi kết hợp với nhau, có nghĩa là cung cấp một vài tháng cho người bảo trì.

Cách diễn đạt của Anthropic chính thẳng hơn danh sách trắng. Trong tuyên bố của công ty, họ viết, "Xét về tốc độ phát triển của trí tuệ nhân tạo, loại khả năng này sẽ không tồn tại lâu trong tay những người tham gia triển khai an ninh". Ngay sau đó là một câu, "Để bảo vệ hạ tầng mạng toàn cầu, có thể cần mất đến vài năm".

Đặt hai câu này cùng nhau. Anthropic quyết định, thời gian mà mô hình sẽ lọt ra hoặc được sao chép là ngắn, thời gian mà bên thủ phải vá lỗ hổng kỹ lưỡng là dài. Ý nghĩa toàn bộ của Glasswing đều nằm giữa hai khoảng thời gian này. Sử dụng một dạng tiên phong được kiểm soát, đổi lấy một vài tháng đến một năm cửa sửa lỗi.

Vấn đề này còn có một chiều biểu đồ Washington. Anthropic đang tiếp tục giao tiếp với chính phủ Mỹ về khả năng của Mythos Preview, đồng thời, họ đang có một cuộc tranh luận chưa giải quyết với Bộ Quốc phòng Mỹ về phạm vi sử dụng trí tuệ nhân tạo quân sự. Một công ty một mặt từ chối việc sử dụng mô hình trong một số ứng dụng quân sự, mặt khác tích cực chia sẻ mô hình này cho Linux Foundation và các nhóm an ninh của Apple. Hai việc này không mâu thuẫn, chúng là hai mặt của cùng một quyết định. Anthropic đang xác định "mô hình này có thể được sử dụng để làm gì", thay vì để quyền xác định ở người dùng.

Một trong những điểm khác biệt lớn nhất của Glasswing không phải là điều nó đã làm, mà là lúc nó đã làm điều đó. Trước đây, cách mà các công ty trí tuệ nhân tạo chứng minh bản thân là thông qua việc phát hành sản phẩm. Nhưng hiện tại, Anthropic chọn cách chứng minh bản thân bằng cách "không phát hành". Một phòng thí nghiệm tiên tiến tự nguyện khoá chặt sản phẩm mạnh nhất của mình và nói rằng điều đó không phải vì lý do thương mại, không phải vì chưa hoàn thành việc điều chỉnh, không phải vì yêu cầu kiểm soát, mà vì nó đã tính toán được rằng thời gian mở cửa đã không kịp bắt kịp với thời gian sửa chữa.

Trong những tháng tới, điều cần quan tâm không phải là Mythos Preview chính mà là bao nhiêu lỗ hổng được khắc phục trên những tổ chức trong danh sách trắng. Bước tiếp theo cần quan tâm là các phòng thí nghiệm tiên tiến khác có gia nhập không. Nếu có, là lần đầu tiên ngành công nghiệp có nhịp điệu "mở cửa, phát triển từng bước, mở cửa" gặp phải hành động "khoá chặt trước rồi suy nghĩ" . Nếu không, Anthropic sẽ là người đứng ở cửa. Cầm chìa khóa trong tay, nhìn vào đồng hồ.

Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:

Nhóm Telegram đăng ký: https://t.me/theblockbeats

Nhóm Telegram thảo luận: https://t.me/BlockBeats_App

Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia

#Claude

Báo lỗi/Báo cáo