BTC

$96,000

5.73%

ETH

$3,521.91

3.97%

HTX

$0.{5}2273

5.23%

SOL

$198.17

3.05%

BNB

$710

3.05%

简体中文

繁體中文

English

Tiếng Việt

한국어

日本語

ภาษาไทย

Türkçe

Bị đình chỉ Fable 5, và AI không thể dừng lại

动察 Beating

Đọc bài viết này mất 31 phút

Ngay cả một công ty mạnh như Anthropic, trong thời đại tăng tốc này, là một trong số ít những người liên tục nhắc đến việc phanh lại, nhưng cuối cùng vẫn phải chứng minh rằng mình chạy đủ nhanh trước đã.

Ảnh bìa: AI BUBBLE – Beeple

Văn bản: Sleepy

Những công ty AI hiện tại, thứ mà họ tỏ ra cảnh giác nhất trên môi trường, thường lại chính là thứ họ đang miệt mài tạo ra.

Khi họp bàn về rủi ro, họ nói một cách chân thành hơn ai hết, rằng công nghệ này phát triển quá nhanh, cần có người quản lý. Nhưng khi tan họp, các mô hình vẫn được phát hành như thường, mỗi lần một mạnh hơn, lịch trình mỗi lúc một gấp gáp hơn.

Cùng một nhóm người, cùng một cái miệng, buổi sáng cảnh báo, buổi chiều tăng tốc. Nếu bảo họ giả vờ thì cũng không hẳn, nhưng cỗ máy đang lăn bánh kia là thật, chưa từng dừng lại một ngày nào, và càng chạy càng nhanh.

Mô hình Fable 5 mới nhất do Anthropic phát hành chỉ tồn tại được ba ngày.

Ra mắt vào ngày 9 tháng 6, bị ngừng hoạt động vào ngày 12 tháng 6. Chiều hôm đó, Anthropic nhận được cuộc gọi từ chính phủ Mỹ, được cho 90 phút. Lúc 5 giờ 21 phút tối, lệnh chính thức đến, tất cả công dân nước ngoài, dù ở bất kỳ đâu, đều không thể tiếp tục sử dụng mô hình này, kể cả nhân viên nước ngoài của chính Anthropic. Lý do là an ninh quốc gia.

Bốn chữ "an ninh quốc gia" đặt lên một mô hình, nghe có vẻ hơi nặng nề. Nhưng nó có thể rơi xuống là vì Fable không đơn giản. Mô hình này là phiên bản "an toàn" của Mythos, thứ mà Anthropic chưa từng công bố, được trang bị một lớp rào cản an toàn để đảm bảo mọi người không thể dùng nó cho các hành vi tấn công mạng, nghiên cứu khoa học, hoặc những việc có thể gây hậu quả nghiêm trọng. Nhưng Amazon đã gửi một báo cáo cho chính phủ Mỹ, nói rằng có người có thể vượt rào, trực tiếp gọi mô hình Mythos thông qua Fable. Chính phủ Mỹ lo ngại điều này, và đã ra tay mạnh mẽ.

Anthropic có lẽ là công ty coi trọng rủi ro AI nhất trên thế giới. Nhưng không may, trong hai năm qua, khả năng của các mô hình phát triển quá nhanh, toàn bộ đường đua chỉ công nhận một hướng: tiến lên.

Anthropic đã sớm hơn các đối thủ trong việc cảnh báo mọi người rằng nếu tiếp tục như vậy, có thể có nguy cơ mất kiểm soát công nghệ, thậm chí chủ động nói rằng chính phủ nên có quyền chặn các mô hình nguy hiểm.

Không ngờ rằng khi chính phủ Mỹ thực sự ra tay, mô hình đầu tiên bị chặn lại là của chính họ.

Amazon đã cảnh báo về rủi ro, chính phủ Mỹ muốn bảo vệ đất nước, còn Anthropic đang thực hiện các biện pháp an toàn mà họ cho là cần thiết. Mỗi bên đều làm tròn trách nhiệm, nhưng kết hợp lại lại không mang đến một kết quả viên mãn.

Điều này trông có vẻ như cuối cùng cũng có người giẫm phanh cho ngành, nhưng thực tế không phải vậy. Một mô hình vừa ra mắt ba ngày đã bị một lệnh dừng lại, chính xác là minh chứng cho việc không ai chịu tự làm chậm lại, nên mới đến lượt bên ngoài ra tay. Nếu giữa các công ty, nhà nghiên cứu an toàn, khách hàng và chính phủ Mỹ thực sự có một cơ chế ngồi lại cùng nhau để giảm tốc, thì mọi chuyện đã không đi đến bước an ninh quốc gia cắt một nhát. Huống chi nhát cắt này chỉ dừng được mỗi Anthropic, những người khác vẫn đang chạy. Ba ngày của Fable không phải bằng chứng cho thấy ngành bắt đầu giảm tốc, mà là bằng chứng cho thấy không ai có thể khiến nó giảm tốc một cách tử tế.

Phanh cũng có thể trở thành lợi thế cạnh tranh

Fable 5 ngay từ đầu đã là một sản phẩm dung hòa.

Mô hình thực sự mạnh trong tay Anthropic là Mythos. Nó không được công bố công khai vì năng lực quá mạnh. Vào tháng 4 năm 2026, thông qua Project Glasswing, công ty đã giao bản xem trước của Mythos cho một số tổ chức an ninh để họ tìm lỗ hổng.

Việc tìm lỗ hổng vốn dĩ khó phân biệt thiện ác. Cùng một năng lực, tìm ra để vá lỗ hay để chui qua lỗ, phụ thuộc vào người sở hữu nó là ai.

Nhưng cuối cùng, Anthropic cũng ở trên đường đua mà mỗi ngày đều tăng tốc một chút. Đến tháng 6, họ vẫn đưa loại năng lực này ra công chúng. Fable là phiên bản an toàn của Mythos, các yêu cầu rủi ro cao sẽ quay về Opus 4.8 hạn chế hơn, đã được kiểm tra Red Team trước khi ra mắt, lưu lượng dữ liệu giữ lại ba mươi ngày để dễ phát hiện ai đó vượt ngục. Đồng thời, nó cũng là một món hàng, có giá, có đánh giá khách hàng, có thời gian dùng thử, phải bán ra tiền, phải đẹp mắt trong mắt nhà đầu tư.

Biến an toàn thành lợi thế cạnh tranh, bản thân điều này đã là một sự mâu thuẫn. Lợi thế cạnh tranh nghĩa là chạy nhanh hơn người khác, an toàn nghĩa là đừng chạy quá nhanh. Anthropic muốn cả hai điều này cùng tồn tại, nhưng làm thế nào để chúng cùng tồn tại, đến nay có lẽ chính họ cũng chưa nghĩ thấu.

Người sáng lập Dario Amodei từng là Phó chủ tịch nghiên cứu của OpenAI, và một nhóm sáng lập của Anthropic cũng xuất thân từ OpenAI. Họ đã thấy sự phấn khích của con người khi các mô hình ngày càng mạnh mẽ qua từng thế hệ, và cũng biết điều gì đang bị đè nén bên dưới sự phấn khích đó.

Những gì xảy ra sau đó với OpenAI có thể dùng làm tham chiếu. Altman bị sa thải, năm ngày sau quay lại, và ngược lại tái cơ cấu hội đồng quản trị. Khi nhóm Superalignment được thành lập, họ nói sẽ giải quyết vấn đề an toàn trong bốn năm, nhưng chưa đầy một năm đã giải tán.

Anthropic là một câu trả lời khác mọc lên sau cơn bão đó. Họ nói, chúng tôi cũng sẽ xây dựng những mô hình mạnh mẽ, nhưng phải đưa phanh vào trong hệ thống quy tắc. Chính sách mở rộng có trách nhiệm đến năm 2026 đã được cập nhật lên phiên bản 3.0, phân loại mô hình theo cấp độ an toàn. Họ nói, công nghệ đang phát triển theo cấp số nhân, thế giới đặt ra quy tắc vẫn chưa theo kịp, vì vậy chính phủ nên có quyền ngăn chặn các triển khai nguy hiểm.

Một bên tự xây dựng mô hình, một bên chủ động nói chính phủ nên có quyền ngăn chặn mô hình. Đằng sau điều này phải có một niềm tin, bạn phải tin rằng bàn tay lớn đó sẽ thận trọng sử dụng quyền lực, sẽ tuân theo quy trình. Lập trường này, ban đầu tôi có chút kính trọng. Nhưng ba ngày của Fable đã cho thấy niềm tin này không đáng tin cậy đến mức nào.

Đầu năm nay, Anthropic đã tranh cãi với Lầu Năm Góc về việc sử dụng Claude cho mục đích quân sự. Họ đã tạo ra Claude Gov cho khách hàng chính phủ Mỹ, nhưng từ chối giám sát nội địa quy mô lớn, cũng như vũ khí tự động sát thương không có người giám sát.

Theo quan điểm của họ, đây là ranh giới trách nhiệm. Theo hệ thống an ninh quốc gia, ranh giới tự nó là rắc rối, bởi vì ranh giới có nghĩa là bạn không sẵn sàng tuân thủ hoàn toàn.

Anthropic nói về an toàn, là không để mất kiểm soát. Hệ thống an ninh quốc gia nói về an toàn, là mọi thứ đều có thể kiểm soát.

Ngay cả phanh là gì cũng không thống nhất được, ai còn nói đến việc chứng minh mình đủ trách nhiệm. Anthropic nhanh chóng nhận ra mình không thể chứng minh, bởi vì chỉ dựa vào bản thân là không đủ.

Không thể dừng, cũng không dám dừng

Đầu tháng 6, Anthropic đưa ra một ý tưởng, các phòng thí nghiệm tiên phong có thể cần phải phối hợp để chậm lại, thậm chí tạm dừng, để xã hội và chính sách có thời gian bắt kịp.

Phối hợp.

Tại sao nhất định phải phối hợp. Bởi vì một công ty tự chậm lại, thế giới sẽ không an toàn hơn. Anthropic dừng, OpenAI chưa chắc dừng, Google chưa chắc dừng, thị trường vốn tuyệt đối sẽ không dừng.

Vì vậy, một người đơn phương kiềm chế, trong tình huống này không được coi là đức tính gì. Người dừng trước, sẽ không được nhớ đến, mà chỉ bị thay thế.

Vấn đề của Anthropic, chưa bao giờ là có nên chịu trách nhiệm hay không. Họ rất rõ mình phải chịu trách nhiệm. Vấn đề thực sự là, khi người khác chưa chắc đã chịu trách nhiệm, một người cuối cùng có thể chịu trách nhiệm đến đâu.

Dù những vụ tai nạn công nghiệp trong quá khứ có phức tạp đến đâu, cuối cùng vẫn có thể tìm ra một nguồn gốc tương đối rõ ràng. Nhưng AI tiên tiến thì không như vậy. Năng lực của một mô hình đến từ sức mạnh tính toán, từ các bài báo khoa học, từ cộng đồng mã nguồn mở, từ áp lực tăng trưởng của nhà đầu tư, và cũng từ mong muốn chiếm ưu thế công nghệ của quốc gia. Mỗi yếu tố đều có thể tự thanh minh rằng quyết định không phải do mình đưa ra. Nhưng khi những mảnh ghép này kết hợp lại, chúng đã đẩy thế giới đến bước đường hôm nay.

Trách nhiệm bị phân tán, nhưng tốc độ gia tốc vẫn được duy trì.

Anthropic vừa viết trong các văn bản chính sách rằng AI chạy quá nhanh, quản trị không theo kịp, vừa tung ra các mô hình mới.

Tôi không có ý nói Anthropic là đạo đức giả. Anthropic từ lâu đã không còn là phòng thí nghiệm nhỏ có thể sống sót nhờ chủ nghĩa lý tưởng. Nó phải cạnh tranh với OpenAI, Google, xAI, phải đối mặt với kỳ vọng về gọi vốn và IPO. Silicon Valley ngoài miệng rất tôn trọng an toàn, nhưng khi thực sự xuống tiền đặt cược, người ta vẫn nhìn vào mô hình nào mạnh hơn.

Vì vậy, nó chỉ có thể chia mọi thứ thành hai nửa. Những gì tự làm được thì làm trước. Những gì cần cả ngành cùng làm thì liệt kê riêng ra, chờ người khác.

Thực tế, nhưng cũng bất lực.

Fable ra đời trong khe hẹp đó. Xe không thể dừng lại, vậy thì hãy lắp cho xe một bộ phanh phức tạp hơn. Những thứ bị ép ra từ khe hẹp, chắc chắn sẽ không làm hài lòng cả hai bên.

Đứng ở giữa

Sau khi Fable ra mắt, những người đầu tiên không hài lòng không phải là chính phủ Mỹ, mà là những người làm công tác an toàn.

Nhà nghiên cứu Chompie của IBM X-Force nói rằng Fable sẽ từ chối rất nhiều yêu cầu an toàn chỉ liên quan một chút, đôi khi chỉ cần yêu cầu nó đọc một bài blog cũng có thể kích hoạt.

Rào cản an toàn muốn phân biệt ý định, nhưng trước mắt mô hình chỉ có ngôn ngữ và ngữ cảnh. Nó không phân biệt được bạn lấy dụng cụ ra là để sửa cửa hay cạy khóa, nên đành chặn cả hai loại người lại.

Hai ngày sau, một báo cáo được đưa vào phòng của chính phủ Mỹ, kể từ khoảnh khắc đó, vấn đề này không còn là chuyện Anthropic tự đánh giá thiết kế an toàn của mình nữa.

Anthropic liên tục nhấn mạnh một khoảng cách thời gian. Trước khi phát hành, nó đã thông báo cho chính phủ Mỹ nhiều lần, chính phủ Mỹ không phản đối, thậm chí còn tham gia thử nghiệm trước khi phát hành, công ty đã nhận được giấy phép triển khai. Ba ngày sau, cùng một hệ thống đột nhiên bảo nó phải gỡ bỏ.

Anthropic nói rằng chính phủ Mỹ chưa bao giờ đưa ra chi tiết cụ thể. Bản thân nó đã xem bản demo, và cho rằng đó chỉ là vài lỗ hổng đã biết, không nghiêm trọng, các mô hình công khai khác cũng làm được. Cho đến khi tuyên bố được đưa ra, chính phủ Mỹ chỉ đưa ra những lời nói suông.

Mô hình này, nhà phát triển không hài lòng, chính phủ Mỹ cũng không hài lòng. Anthropic đứng ở giữa, chẳng bên nào ưa.

Đằng sau câu chuyện Fable là sự vận hành của cả một chuỗi bất tín. Vòng quanh một hồi, mỗi mắt xích đều đề phòng mắt xích trước. Cuối cùng, xã hội cũng khó mà tin được, trong đây còn ai thực sự dám gánh vác trách nhiệm.

e/acc là một bầu không khí

Vấn đề khó ở chỗ, mỗi bên đều cảm thấy mình đang có trách nhiệm, và đều có lý. Trong tay mỗi người, đều nắm giữ một phần chính đáng cục bộ.

Điều đáng sợ chính là ở đây. Mỗi người chỉ chịu trách nhiệm cho mảnh nhỏ của mình, cộng lại, lại không ai chịu trách nhiệm cho toàn bộ sự việc. Trách nhiệm bị cắt vụn. Kiểm soát nội bộ công ty, đánh giá mô hình, kiểm soát xuất khẩu, nhu cầu khách hàng, cạnh tranh quốc gia, lợi nhuận đầu tư, mỗi mảnh đều phản chiếu một chút sự thật, nhưng không mảnh nào phản chiếu được toàn cảnh.

Khi ngay cả định nghĩa cũng không thể thống nhất, thứ duy nhất mà tất cả mọi người không tranh cãi, chỉ còn lại một chữ "nhanh".

Effective accelerationism, viết tắt e/acc, trong những năm gần đây đã trở thành một trường phái lạc quan công nghệ khá rõ nét. Đẩy nhanh công nghệ, mặc kệ quy định, cấu trúc xã hội và đạo đức, tin rằng tiến bộ sẽ giải quyết được những vấn đề lớn.

Không phải công ty nào cũng tự nhận là e/acc, Anthropic lại càng không. Nhưng một chủ trương, không bao giờ cần tất cả mọi người công nhận mới thay đổi được môi trường lớn.

Cuộc đua về năng lực, sức mạnh tính toán không ngừng đốt, lịch trình gọi vốn, sự cạnh tranh giữa các quốc gia, nhu cầu quân sự, cơn khát của nhà phát triển đối với công cụ mạnh hơn. Những thứ này kết hợp lại, tạo thành một bầu không khí. Có người không thích bầu không khí này, nhưng cũng phải sống trong đó, giống như tất cả mọi người.

Mạnh như Anthropic, là một trong số ít người trong thời đại tăng tốc này liên tục nhắc đến phanh, cuối cùng vẫn phải chứng minh mình chạy đủ nhanh trước. Tăng tốc công nghệ không cần một kẻ xấu, nó chỉ cần mỗi người tốt đều cảm thấy mình không thể là người đầu tiên dừng lại.

Phanh vẫn luôn ở đó

Câu chuyện Fable chính là cái giá của việc giao phanh ra ngoài. Bạn hy vọng quyền lực công can thiệp, bởi vì sự tự điều chỉnh của ngành là không đủ. Nhưng quyền lực công không nhất định vận hành theo cách bạn mong đợi. Động tác thuần thục nhất của cỗ máy an ninh quốc gia không phải là thương lượng, mà là phong tỏa, cấp phép và ngoại lệ.

AI từ lâu đã không còn là một công nghệ có thể vạch rõ ranh giới. Khi một mô hình tiên tiến đồng thời được nhúng vào thương mại, nghiên cứu khoa học, quốc phòng và cơ sở hạ tầng, còn ai có đủ khả năng quyết định nó không nên được sử dụng như thế nào.

Ai ai cũng biết tốc độ quá nhanh. Nhưng bản thân tốc độ đã trở thành điều kiện để tồn tại.

Hơn một trăm năm trước, cũng từng có một cuộc tăng tốc mà không ai dám kêu dừng.

Vào lúc 5 giờ chiều ngày 1 tháng 8 năm 1914, Hoàng đế Đức Wilhelm II ra lệnh tổng động viên toàn quân. Chỉ vài phút sau khi lệnh được ban ra, một bức điện từ London đến, nói rằng nếu Đức không tấn công Pháp, Anh có thể giữ Pháp đứng ngoài cuộc. Hoàng đế mừng rỡ, vì ông vốn sợ nhất phải chiến đấu trên hai mặt trận, giờ thì tốt rồi, toàn bộ lực lượng có thể điều sang phía Đông đối phó với Nga. Ông quay sang nói với Tổng tham mưu trưởng Helmuth von Moltke rằng, vậy chúng ta chỉ đánh về phía Đông thôi.

Moltke nói, không thể được.

Lý do ông đưa ra là, một đội quân hàng triệu người, làm sao di chuyển, đi tuyến đường sắt nào, mấy giờ mấy phút đến ga nào, tất cả đã được sắp xếp chết theo kế hoạch. Lịch trình này được mài giũa suốt một năm trời, sau khi hoàn thành, không thể thay đổi một chữ nào.

Sau này, nhiều nhà sử học đã kể câu chuyện này. Phần lớn người kể coi nó như một câu chuyện ngụ ngôn về cỗ máy, nói rằng cỗ máy chiến tranh hiện đại tinh vi đến mức ngay cả người vận hành nó cũng không thể kiểm soát nổi.

Nhưng về sau, người ta lại phát hiện ra một điều. Lịch trình đó thực ra có thể thay đổi được. Cục đường sắt hàng năm đều diễn tập cách thay đổi tuyến và thời gian tạm thời, và kế hoạch cho mặt trận phía Đông cũng luôn được chuẩn bị sẵn. Nếu tàu hỏa thực sự muốn quay đầu, thì có thể quay được.

Nói cách khác, phanh vẫn luôn ở đó.

Điều thực sự xảy ra trong đêm đó không phải là không có phanh, mà là người đứng bên cạnh cần phanh nhất quyết khẳng định không thể động vào phanh. Anh ta không hỏi xem có thể thay đổi hay không, anh ta quá chắc chắn rằng không thể thay đổi.

Thế là những chuyến tàu tiếp tục lao về phía Tây, kéo một cuộc xung đột lẽ ra có thể khép lại trong ba quốc gia thành một cuộc đại chiến chôn vùi cả châu Âu. Không ai muốn kết quả này. Mỗi người lúc đó đều cảm thấy mình chỉ đang làm điều đúng đắn nhất, và cũng là điều không thể không làm.

Tôi nhớ đến chuyến tàu này vì sự tăng tốc của AI cũng giống như một chuyến tàu đã khởi động. Nó không phải do một người nào tạo ra, mà là sức mạnh tính toán, vốn và tham vọng của các quốc gia, từng toa từng toa ghép lại, tự mình lao về phía trước. Trên tàu có tất cả mọi người, mỗi người đều làm điều đúng đắn nhất trong tầm tay, nhưng chuyến tàu vẫn cứ lao đi.

Đây là điều khiến tôi bất an trong kỷ nguyên AI. Nguy hiểm không phải không ai thấy, phanh cũng không thực sự không tồn tại. Người kêu phanh đang ngồi ngay trong xe, người biết nguy hiểm vẫn đặt chân lên ga.

Thứ mà ngành này cảnh giác nhất, thường lại chính là thứ nó đang hết sức tạo ra. Fable lẽ ra phải là một ví dụ để mọi người dừng lại nhìn một lần. Nhưng khi tôi viết xong những dòng này, vài mô hình mới lại được phát hành, đều tự xưng là mạnh nhất.

Không một ai sẵn sàng đạp phanh trước.