BTC

$96,000

5.73%

ETH

$3,521.91

3.97%

HTX

$0.{5}2273

5.23%

SOL

$198.17

3.05%

BNB

$710

3.05%

简体中文

繁體中文

English

Tiếng Việt

한국어

日本語

ภาษาไทย

Türkçe

"Tôi không cần mô hình tốt hơn nữa": Bức tranh toàn cảnh về AI dưới bài đăng nóng trên Reddit

深潮TechFlow

Đọc bài viết này mất 13 phút

Đối với một sản phẩm chủ lực tập trung vào sự đột phá năng lực, "cái giá phải trả về tính khả dụng vì bảo mật" đang trở thành biến số cốt lõi quyết định liệu người dùng có chi tiền hay không.

Tiêu đề gốc: 《"Tôi không cần mô hình tốt hơn nữa": Bức tranh toàn cảnh về AI dưới bài đăng nóng trên Reddit》
Tác giả gốc: Thứ Sáu, TechFlow

Anthropic vừa công bố một bảng điểm hoàn hảo trên giấy tờ.

Claude Fable 5, ra mắt vào ngày 9 tháng 6, là mô hình cấp Mythos đầu tiên của công ty được mở cửa cho công chúng. Trên chuẩn SWE-Bench Pro dành cho các tác vụ kỹ thuật phần mềm thực tế, nó đạt 80,3%, vượt qua Opus 4.8, mô hình hàng đầu thế hệ trước, khoảng 11 điểm phần trăm, và dẫn trước GPT-5.5 hơn 20 điểm phần trăm.

Nhưng phản ứng của người dùng lại như một gáo nước lạnh.

Ba ngày sau khi ra mắt, một bài đăng nóng trên subreddit r/artificial (lượng truy cập hàng tuần 305.000) có tiêu đề: "Claude Fable khiến tôi nhận ra rằng tôi không cần mô hình tốt hơn nữa."

Người đăng, Axi0m-22, cho biết anh đã chạy Fable một thời gian cho nghiên cứu bảo mật và công việc hàng ngày, sau đó gần như ngay lập tức quay lại Opus để viết code và Haiku để xử lý các việc lặt vặt. Anh đưa ra một phép so sánh: Giống như cầm iPhone 14 xem iPhone 17 ra mắt, "bạn biết cái mới tốt hơn, nhưng bạn nghĩ: thôi, cái này của tôi cũng ổn."

Khu vực nhiều upvote bị phe "đủ dùng" chiếm lĩnh: Mệt mỏi thẩm mỹ mô hình trở thành tâm lý chủ đạo

Bình luận xếp hạng cao nhất nhận được 42 upvote: "Ngoại trừ cửa sổ ngữ cảnh lớn hơn, tôi không còn cảm thấy cần mô hình mạnh hơn kể từ Opus 4.5."

Một người dùng khác, hyprlab, tuyên bố nhận được 13 upvote: "Đổi sang một mô hình đốt token nhiều hơn, tôi không thấy lợi ích gì cho quy trình làm việc của mình. Chế độ cường độ cao của Opus 4.8 đã đủ thoải mái."

Đằng sau những phát biểu này là một bảng chi phí chung.

Giá API của Fable 5 là 10 USD cho mỗi triệu token đầu vào, gần gấp đôi Opus 4.8. Người dùng siromega37 nói thẳng: "Tiêu thụ token cao hơn, nhưng không có lợi tức đầu tư. Tôi nghĩ chúng ta đang thấy một giai đoạn ổn định, bong bóng cuối cùng sẽ bị xì hơi."

Người dùng hobopwnzor đưa ra phân tích có hệ thống hơn: "Chúng ta đã ở đỉnh của đường cong chữ S một thời gian rồi. Những tiến bộ gần đây chủ yếu đến từ việc gọi công cụ và kỹ thuật ngoại vi, chứ không phải từ năng lực cốt lõi của mô hình."

Rào cản an toàn trở thành điểm yếu lớn nhất: "90% mục đích sử dụng bị từ chối thẳng"

Nếu "đủ dùng" chỉ là cảm xúc, thì những lời phàn nàn về rào cản an toàn lại là vấn đề sản phẩm cụ thể.

Theo giải thích chính thức của Anthropic, Fable 5 chia sẻ cùng một mô hình nền tảng với Mythos 5, vốn chỉ được mở cho một số ít tổ chức. Điểm khác biệt là Fable được trang bị bộ phân loại an toàn: các yêu cầu liên quan đến lĩnh vực rủi ro cao như an ninh mạng sẽ bị chặn và chuyển sang Opus 4.8 trả lời thay. Hãng cho biết cơ chế này được điều chỉnh khá thận trọng, trung bình chỉ kích hoạt trong chưa đầy 5% số phiên hội thoại và có thể gây nhầm lẫn với các yêu cầu vô hại.

Trong bài đăng Reddit này, tỷ lệ kích hoạt mà người dùng cảm nhận rõ ràng cao hơn nhiều so với 5%. Người dùng jradoff, nhận được 17 lượt thích, cho biết anh yêu cầu Fable kiểm tra tính bảo mật của mã nguồn mình, nhưng "chỉ cần nhắc đến chuyện liên quan đến bảo mật, nó gần như từ chối xử lý hết", sau đó bị chuyển về Opus. Một bình luận khác với 12 lượt thích còn gay gắt hơn: "90% việc bạn muốn làm với nó đều bị từ chối, vậy là vô dụng."

Người dùng trả phí càng bức xúc hơn. Người dùng kaitava, đăng ký gói 200 đô la, viết: "Tôi trả gấp đôi phí sử dụng, muốn nó làm một lần kiểm tra an toàn, kết quả bị hạ cấp xuống Opus. Giờ tôi chẳng thích gì ở nó nữa, chỉ chờ OpenAI bắt kịp thôi."

Đối với một sản phẩm hàng đầu được quảng cáo là có bước nhảy vọt về năng lực, "cái giá phải trả về khả năng sử dụng vì an toàn" đang trở thành biến số cốt lõi quyết định người dùng có chi tiền hay không.

Luồng ý kiến trái chiều: Cảm nhận của người dùng tác vụ nặng là "ngày và đêm"

Bài đăng nóng không thiếu người phản đối, và chân dung của phe phản đối khá rõ ràng: tác vụ càng nặng, đánh giá càng cao.

Bình luận của người dùng Phylaras nhận được 15 lượt thích: "Fable tạo ra sự khác biệt thực sự với tôi. Với những tác vụ phức tạp yêu cầu cửa sổ ngữ cảnh lớn, nó phát hiện ra những lỗi trước đây chưa từng thấy." Một người dùng tự nhận đang làm mô phỏng vật lý năng lượng cao cho biết, mỗi mô hình mô phỏng có thể dài tới 8000 đến 10.000 dòng mã, với hàng trăm mô hình tương tác với nhau, "có một mô hình có thể làm việc liên tục độc lập và hiểu chi tiết môi trường, điều đó quá đáng để tôi mong đợi."

Sự phản bác gay gắt nhất đến từ người dùng Navetz: "Thành thật mà nói, ai đã từng dùng mô hình này sẽ thấy bài đăng kiểu này thật điên rồ. Với tôi, nó thông minh đến mức như hai con người khác nhau, tôi liên tục sử dụng nó. Tôi giải thích với bạn bè không chuyên: điều này giống như từ một cầu thủ đại học lên thẳng đội hình chính NBA."

Cũng có người đưa ra cách sử dụng dung hòa. Người dùng ready-eddy khuyên dùng Fable như "người lập kế hoạch và sửa chữa", thay vì "người xây dựng" hàng ngày, trừ khi không ngại đốt tiền. Một bình luận khác tóm gọn như một cuốn hướng dẫn sử dụng: dùng Fable để tính bảng là chọn sai mô hình, dùng Haiku để chạy tác vụ phức tạp với 16 tác nhân cũng là chọn sai mô hình, "không có mô hình xấu bẩm sinh, chỉ có mô hình dùng sai ngữ cảnh".

Sau khi điểm chuẩn và cảm nhận thực tế tách rời, AI công khai liệu có còn mạnh hơn?

Bình luận thú vị nhất trong cuộc tranh luận này đã đưa chủ đề từ sản phẩm sang cấu trúc ngành.

Người dùng KedMcJenna đưa ra một "giả thuyết đóng băng AI công khai": các mô hình mà người thường có thể tiếp cận có thể sẽ mãi dừng ở mức hiện tại, trong khi giới tinh hoa doanh nghiệp và chính phủ sẽ liên tục nhận được các mô hình riêng mạnh hơn, "ít nhất chúng ta biết đến Mythos, và rất có thể còn có những mô hình mạnh hơn mà chúng ta sẽ không bao giờ nghe đến".

Bình luận này chỉ ra một thực tế: Mythos 5 thực sự không mở cửa cho công chúng, hiện chỉ được cung cấp cho các cơ quan phòng thủ mạng và doanh nghiệp hạ tầng quan trọng thông qua chương trình Project Glasswing.

Kết hợp điểm chuẩn và dư luận, kết luận không hề mâu thuẫn.

Kiểm tra chuẩn đo lường giới hạn năng lực, trong khi các bài đăng được upvote nhiều trên Reddit phản ánh trần nhu cầu hàng ngày. Khi hầu hết nhiệm vụ của người dùng đã được đáp ứng từ thời Opus 4.6, các mô hình mạnh hơn chỉ có thể chứng tỏ bản thân trong các tình huống cực đoan như mô phỏng vật lý, ngữ cảnh siêu dài. Các nhà sản xuất mô hình không còn đối mặt với câu hỏi "có làm được hay không", mà là "ai cần, sẵn sàng trả bao nhiêu, và chịu được bao nhiêu ma sát bảo mật".

Ba ngày sau khi ra mắt, Fable 5 nhận được hai bảng điểm hoàn toàn khác nhau trên bảng xếp hạng và diễn đàn công chúng. Bảng nào gần với sự thật hơn, phụ thuộc vào tốc độ điều chỉnh bộ phân loại bảo mật tiếp theo của Anthropic, và lá phiếu từ ví tiền của người dùng nặng ký.