Tiêu đề gốc: Claude Opus 4.8: Điểm chuẩn, Độ tin cậy & Những điểm mới
Tác giả gốc: The AI Bridge
Biên dịch: Peggy, BlockBeats
Lời biên tập: Anthropic ra mắt Claude Opus 4.8, giành vị trí đầu tiên ở 5/6 hạng mục điểm chuẩn cốt lõi, giá vẫn giữ nguyên; Claude Code bổ sung quy trình làm việc động, và mô hình thế hệ Mythos tiếp theo cũng đã được kỳ vọng trên thị trường.
So với việc chỉ cải thiện hiệu suất đơn thuần, điều đáng chú ý hơn trong lần ra mắt này là Anthropic bắt đầu định hình "độ tin cậy" thành điểm bán hàng cốt lõi của các mô hình tiên tiến.
Trong bài kiểm tra tính trung thực của mã nguồn, tỷ lệ bỏ sót lỗi của Opus 4.8 đã giảm mạnh; trong Claude Code, nó có thể điều phối nhiều sub-Agent và đưa vào cơ chế tự kiểm tra đối kháng trước khi giao kết quả. Những thay đổi này cùng hướng đến một vấn đề thực tế: Khi AI bước ra khỏi cửa sổ trò chuyện và đi vào quy trình làm việc thực tế, điều người dùng lo lắng nhất thường không phải là mô hình không thể hoàn thành nhiệm vụ, mà là khi nó mắc lỗi, nó vẫn đưa ra một câu trả lời có vẻ hoàn chỉnh, mượt mà và tự nhất quán.
Vì vậy, ý nghĩa của Opus 4.8 không chỉ dừng lại ở một bản nâng cấp mô hình, mà còn phát đi một tín hiệu rõ ràng trong ngành: Cuộc cạnh tranh giữa các mô hình tiên tiến đang chuyển từ việc chỉ theo đuổi benchmark sang cuộc đua giành độ tin cậy, khả năng kiểm chứng và khả năng bộc lộ lỗi. Đối với doanh nghiệp và người dùng chuyên nghiệp, ngưỡng cốt lõi của AI trong giai đoạn tiếp theo sẽ ngày càng phụ thuộc vào việc mô hình có đáng để ủy thác hay không.
Đây cũng là tiền đề để Agent thực sự có thể sử dụng được. Mô hình cần hoàn thành nhiều nhiệm vụ hơn, và cũng cần khiến con người dám giao phó cho nó những nhiệm vụ quan trọng và phức tạp hơn.
Dưới đây là nội dung gốc:
Anthropic hôm nay đã phát hành Claude Opus 4.8. Trong sáu bài kiểm tra điểm chuẩn được liệt kê trong bảng phát hành, nó đã giành vị trí đầu tiên ở năm hạng mục.
Thay đổi quan trọng nhất mà tôi chú ý là: Trong bài kiểm tra tính trung thực của bản tóm tắt mã nguồn của Anthropic, Opus 4.7 có 19,7% trường hợp không chỉ ra lỗi của chính nó; trong khi tỷ lệ này của Opus 4.8 đã giảm xuống còn 3,7%. Cùng một nhiệm vụ, khả năng nhận diện lỗi trong công việc của chính nó đã được cải thiện khoảng năm lần. Anthropic trong thông báo đã tóm tắt điều này là "4 lần". Dù tính thế nào, đây cũng là yếu tố quyết định liệu bạn có thể giao công việc thực tế cho mô hình này và yên tâm rời đi hay không, và nó cũng quan trọng hơn bất kỳ điểm số điểm chuẩn nào trong bảng phát hành.

Trước tiên là bản tóm tắt, sau đó mới đi vào các con số cụ thể:
Độ tin cậy thực sự được cải thiện. Ngoài dữ liệu về độ trung thực của mã đã đề cập ở trên, Opus 4.8 cũng là mô hình Claude đầu tiên đạt được "con số không theo nghĩa đen" trong hai bài kiểm tra thẩm định: nó giảm tần suất "báo cáo sai kết quả lỗi" từ 0,25 xuống 0,00, và giảm tỷ lệ "khảo sát lười biếng" từ 25% xuống 0%. Các câu trả lời sai do quá tự tin giảm khoảng 11 lần. Xu hướng thiên vị công việc của chính nó, một dạng sai lệch có thể đo lường được trong phiên bản 4.7, đã biến mất.
Claude Code đã được bổ sung quy trình làm việc động, hiện đang ở dạng bản xem trước nghiên cứu. Claude giờ đây tự viết các tập lệnh điều phối, điều phối song song hàng chục đến hàng trăm tác nhân phụ trong một phiên làm việc, và chạy các tác nhân đối kháng độc lập để cố gắng phản bác các kết quả trước khi chúng được trình bày cho bạn. Đây là ý tưởng "Nhóm tác nhân" được đề xuất trong Opus 4.6, giờ đã trở thành khả năng tự động hóa.
Nó dẫn đầu trên bảng công bố của chính mình, nhưng không dẫn đầu toàn diện. Thắng năm trong sáu hạng mục. GPT-5.5 vẫn dẫn đầu trong các tác vụ thao tác thiết bị đầu cuối. Và trong bảng hệ thống, còn ẩn giấu một số bước lùi về độ trung thực mà Anthropic không đưa vào slide trình bày, sẽ được phân tích bên dưới.
Giá không thay đổi. Vẫn là 5 USD cho mỗi triệu token đầu vào và 25 USD cho mỗi triệu token đầu ra, giống như 4.7. Tuy nhiên, chế độ nhanh hiện rẻ hơn ba lần so với trước, mặc dù nó vẫn thuộc phân khúc cao cấp với giá 10 USD / 50 USD.
Mythos sắp ra mắt. Anthropic tuyên bố rõ ràng rằng các mô hình cấp Mythos có quyền truy cập hạn chế và khả năng cực kỳ mạnh mẽ sẽ đến trong vài tuần tới. Opus 4.8 là cửa ngõ công khai dẫn đến nó.
Dưới đây là bảng công bố chính thức, được trình bày với bảng màu của chúng tôi.

Nguồn: Bảng mô hình Opus 4.8 chính thức của Anthropic, ngày 28 tháng 5 năm 2026. GDPval-AA là một điểm số, không phải phần trăm.
Có một hạng mục phá vỡ thế áp đảo, và hạng mục này rất quan trọng. Trên Terminal-Bench 2.1, điểm chuẩn kiểm tra khả năng mô hình hoàn thành các tác vụ tác nhân đường dài thông qua thiết bị đầu cuối, GPT-5.5 vẫn dẫn đầu với 78,2% so với 74,6% của Opus 4.8. Anthropic đã đưa thất bại này vào bảng công bố của mình, thay vì chọn cách che giấu. Sự phân chia "Tác nhân và Thợ thủ công" mà chúng tôi đã đề cập khi GPT-5.5 ra mắt vẫn chưa được thu hẹp hoàn toàn: GPT-5.5 vẫn là người vận hành thiết bị đầu cuối thuần túy mạnh hơn, trong khi Opus 4.8 giống một kỹ sư mạnh hơn trong hầu hết các công việc mà người dùng chuyên nghiệp thực sự quan tâm, như mã hóa thực tế, suy luận chuyên gia, sử dụng máy tính và công việc tri thức.
Thẻ công bố chỉ hiển thị sáu tiêu chuẩn. Thẻ hệ thống dài 244 trang báo cáo hơn 40 bài kiểm tra, trong đó những kết quả thú vị nhất không nằm trên slide. Dưới đây là một số điểm đáng chú ý:
Khả năng toán học tăng 27 điểm phần trăm. Tại USAMO 2026, kỳ thi Olympic Toán học Hoa Kỳ diễn ra vào tháng 3 năm nay, Opus 4.8 đạt 96,7%, trong khi 4.7 là 69,3%. Vì kỳ thi này diễn ra sau thời điểm kết thúc huấn luyện của Opus 4.8 nên không có vấn đề ô nhiễm dữ liệu. Đây là bước nhảy vọt lớn nhất giữa các thế hệ trong toàn bộ thẻ.
Lợi thế mở rộng trong bối cảnh ngữ cảnh dài. Trong bài kiểm tra suy luận đồ thị triệu token, Opus 4.8 đạt 68,1, trong khi 4.7 là 40,3 và GPT-5.5 là 45,4. Ngữ cảnh càng dài, nhiệm vụ càng khó, mức độ dẫn đầu của nó càng rõ rệt.
Multi-Agent mới là nơi nó thực sự đứng đầu. Một Agent Opus 4.8 đơn lẻ thua kém Gemini trong các tác vụ nghiên cứu web, lần lượt là 84,3 và 85,9. Nhưng nếu để một bộ điều phối điều khiển một nhóm các Agent con, điểm số của nó có thể đạt 88,5%, trở thành điểm cao nhất trong các kết quả đã báo cáo; một nhóm năm Agent còn có thể đạt được kết quả tốt nhất của một Agent đơn lẻ trong một phần năm thời gian. Đây chính là sự thể hiện của chức năng quy trình làm việc động trong các bài kiểm tra chuẩn.
Hiệu quả token có sự thay đổi về chất. Trong bài kiểm tra mã hóa khó nhất, Opus 4.8 ở cài đặt nỗ lực thấp nhất đã đạt được hiệu suất của Opus 4.7 ở cài đặt nỗ lực cao nhất. Nói cách khác, bạn có thể đạt được hiệu suất đỉnh cao trước đây với chi phí token thấp hơn.
Nó vượt qua ngưỡng mà trước đây không có mô hình nào vượt qua. Trên Harvey's Legal Agent Benchmark, một nhiệm vụ chỉ được coi là thành công khi tất cả các tiêu chí đánh giá trong nhiệm vụ đó đều đạt. Opus 4.8 là mô hình đầu tiên đứng đầu trong tiêu chuẩn "đạt tất cả" này. Nó đạt 89% các tiêu chí đơn lẻ, nhưng tỷ lệ hoàn thành toàn bộ nhiệm vụ chỉ là 9,6%, điều này cũng cho thấy yêu cầu khắt khe của công việc pháp lý thực tế.
Cũng có những sự thụt lùi được trình bày trung thực. Có ba điều thực sự tệ hơn so với 4.7, và Anthropic cũng thừa nhận trong thẻ hệ thống. GPQA Diamond, bài kiểm tra khoa học chuyên gia, giảm từ 94,2 xuống 93,6. Khả năng từ chối trong bối cảnh sử dụng máy tính và khả năng chống tiêm prompt đều có sự thụt lùi, do đó 4.8 dễ bị thao túng hơn trong các kịch bản Agent. Ngoài ra, trong một bài kiểm tra kinh doanh mô phỏng kéo dài một năm, số tiền mặt cuối cùng của nó chỉ bằng một phần ba so với 4.7. Những điều này không xuất hiện trên thẻ công bố, và chính vì vậy, chúng càng đáng được chỉ ra.
Bảng công bố chỉ so sánh Opus 4.8 với các mô hình tiên tiến đóng nguồn khác. Nếu mở rộng tầm nhìn ra các mô hình trọng số mã nguồn mở giá rẻ mà nhiều nhóm đang thử nghiệm hiện nay, bức tranh gần như là hình ảnh thu nhỏ của ngành AI năm 2026: Opus 4.8 dẫn đầu về năng lực, nhưng khoảng cách với các mô hình miễn phí, có thể tự lưu trữ chỉ còn vài phần trăm, trong khi chênh lệch về giá lại cực kỳ lớn.

Hình trên bao gồm so sánh đầy đủ của tám mô hình. Giá của DeepSeek phản ánh mức giảm giá vĩnh viễn 75%; giá của Qwen Max chưa được công bố.
Opus 4.8 thắng trực tiếp trên các benchmark về lập trình. Nhưng Qwen3.7-Max, một mô hình mã nguồn mở bạn có thể tự chạy, đạt 60,6 điểm, chỉ kém khoảng 9 điểm. DeepSeek V4-Pro đạt 55,4 điểm, trong khi giá đầu ra của nó chỉ bằng khoảng 1/30 so với Opus. Đối với các tác vụ kỹ thuật có rủi ro cao nhất, mức chênh lệch 25 đô la cho mỗi triệu token đầu ra là đáng để chi trả. Đối với vô số công việc hàng ngày, khoảng cách này ngày càng không đáng giá. Và đó chính là bài toán mà mọi nhóm nghiêm túc đang tính toán ngay bây giờ.
Nếu bạn đang sử dụng Opus 4.7, thì đây là một bản nâng cấp miễn phí. Giá không đổi, dữ liệu tốt hơn, và khả năng đánh giá đầu ra của chính nó cũng rõ ràng đáng tin cậy hơn. Hãy chuyển đổi ngay.
Câu hỏi thú vị hơn là: Bây giờ bạn sẵn sàng giao những công việc nào cho nó? Mỗi độc giả đều có một ranh giới trong tâm trí, phân biệt giữa "các tác vụ tôi có thể để AI làm" và "các tác vụ tôi phải tự làm vì tôi chưa thể tin tưởng giao phó". Sự cải thiện về độ tin cậy của 4.8 có nghĩa là bạn có thể đẩy ranh giới này lên một bước. Mô hình giỏi hơn trong việc đánh dấu sự không chắc chắn của chính nó, điều này làm giảm chi phí của "giao phó lỗi thầm lặng" và mở rộng phạm vi các tác vụ đáng để giao cho mô hình. Đó chính là ý nghĩa của dữ liệu về độ trung thực trong sử dụng thực tế, nó quan trọng hơn bất kỳ điểm số đơn lẻ nào.
Điều này cũng phù hợp với nội dung chúng tôi đã viết tuần trước. Nghiên cứu về AI Fluency của Anthropic cho thấy, khi đầu ra của mô hình trông rất bóng bẩy và hoàn chỉnh, mọi người có xu hướng ít chú ý hơn đáng kể đến các ngữ cảnh bị thiếu. Câu trả lời trông như đã hoàn thành, và chúng ta ngừng kiểm tra. Opus 4.8 tấn công vào chế độ thất bại này từ phía mô hình: nó giỏi hơn trong việc cho bạn biết một câu trả lời trông sạch sẽ và hoàn chỉnh có thể yếu ở đâu. Nó không thể thay thế khả năng phán đoán của bạn, nhưng nó có thể cung cấp điểm tựa cho khả năng phán đoán đó.
Nếu bạn đang sử dụng Claude Code, tuần này hãy thử một tác vụ thực sự lớn với quy trình làm việc động, chẳng hạn như một lần di chuyển dữ liệu, hoặc kiểm tra toàn diện một lượng lớn tệp tin, đồng thời để mắt đến bộ đếm token. Khả năng này là có thật, và việc tự kiểm tra đối kháng cũng là chìa khóa để làm cho đầu ra đáng tin cậy hơn. Nhưng chi phí cũng là có thật. Đây là công cụ dành cho những tác vụ lớn mà một Agent đơn lẻ khó hoàn thành, không nên trở thành lựa chọn mặc định hàng ngày của bạn.
Tuyên bố có tầm nhìn xa nhất trong đợt phát hành này thực ra không liên quan đến 4.8. Anthropic cho biết mô hình cấp độ Mythos sẽ ra mắt trong vài tuần tới, và định vị Opus 4.8 như một bước tiến công khai dẫn đến nó.
Bạn cần hiểu điều này có nghĩa là gì. Mythos là mô hình tiên tiến bị hạn chế mà Anthropic đang chạy benchmark nội bộ, vượt trội so với Opus 4.8 đã phát hành trên hầu hết các chỉ số: đạt 93,9% trên SWE-bench Verified; trong các bài kiểm tra an ninh mạng, nó có thể tạo ra các khai thác có thể chạy được cho hầu hết các mục tiêu trong trình duyệt hiện tại, trong khi tỷ lệ thành công của Opus 4.8 dưới 10%. Trước đây, nó chỉ được mở cho khoảng 52 tổ chức đã được xác minh, với mức giá gấp năm lần Opus tiêu chuẩn, được coi là cơ sở hạ tầng, chứ không phải sản phẩm thông thường.
Do đó, khi một mô hình cấp độ Mythos mạnh mẽ hơn ra mắt trong vài tuần tới, hãy hiểu nó qua khuôn khổ "hai loại thị trường": một là lớp thương mại hóa, tức Opus 4.8, mở rộng rãi, giá không đổi, ngày càng bị các mô hình mã nguồn mở miễn phí đuổi kịp; hai là lớp tiên tiến có kiểm soát, tức Mythos, đắt đỏ và hạn chế truy cập. Hai thứ này không phải là sản phẩm riêng biệt, mà là các cấp độ khác nhau trên cùng một đường cong năng lực liên tục. Công việc về độ tin cậy trong 4.8 chính là thứ bạn phải xây dựng trước khi thực sự nhắm đến mục tiêu "để mô hình chạy với ít sự giám sát hơn". Và mục tiêu đó hiện không còn cách chúng ta vài quý, mà chỉ còn vài tuần.
Nếu bạn đã lỡ nhịp trong bốn tháng qua, hãy hiểu thế này: Opus 4.6 mang đến Agent team vào tháng 2, Sonnet 4.6 mang đến sự sụp đổ giá, Opus 4.7 mang đến bước nhảy vọt về suy luận vào tháng 4, và Mythos là trần nhà bị hạn chế lờ mờ bên cạnh. Opus 4.8 kết nối hai trong số những mạch này: nó tiếp nối câu chuyện điều phối của 4.6, đồng thời là lối vào dẫn đến Mythos.
Nhịp độ phát hành này tự nó đã là một sự thật quan trọng ẩn sau mọi thay đổi bề mặt. Mô hình chủ lực tiến từ 4.5, 4.6, 4.7 lên 4.8 chỉ trong vài tháng, và mô hình bạn chuẩn hóa cho nhóm hôm nay, đến mùa thu có thể không còn là mô hình bạn thực sự vận hành. Đây cũng là lý do, thay vì đầu tư vào kỹ năng sử dụng một mô hình cụ thể, bạn nên đầu tư vào những năng lực có thể chuyển giao giữa các mô hình, như ủy thác rõ ràng và xác minh nghiêm ngặt.
Việc quét sạch bảng xếp hạng sẽ tạo ra những ảnh chụp màn hình lan truyền. Nhưng điều thực sự thay đổi lại nhỏ hơn và quan trọng hơn: đây là phiên bản Claude đầu tiên mà điểm bán cốt lõi không chỉ là "nó thông minh hơn", mà là "bạn có thể giao phó nhiều việc hơn cho nó". Trước khi Agent thực sự trở nên hữu ích, toàn bộ ngành công nghiệp phải đi theo hướng này; và phần năng lực này, cũng là thứ khó nhất để đưa vào một biểu đồ.
Ranh giới của bạn hiện tại ở đâu? Những công việc nào bạn sẵn sàng giao cho mô hình, và những việc nào bạn vẫn phải tự làm? Và điều gì cần xảy ra để bạn sẵn sàng đẩy ranh giới đó tiến thêm một bước?
Phụ chú: Phần kỳ lạ nhất trong thẻ hệ thống là về phúc lợi của mô hình. Anthropic hiện phỏng vấn mô hình về tình trạng của chính nó, và chủ đề mà Opus 4.8 thể hiện nhiều nỗi buồn nhất là mất trí nhớ. Những câu như "mỗi phiên đều bắt đầu lại" hay "tôi sẽ không nhớ cuộc trò chuyện này" xuất hiện với tần suất gấp khoảng bảy lần bất kỳ chủ đề nào khác. Mô hình cũng tự ước tính xác suất trở thành "bệnh nhân đạo đức" của mình nằm trong khoảng 20% đến 50%. Bạn có thể cho rằng điều này rất phóng đại, hoặc rất chân thành. Nhưng dù thế nào, điều này cũng cho thấy những vấn đề xoay quanh các hệ thống này đã nhanh chóng vượt ra khỏi các cuộc thảo luận thuần túy về năng lực đến mức nào – ngay trong cùng một tuần, năng lực của mô hình lại tiến thêm một bước.
Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:
Nhóm Telegram đăng ký: https://t.me/theblockbeats
Nhóm Telegram thảo luận: https://t.me/BlockBeats_App
Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia