BTC

$96,000

5.73%

ETH

$3,521.91

3.97%

HTX

$0.{5}2273

5.23%

SOL

$198.17

3.05%

BNB

$710

3.05%

简体中文

繁體中文

English

Tiếng Việt

한국어

日本語

ภาษาไทย

Türkçe

Claude Opus 4.7 Field Test: Có xứng đáng với là mô hình mạnh nhất không?

Đọc bài viết này mất 40 phút

Opus 4.7 là một bản phát hành mang tính quyết định, theo phong cách "Dao Phay Chính Xác".

原文標題：《Opus 4.7 Hoàn Toàn Không Hướng Đến việc Trở Thành "Mô Hình Mạnh Nhất": Tốc Độ Khen Ngợi Claude của Các Bạn Chẳng Thể Theos Kịp Tiến Độ của Anthropic》

Nguồn Gốc Bài Viết：Silicon Alien Pro

Ngày 16 tháng 4 năm 2026, Anthropic chính thức phát hành Claude Opus 4.7, chỉ cách đây hơn hai tháng từ việc phát hành Opus 4.6 thế hệ trước.

Sau một thời gian gần đây đầy sôi nổi và điên cuồng với việc cập nhật sản phẩm và mô hình, việc Anthropic tung ra mô hình mới dường như tự nhiên đã gây ấn tượng với người ta. Chắc chắn bạn đã thấy nhiều bản báo cáo mô hình ngay từ lúc mới xuất hiện, mọi người đều gọi Opus 4.7 là "mô hình mạnh nhất", cũng như những điều "loài người sắp tuyệt chủng", "cảnh báo thất nghiệp" và các thứ khác một lần nữa làm cho màn hình bị tràn báo cáo.

Nhưng vẫn cần nhìn vào chính Anthropic.

Tone mà lần phát hành này mang lại thực sự không phổ biến.

Anthropic đã viết ngay trong thông cáo: Khả năng của Opus 4.7 không bằng Claude Mythos Xem trước—và Mythos chỉ dành cho một số đối tác ít có như Apple, Google, Microsoft, Nvidia, không thể sử dụng cho những nhà phát triển và người dùng thông thường.

Đồng thời, điều đáng chú ý hơn so với câu chuyện này là, không chỉ là mạnh hơn so với Mythos huyền thoại, Opus 4.7 thực sự yếu hơn ở một số khả năng chính so với thế hệ trước.

Một con số bất thường trong bảng xếp hạng của Opus 4.7:

MRCR v2 với Đoạn Văn Bạn Của System ở 1 triệu từ từ Opus 4.6 giảm từ 78,3% xuống còn 32,2%, một sự sụt giảm lên tới 46 điểm phần trăm.

Rất ít khi một phiên bản cập nhật mô hình mũi nhọn sẽ cắt giảm mạnh như vậy ở khả năng dẫn đầu của chính nó.

Và điều này là lựa chọn mà họ tự chủ động thực hiện.

Vì vậy, khi mọi người tiếp tục khen ngợi mà không suy nghĩ nhiều mỗi mô hình của nó là "mạnh nhất", thì thực tế họ đã không thể theo kịp tiến độ của chính Anthropic!

Chẳng thể bận tâm để cải thiện vấn đề rửa xe này

Opus 4.7 là một lần phát hành hoàn toàn không hướng đến việc trở thành "mô hình mạnh nhất", đó là một lần phát hành có sự lựa chọn rõ ràng, mang tính "chiến thuật chính xác", khác biệt hoàn toàn so với các phương pháp phát hành của các nhà sản xuất mô hình hàng đầu trước đây, cũng như là hướng tiếp cận mới mà các nhà sản xuất hàng đầu đang chuyển sang khi họ cảm nhận rõ ràng rằng sự "đột phá lớn" của mô hình không còn bền vững nữa—Anthropic đang từ từ tiến gần đến chiến lược phát hành sản phẩm đến từ các công ty đã chuyên nghiệp rất nhiều như Apple, Microsoft, v.v. ở giai đoạn sản phẩm hóa rất thành công của họ.

Điều này có thể mới thực sự quan trọng ở Opus 4.7.

Một, Khả năng Lập trình: Sự cải thiện thực sự đằng sau con số

Để hiểu rõ hơn về những thay đổi này, cách tốt nhất là tự nhiên là nhìn kỹ xem lần này nó đã phát hành cái gì.

Đây là Tóm tắt thông tin toàn diện về phiên bản Opus 4.7 lần này - nơi đã tiến triển, nơi vẫn còn yếu, phản hồi từ các nhà phát triển là gì, liệu có nên di dời hay không.

Thông báo chính thức:https://www.anthropic.com/news/claude-opus-4-7

Thành tích lập trình của Opus 4.7 là trục chính của phiên bản lần này.

SWE-bench Đã Xác minh (500 vấn đề GitHub thực tế, mô hình cần viết ra các bản vá có thể vượt qua kiểm thử) từ 80,8% của Opus 4,6 tăng lên 87,6%, gần 7 điểm phần trăm đi lên, đứng đầu trong các mô hình hiện có công khai. So sánh với 80,6% của Gemini 3,1 Pro, khoảng cách rõ ràng.

SWE-bench Pro là phiên bản khó hơn, bao gồm toàn bộ quy trình kỹ thuật cho bốn ngôn ngữ lập trình. Opus 4.7 từ 53,4% tăng lên 64,3%, 11 điểm phần trăm nhảy vọt. So sánh với 57,7% của GPT-5.4, 54,2% của Gemini 3,1 Pro, Opus 4.7 dẫn đầu rõ rệt trên tiêu chí này.

CursorBench là một bài kiểm tra thực tế từ Cursor, đo lường chất lượng hỗ trợ lập trình của mô hình trong môi trường IDE thực sự. Opus 4.6 là 58%, Opus 4.7 nhảy lên 70%, tăng 12 điểm phần trăm. Cofounder của Cursor, Michael Truell, nói trong thông báo chính thức: "Đây là một bước nhảy có ý nghĩa về khả năng, mang đến sự suy luận sáng tạo mạnh mẽ hơn khi giải quyết vấn đề."

Dữ liệu Kiểm tra Thực tế với Đối tác:

· Rakuten: Số lượng công việc sản xuất giải quyết bởi Opus 4.7 là gấp ba lần so với Opus 4.6, chất lượng mã và chất lượng kiểm thử đều tăng hàng chục điểm số.

· Nhà Máy： Tỷ lệ thành công của nhiệm vụ tăng 10-15%, tình huống dừng giữa chừng của mô hình giảm đáng kể

· Nhận Thức (công ty đứng sau Devin): Mô hình "có thể hoạt động liên tục trong vài giờ mà không bị ngắt kết nối"

· CodeRabbit: Tỷ lệ gọi lại tăng hơn 10%, "nhanh hơn chút ít so với chế độ xhigh của GPT-5.4"

· Bolt: Trên các nhiệm vụ xây dựng ứng dụng dài hơn, Opus 4.7 so với Opus 4.6 "tăng tối đa 10%, không có vấn đề giảm chất lượng như trước đây"

· Terminal-Bench 2.0: Opus 4.7 đã giải quyết ba nhiệm vụ mà trước đây không có mô hình nào của Claude (hoặc đối thủ) có thể xử lý, trong đó một trong số đó là điều kiện cạnh tranh cần sửa chữa thông qua suy luận đa tập tin trên mã nguồn phức tạp

Các tập dữ liệu này đều chỉ về một hướng: Opus 4.7 đã có cải tiến đáng kể trên các nhiệm vụ lập trình phức tạp đòi hỏi chu kỳ dài, đa tập tin và cần giữ cho bối cảnh logic liên tục. Điều này chính là điểm mà người dùng Opus 4.6 đã phàn nàn nhiều nhất trong hai tháng qua: bị bỏ cuộc tự động giữa chừng nhiệm vụ, mắc kẹt khi gặp lỗi đa tập tin.

Hai, Khả Năng Hình Ảnh: Sự Cải Thiện Bị Đánh Giá Thấp Nhất Trong Lần Phát Hành Này

Độ chính xác hình ảnh thước đo XBOW từ 54.5% bước lên 98.5%. Điều này không phải là cải tiến từ từ, mà là một bước nhảy cấp.

Thay đổi cụ thể:

· Độ phân giải hình ảnh tối đa từ khoảng 1,15 triệu điểm ảnh (cạnh dài 1.568 điểm ảnh) tăng lên khoảng 3,75 triệu điểm ảnh (cạnh dài 2.576 điểm ảnh), là hơn 3 lần so với thế hệ trước

· Tọa độ mô hình và điểm ảnh thực tế đạt được tương ứng 1:1, trước đây nhiệm vụ sử dụng máy tính đòi hỏi phải chuyển đổi hệ số thu phóng bằng tay, bước này đã biến mất ngay bây giờ

· CharXiv - Tiêu chuẩn suy luận thị giác: Không có công cụ 82.1%, Có công cụ 91.0%

Dự án này ảnh hưởng đến những tình huống nào?

Đối với nhóm sản phẩm sử dụng máy tính, cập nhật lần này có thể là quyết định. Trong thời kỳ Opus 4.6, sản phẩm sử dụng máy tính đang ở trạng thái "có thể demo nhưng không dám deploy" - tỷ lệ lỗi quá cao, khó dự đoán. Độ chính xác thị giác 98.5% có nghĩa là tính năng này lần đầu tiên đạt được ngưỡng triển khai đáng tin cậy. Nhiều blog công nghệ đã viết trực tiếp trong bài đánh giá rằng: Nếu do tỷ lệ lỗi cao của Opus 4.6 mà bạn tạm ngưng kế hoạch sản phẩm sử dụng máy tính, 4.7 đã loại bỏ rào cản này.

Phản hồi trực tiếp trên Reddit (r/ClaudeAI): Một người dùng đã đề cập, "Khả năng thị giác đã nâng cao quá quan trọng, trước đây tôi đã thực hiện nhiều dự án biên, cố gắng để mô hình lặp lại trong chu trình phản hồi thị giác để cải thiện đầu ra, kết quả luôn lộn xộn, rất mong chờ xem 4.7 sẽ xử lý vấn đề này như thế nào."

Ngoài việc sử dụng máy tính, những tình huống được hưởng lợi còn bao gồm: phân tích tài liệu quét (có thể đọc được kích thước chữ nhỏ hơn, nhận diện chi tiết biểu đồ tinh tế hơn), hiểu biết ảnh chụp màn hình, ứng dụng bảng điều khiển, xử lý PDF phức tạp.

Vấn đề chi phí cần lưu ý: Hình ảnh có độ phân giải cao sẽ tiêu tốn nhiều token hơn. Nếu ứng dụng của bạn không yêu cầu chi tiết ảnh cao, bạn nên giảm mẫu trước khi truyền vào.

Bước lùi lớn nhất: Xấu đi nhanh chóng

MRCR v2 @1M (Kiểm tra kiến thức dài 1 triệu token):

· 4.6: 78.3%

· 4.7: 32.2%

Sụt giảm 46 điểm phần trăm, từ gần 80% thẳng xuống một phần ba.

Sự sụt giảm này gần như chưa từng có tiền lệ trong lịch sử các phiên bản mẫu có tầm ảnh hưởng. MRCR v2 là khả năng Anthropic tự quảng cáo nổi bật trong thời kỳ Opus 4.6 - lúc đó, Anthropic nói rằng "một sự thay đổi cấp độ thực tế mà mô hình có thể đạt được đã xảy ra". Đến 4.7, "sự thay đổi" này đã trực tiếp biến mất.

Tại sao lại như vậy? Tokenizer đã được thay đổi.

Opus 4.7 sử dụng tokenizer mới, cùng một đoạn văn bản đầu vào sẽ tạo ra khoảng 1.0-1.35 lần số lượng token, con số cụ thể phụ thuộc vào loại nội dung.

Phản ứng chuỗi trực tiếp là:

· Cửa sổ ngữ cảnh 200K/1M trên danh nghĩa vẫn tồn tại, nhưng dung lượng cùng đoạn văn bản giảm đi

· Token thực tế tiêu thụ của luồng công việc agent dài tăng khoảng 35%

· Giá không thay đổi (đầu vào $5, đầu ra $25 mỗi triệu token), nhưng chi phí sử dụng thực tế tăng

Tuyên bố chính thức từ Anthropic là tokenizer mới "tăng cường hiệu suất xử lý văn bản", nhưng dữ liệu benchmark cho thấy trong các tình huống ngữ cảnh dài, hiệu suất đã giảm rõ rệt.

Khả năng tìm kiếm cũng đã giảm:

· BrowseComp (Tìm kiếm thông tin sâu mạng): 83.7% của Opus 4.6 → 79.3% của Opus 4.7

· GPT-5.4 Pro đạt 89.3% trong này, Gemini 3.1 Pro đạt 85.9%, Opus 4.7 hiện đứng cuối trong các mô hình cạnh tranh chính

Tìm kiếm và văn bản dài là những tình huống mà nhiều doanh nghiệp người dùng sử dụng nhiều nhất.

Phản hồi từ các nhà phát triển trên Hacker News (bài viết có 275 upvote, 215 bình luận, nguồn: Thảo luận trên HN):

"Tắt adaptive thinking, kéo effort lên cao nhất mà tôi mới trở về hiệu suất cơ sở của mình. 'Điều này trông tương đối tốt ở bên trong' không còn đủ nữa, mọi người đều thấy vấn đề giống nhau." "Phiên bản 4.7 mặc định không còn bao gồm tóm tắt token suy luận có thể đọc được của con người trong đầu ra nữa, phải thêm display: summarized vào yêu cầu API mới có thể nhận lại."

Đây là những vấn đề mà người dùng thực tế đã phản ánh. Tuy nhiên, đây cũng là lựa chọn được Anthropic tự chủ động thực hiện.

Bốn, Đặc Điểm Hành Vi Mới: Tự Xác Thực và Theo Dõi Hướng Dẫn Cụ Thể Hơn

Có một câu trong Thông Báo Chính Thức Opus 4.7 đáng chú ý:

Mô hình sẽ tự xác thực đầu ra của mình trước khi báo cáo kết quả.

Nhóm kỹ thuật của Hex đã cung cấp một ví dụ cụ thể trong quá trình thử nghiệm: khi dữ liệu bị thiếu, Opus 4.7 sẽ báo cáo chân thực "Dữ liệu không tồn tại", thay vì cung cấp một câu trả lời có vẻ hợp lý nhưng thực tế là giả mạo — điều mà Opus 4.6 đã gặp phải. Block, một nền tảng Fintech, đã nhận xét về điều này: "Nó có thể phát hiện lỗi logic của mình ngay từ giai đoạn lập kế hoạch, tăng tốc độ thực thi và vượt trội so với mô hình Claude trước đó."

Tuy nhiên, việc tự xác thực đã mang lại một sự thay đổi hành vi phụ: Opus 4.7 hiểu theo dõi hướng dẫn theo nghĩa đen hơn.

Đây là một rủi ro chuyển đổi quan trọng. Nếu bạn đã điều chỉnh prompt một cách kỹ lưỡng cho Opus 4.6, thì 4.7 có thể sẽ không "đọc giữa dòng" như 4.6 mà thay vào đó sẽ thực hiện theo đúng nghĩa đen bạn viết. Anthropic đã đề cập rõ điều này trong Hướng Dẫn Chuyển Đổi chính thức và khuyến nghị thực hiện kiểm thử hồi quy cho các prompt then chốt trước khi triển khai 4.7.

Một số chỉ số thực tế được Hex CTO đưa ra để tham khảo:

Opus 4.7 dành cho mức độ nỗ lực thấp, hiệu suất tương đương với Opus 4.6 ở mức độ nỗ lực trung bình.

Năm, Cơ Chế Kiểm Soát Rắn Rỏ: xhigh, ngân sách nhiệm vụ và /ultrareview

Opus 4.6 đã trải qua một sự kiện ảnh hưởng đến sự tin tưởng của người dùng: vào ngày 9 tháng 2, chuyển sang chế độ suy luận tự động mặc định, và vào ngày 3 tháng 3, chính thức giảm cấp độ suy luận mặc định của Claude Code từ cao nhất xuống trung bình, với lý do là "đạt được sự cân bằng giữa thông minh, trễ và chi phí". Sự việc này đã được người dùng gọi là "cửa hẹp trí tuệ", và một giám đốc cấp cao của AMD đã đưa ra câu hỏi trên GitHub được lan truyền rộng rãi.

Phản ứng từ Opus 4.7 là, giao quyền kiểm soát độ sâu suy luận một cách rõ ràng hơn cho người dùng.

Mức độ nỗ lực xhigh: Mức độ suy luận mới, nằm giữa mức độ cao và max hiện có. Claude Code đã cập nhật tất cả các mức độ mặc định của kế hoạch lên mức xhigh.

Tuy nhiên, cộng đồng nhà phát triển có một câu hỏi trực tiếp về xhigh, theo lời của một người dùng Reddit: "Opus 4.6 mặc định là medium, 4.7 mặc định là xhigh. Tôi muốn biết xem quyết định này đằng sau là gì, vì việc tăng cấp độ effort rõ ràng sẽ dẫn đến việc tiêu tốn nhiều token hơn."

Nói cách khác: Người dùng thấy rằng đó là một lần "trả quyền kiểm soát cho người dùng" nhưng thực tế là cấp độ mặc định đã được nâng cao, có nghĩa là cùng một nhiệm vụ sẽ phải tiêu tốn nhiều token hơn. Kết hợp với sự thay đổi của tokenizer, đây là sự tăng chi phí kép.

Ngân sách nhiệm vụ (đang trong giai đoạn thử nghiệm công cộng): Cơ chế kiểm soát ngân sách token cho các nhiệm vụ dài. Nhà phát triển thiết lập một ngân sách token tổng cộng (tối thiểu 20K), mô hình có thể xem số dư token còn lại trong quá trình thực thi để phân bổ tài nguyên dựa trên điều này, tránh tình trạng phải dừng lại giữa chừng vì vượt quá ngân sách token, cũng như ngăn ngừa lãng phí tính toán không cần thiết.

Thêm lệnh /ultrareview cho Claude Code: Phiên đánh giá mã đặc biệt, chạy một lần tập trung vào sửa lỗi và vấn đề thiết kế, người dùng Pro và Max được tặng 3 lượt miễn phí mỗi tháng.

Chế độ tự động mở cho người dùng Max: Trước đây chỉ có trong kế hoạch Enterprise, bây giờ người dùng Max cũng có thể sử dụng. Claude trong chế độ tự động giờ có thể ra quyết định tự chủ, giảm số lần đặt câu hỏi cho người dùng giữa chừng. Theo lời khen ngợi của Boris Cherny, trưởng nhóm Claude Code: "Hãy giao cho Claude một nhiệm vụ, để nó chạy, quay lại xem kết quả đã được xác minh."

Sáu, Phân Tích Toàn Cảnh về Điểm Số: Điểm Mạnh và Điểm Yếu ở Đâu

Dưới đây là các dữ liệu benchmark chính hiện đã được công bố (nguồn: thẻ hệ thống chính thức của Anthropic và đánh giá từ đối tác).

Lập trình và Kỹ thuật (Opus 4.7 dẫn đầu)

Thị giác và Đa phương tiện (Opus 4.7 vượt trội mạnh)

Công việc tri thức (Opus 4.7 dẫn đầu)

Đánh Giá Tổng Quan (Opus 4.7 Đáng Chú Ý)

Lôgic Tổng Quát (Ba Nhà Đều Điểm Đều)

Benchmark này đã bão hòa và không còn là ngưỡng cửa cạnh tranh hiệu quả nữa.

Nhiệm Vụ Loại Hình Nghiên Cứu (GPT-5.4 Dẫn Đầu, Opus 4.7 Lùi Bước)

Khía Cạnh Ngữ Cảnh Dài (Opus 4.7 Lùi Mạnh)

Tóm Lược Về Lựa Chọn Logic: Công nghệ lập trình, đại lí kỹ thuật, thị giác, và kiến thức pháp lý tài chính là bốn mảnh Opus 4.7 có ưu thế rõ rệt; các nhiệm vụ nghiên cứu tập trung và truy xuất mạng mở GPT-5.4 mạnh mẽ hơn; trong tình huống ngữ cảnh dài, Opus 4.7 kém hơn phiên bản trước của nó một đoạn đáng chú ý, đây là điểm đáng lưu ý nhất.

Bảy, Rào Cản An Ninh: Bàn Đạp cho Mythos

Phần này thường bị xem nhẹ như "Tuyên Bố An Ninh Thông Tin" trong bài viết được công bố, nhưng đó chính là chìa khóa để hiểu Chiến Lược Hiện Tại của Anthropic.

Vào ngày 7 tháng 4, Anthropic công bố Project Glasswing: đưa phiên bản xem trước của Claude Mythos mở cửa cho chín đối tác hợp tác là Apple, Google, Microsoft, Nvidia, Amazon, Cisco, CrowdStrike, JPMorgan Chase và Broadcom, dành riêng cho các tình huống an ninh mạng phòng thủ.

Mythos là mô hình mạnh nhất của Anthropic cho đến nay, theo báo cáo của The Hacker News, nó có khả năng tự phát hiện lỗ hổng zero-day, đã phát hiện hàng ngàn lỗ hổng trước đó chưa biết trên các hệ điều hành và trình duyệt chính. Nhưng chính vì khả năng này, nó được xem là có Nguy Cơ Lạm Dụng Lớn, cho nên không được công khai.

Opus 4.7 là mẫu thử nghiệm đầu tiên trên dòng này.Anthropic đã tự giảm khả năng tấn công mạng của mô hình trong giai đoạn huấn luyện (đồng thời cố gắng giữ lại khả năng phòng vệ), và triển khai hệ thống rào cản tự động để phát hiện và ngăn chặn yêu cầu an ninh mạng có nguy cơ cao. Bản công bố gốc: "Chúng tôi sẽ học hỏi xem hệ thống rào cản này có hiệu quả khi triển khai thực tế trên Opus 4.7, trước khi quyết định có nên tổng quát lên các mô hình cấp Mythos hay không."

Nói cách khác, mỗi nhà phát triển sử dụng Opus 4.7 đều đang giúp Anthropic hiệu chỉnh ranh giới hàng rào an ninh.

Đánh giá từ Gizmodo: Bản phát hành lần này đã sử dụng "chiến lược tiếp thị mạnh mẽ - tự quảng cáo về mô hình mới của mình 'khả năng tổng quát không bằng lựa chọn khác'," điều này rất hiếm thấy trong các bản phát hành cờ hiệu.

Những nhà nghiên cứu an ninh nếu cần sử dụng Opus 4.7 cho các cuộc kiểm thám hợp pháp, nghiên cứu lỗ hổng hoặc kiểm thử đỏ, cần phải đăng ký tham gia Chương trình Xác minh Cyber.

Tám, Giá cả và Di dời: Giá trị tên miền không đổi, nhưng thực tế đã tăng

Giá cả: Nhập $5/ triệu token, Xuất $25/ triệu token, giống Opus 4.6. Mô hình API có ID là claude-opus-4-7. Các nền tảng có sẵn bao gồm Claude API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, GitHub Copilot cũng đã được đồng bộ.

Nhưng giống như đã đề cập trưới đó, tokenizer đã thay đổi khiến cùng một lượng nhập tạo ra khoảng 1.0-1.35 lần token, kết hợp với token suy nghĩ ở các mức độ nỗ lực mặc định cao hơn, đối với luồng công việc của agent nhiệm vụ dài, chi phí thực tế có thể là 2-3 lần so với cài đặt tương đương của Opus 4.6.

Anthropic cũng đã rút ngắn thời gian sống của Bộ nhớ đệm Claude Code từ một giờ xuống còn năm phút - điều này có nghĩa là nếu bạn rời khỏi máy tính quá năm phút và quay lại, bộ nhớ đệm văn bản sẽ hết hạn và cần phải tải lại, làm tăng tốc độ tiêu thụ token. Cộng đồng Reddit đã có không ít người dùng phàn nàn rằng "việc tiêu thụ token nhanh hơn cả thác nước."

Danh sách những thay đổi gây hại cho người dùng Opus 4.6 hiện có:

1. Tham số Ngân sách Suy nghĩ Mở rộng đã bị loại bỏ, việc truyền vào sẽ trả về lỗi 400, cần phải sử dụng chế độ suy nghĩ thích nghi thay thế

2. Các tham số mẫu như nhiệt độ, top_p, top_k đã bị loại bỏ, cần sử dụng điều khiển bằng cách khích lệ để điều chỉnh hành vi xuất

3. Chỉ thị đúng nghĩa nghiêm ngặt hơn —— Cần kiểm thử lại prompt được điều chỉnh cho Opus 4.6, không thể đổi ID mô hình trực tiếp để triển khai

4. Thay đổi tokenizer dẫn đến thay đổi số lượng token, đề xuất chạy mẫu trên lưu lượng thực tế trước, sau đó thực hiện di chuyển đầy đủ

5. Đầu ra mặc định không còn bao gồm tóm tắt token suy luận, cần thiết lập hiển thị: summarized một cách rõ ràng mới có thể nhận lại

Lời khuyên Thực tiễn: Hướng dẫn chính thức về di chuyển của Anthropic đề xuất, trước khi chuyển đổi chính thức, hãy chạy Opus 4.7 trên lưu lượng sản xuất đại diện, so sánh việc tiêu thụ token và chất lượng công việc trước khi đưa ra quyết định.

Có thể thực hiện một cách chính xác và kinh khủng nhất

Opus 4.7 là một bản nâng cấp có mục tiêu rõ ràng, cũng là một bản nâng cấp với chi phí rõ rệt. Và tất cả đều do Anthropic tự thiết kế, và đến một mức độ lớn bạn phải trả giá cho nó.

Mặt tích cực của sự tiến bộ của mô hình:

· Đã xác minh qua SWE-bench 87.6%, SWE-bench Pro 64.3%, CursorBench 70%, nhiệm vụ sản xuất của Rakuten gấp 3 lần —— Đây là sự nâng cao về khả năng lập trình mà bạn có thể cảm nhận được trong môi trường sản xuất

· Tái tạo khả năng thị giác (XBOW 54.5% → 98.5%, tăng gấp 3 lần độ phân giải, 1:1 tương ứng pixel), giúp computer use lần đầu tiên có ngưỡng mức triển khai đáng tin cậy

· Dải xhigh, ngân sách nhiệm vụ, /ultrareview, là phản ứng rõ ràng đối với "cánh cửa giảm trí tuệ"

· BigLaw 90.9%, Finance Agent 64.4%, dẫn đầu rõ ràng trong công việc chuyên môn như pháp lý tài chính

Mặt bỏ đi:

· MRCR v2 @1 triệu từ 78.3% giảm xuống còn 32.2%, khả năng xử lý ngữ cảnh dài gần như giảm một nửa

· Luồng BrowseComp giảm từ 83.7% xuống 79.3%, khả năng tìm kiếm đã bị GPT-5.4 và Gemini 3.1 Pro vượt mặt

· tokenizer đã thay đổi + công sức mặc định tăng cao + thời gian sống của bộ nhớ cache rút ngắn = Sự tăng giá ẩn danh ba lần

· Mythos đang giữ chặt, có nghĩa là Anthropic đang giữ một bộ bài mạnh hơn nhưng không thể đánh ra

Trình bày lần này đang phản ánh sự thật nhất, không phải là "mô hình mạnh nhất" cũng không phải là "mô hình công khai mạnh nhất", mà là: Một lượt lặp có sự lựa chọn rõ ràng.

Tin mới nhất là, Thu Nhập Hàng Năm của Claude Code vào tháng 2 đã đạt 25 tỷ đô la. Opus 4.7 chính là cú đánh tiếp theo trên đường đua này.

Lập trình và thị giác là phép cộng, bối cảnh dài và tìm kiếm là phép trừ, giá cả không đổi nhưng hóa đơn thì tăng. Anthropic đang sử dụng Opus 4.7 để thực hiện một cuộc cân bằng - vừa để khắc phục tổn thương uy tín còn sót lại từ Opus 4.6, vừa để thực hiện một bài kiểm tra thực tiễn về hàng rào an toàn cho các mô hình cấp Mythos cao cấp trong tương lai. Và điều quan trọng hơn hết, Anthropic cần tận dụng vị trí dẫn đầu hiện tại của mình, biến sự yêu thích của người dùng đối với sản phẩm của mình thành truyền thống không thể thiếu dù có khuyết điểm nhưng vẫn không thể không dùng, sau đó xây dựng một phức hợp trung gian giữa sự yêu và hận như các công ty như Apple chỉ có trong giai đoạn chín muối, và sinh ra một hệ sinh thái có giá trị thương mại thực sự.

Liên kết gốc

Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:

Nhóm Telegram đăng ký: https://t.me/theblockbeats

Nhóm Telegram thảo luận: https://t.me/BlockBeats_App

Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia

#Claude ##trí tuệ nhân tạo #Opus 4.7 #trí tuệ nhân tạo

Báo lỗi/Báo cáo