4-17%。 Đây là tỷ lệ đọc cache prompt của Claude Code trong vòng một tháng qua. Mức bình thường là 97-99%.
Điều này có nghĩa là khi bạn khôi phục một phiên trước đó, Claude Code không tái sử dụng ngữ cảnh đã xử lý trước đó, mà mỗi lần đều xử lý toàn bộ nội dung từ đầu, tiêu tốn nguồn tài nguyên từ 10 đến 20 lần so với tình trạng bình thường. Bạn nghĩ rằng mình đang tiếp tục một cuộc trò chuyện, nhưng thực tế mỗi lần đều bắt đầu một cuộc trò chuyện hoàn toàn mới, hoàn toàn mới.

Con số này đến từ thử nghiệm giám sát proxy của nhà phát triển độc lập ArkNill. Ông đã thiết lập proxy trong suốt, ghi lại mỗi yêu cầu giữa Claude Code và Anthropic API, phát hiện ít nhất hai lỗi cache ở phía máy khách dẫn đến máy chủ API không thể khớp với tiền tố trò chuyện đã được lưu cache, bị buộc phải xây dựng lại toàn bộ token mỗi vòng.

Hình trên thể hiện mức đọc cache so sánh giữa ba giai đoạn. Trong giai đoạn từ v2.1.69 đến v2.1.89 (tức là giai đoạn có bug), tỷ lệ đọc cache của phiên bản standalone chỉ từ 4-17%. Với v2.1.90 sau khi sửa một lỗi then chốt, tỷ lệ đọc cache khởi động lạnh trở lại từ 47-99.7%. Đến v2.1.91, tỷ lệ đọc cache khi hoạt động ổn định đã phục hồi về 97-99%.
Đáng chú ý là một chi tiết trong biểu đồ: phạm vi của v2.1.90 rất lớn (từ 47% đến 99.7%), điều này là do khi phiên được khôi phục vẫn cần "khởi động" cache, tỉ lệ trúng thấp trong vài vòng đầu, nhưng nhanh chóng trở lại mức bình thường. Trong phiên bản có lỗi, việc "khởi động" này sẽ không bao giờ xảy ra - việc đọc cache sẽ luôn dừng lại ở 14,500 token của các từ gợi ý trong hệ thống, tất cả lịch sử trò chuyện luôn được tính cước toàn phí mỗi lần.
Lỗi này không phải là loại lỗi được giới thiệu trong bản cập nhật này, sửa lỗi trong bản cập nhật tiếp theo. Theo hồ sơ phát hành của npm registry, bản phát hành 2.1.69 mang bug đã được phát hành vào ngày 4 tháng 3, bản sửa lỗi 2.1.90 được phát hành vào ngày 1 tháng 4. Cách nhau 28 ngày, bao gồm 20 phiên bản.

Biểu đồ thời gian đã tiết lộ một chi tiết đáng để suy nghĩ. Sau khi lỗi được giới thiệu vào ngày 4 tháng 3, người dùng không phàn nàn trực tiếp ngay lập tức. Cho đến ngày 23 tháng 3, phàn nàn mới tập trung và bùng nổ, kéo dài gần ba tuần. Lí do là, theo việc điều tra Github vấn đề #41930, từ ngày 13 tháng 3 đến 28 tháng 3, Anthropic đã triển khai chương trình khuyến mãi với giới hạn gấp đôi (giờ thấp điểm gấp đôi), điều này một cách khách quan đã làm che giấu tác động của lỗi. Sau khi chương trình khuyến mãi kết thúc, việc sử dụng bộ nhớ đệm khi gặp lỗi trở lại mức tính phí bình thường, giới hạn của người dùng đột ngột "bay hơi".
Phản ứng từ Anthropic không nhanh chóng. Vào ngày 26 tháng 3, sau ba ngày từ khi phản ánh của người dùng bùng nổ, kỹ sư Thariq Shihipar đã công bố trên tài khoản cá nhân X của mình rằng giới hạn trong thời gian cao điểm (từ 5 giờ sáng đến 11 giờ sáng giờ Thái Bình Dương) đã được siết chặt. Vào ngày 30 tháng 3, Anthropic đã thừa nhận trên Reddit rằng "vấn đề tốc độ tiếp cận giới hạn của người dùng nhanh hơn nhiều so với dự kiến", và nó đã được xác định là ưu tiên cao nhất của nhóm. Cho đến ngày 1 tháng 4, thành viên nhóm Lydia Hallie mới phát hành kết luận điều tra chính thức.
Trong suốt quá trình, Anthropic không công bố bất kỳ bài đăng trên blog nào, không gửi email thông báo, và không cập nhật trang trạng thái. Tất cả giao tiếp chính thức chỉ thông qua bài đăng trên mạng xã hội cá nhân của kỹ sư và một số bình luận trên Reddit.
Vấn đề Github #41930 đã thu thập hàng trăm báo cáo từ người dùng. Trường hợp cực đoan nhất đề cập đến một người dùng trả phí 20 lần Max (200 đô la/tháng), cửa sổ lăn 5 giờ của anh ấy đã hết pin hoàn toàn trong vòng 19 phút. Người dùng trả phí 5 lần Max (100 đô la/tháng) báo cáo rằng cửa sổ 5 giờ đã sử dụng hết trong vòng 90 phút. Theo báo cáo của The Letter Two, cũng có người dùng cho biết một tin nhắn "xin chào" đơn giản đã tiêu tốn 13% cấp phát phiên. Một người dùng Pro (20 đô la/tháng) trên Discord cho biết, giới hạn của anh ấy "hết từ thứ hai hàng tuần, đến thứ sáu mới reset", chỉ có thể sử dụng bình thường trong 12 ngày trong vòng 30 ngày.

Theo bài kiểm tra mức tiêu chuẩn của ArkNill, trên phiên bản lỗi v2.1.89, giới hạn 100% của kế hoạch Max 20x sẽ bị tiêu tốn trong khoảng 70 phút. Anh ấy cũng tính toán chi phí cấp phát cho một hoạt động --resume đối với một phiên 500K mã thông báo, khoảng 0,15 đô la, vì hệ thống sẽ phải hoàn toàn phát lại toàn bộ ngữ cảnh.
Kết luận khảo sát của Lydia Hallie đã xác nhận hai điểm, một là giới hạn trong giờ cao điểm thực sự đã được thắt chặt, hai là tiêu thụ cuộc trò chuyện trong ngữ cảnh 100 triệu mã thông báo đã tăng lên. Cô ấy cho biết nhóm đã sửa một số lỗi, nhưng nhấn mạnh rằng 「không có lỗi nào dẫn đến tính phí kéo dài」.
Sau đó, cô ấy đưa ra bốn đề xuất tiết kiệm:
1. Sử dụng Sonnet 4.6 thay vì Opus (Opus có tốc độ tiêu thụ gấp đôi khoảng);
2. Khi không cần suy luận sâu, hãy giảm mức độ suy luận hoặc tắt extended thinking;
3. Không khôi phục các phiên dài hơn một giờ đã không hoạt động, mà hãy mở một phiên mới;
4. Đặt biến môi trường CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000 để giới hạn kích thước cửa sổ ngữ cảnh.
Không đề cập đến bất kỳ hình thức nào của việc đặt lại giới hạn hoặc bồi thường.
Người dẫn podcast AI Alex Volkov tổng kết phản ứng này thành 「Cách bạn cầm không đúng」 (You're holding it wrong), chỉ ra rằng Anthropic đã tự thiết lập 100 triệu mã thông báo ngữ cảnh là mặc định, quảng cáo Opus là mô hình đại diện, quảng cáo extended thinking, nhưng hiện tại đề xuất người dùng trả phí không sử dụng những tính năng này.
Phát ngôn 「không tính phí kéo dài」 cũng gây căng thẳng với bản ghi cập nhật của chính Claude Code. Chính trong ngày trước khi Lydia phát hành phản hồi, phiên bản v2.1.90 đã sửa một lỗi lớn hồi v2.1.69: khi khôi phục phiên bằng --resume, các yêu cầu đã được cache sẽ không trúng cache và tính giá theo giá đầy đủ. Phản hồi của Lydia không đề cập đến vấn đề tính phí này đã được xác nhận.

Là một so sánh, Codex của OpenAI trước đó cũng gặp vấn đề tiêu thụ giới hạn tương tự. Thái độ của OpenAI là đặt lại hạn mức người dùng, cấp lại credits và vào tháng 3 công bố gỡ bỏ giới hạn sử dụng Codex. Thái độ của Anthropic là đề xuất người dùng giảm cấp mô hình, tắt tính năng, hạn chế ngữ cảnh, và đổ trách nhiệm cho cách sử dụng của người dùng.
Anthropic bán dịch vụ đăng ký với "Mô hình Cực đại + Ngữ cảnh Cực đại + Khả năng Suy luận Cao nhất", thu phí từ 20 đến 200 đô la mỗi tháng. Một lỗi về bộ nhớ cache kéo dài 28 ngày đã làm giảm số dư của người dùng trả phí với tốc độ tăng lên 10-20 lần, phản hồi chính thức từ công ty là hãy tiết kiệm sử dụng.
Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:
Nhóm Telegram đăng ký: https://t.me/theblockbeats
Nhóm Telegram thảo luận: https://t.me/BlockBeats_App
Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia