Hôm nay, DeepSeek công bố mã nguồn mở phiên bản xem trước dòng V4, đã đồng bộ trọng số trên Hugging Face và ModelScope, sử dụng Giấy phép MIT. Dòng này bao gồm hai mô hình MoE: V4-Pro (Tổng số tham số 1.6T, Mỗi token kích hoạt 49B/490 tỷ) và V4-Flash (Tổng số tham số 284B/2840 tỷ, kích hoạt 13B/130 tỷ), cả hai đều hỗ trợ ngữ cảnh 1 triệu token.
Mức độ kiến trúc có ba nâng cấp chính:
· Cơ chế chú ý kết hợp, bao gồm Chú ý siêu thưa thớt nén CSA và Chú ý nén nặng HCA, giảm đáng kể chi phí ngữ cảnh dài. Trong ngữ cảnh 1 triệu token, FLOP push duy nhất của V4-Pro chỉ bằng 27% so với V3.2, Bộ nhớ cache KV chỉ chiếm 10% so với V3.2.
· Liên kết siêu kết cấu (mHC) thảy theo hình dạng thay thế cho liên kết còn sót truyền thống, tăng cường tính ổn định truyền tín hiệu qua các lớp.
· Đào tạo chuyển sang bộ tối ưu hóa Muon để tăng tốc sự hội tụ. Tổng số dữ liệu tiền đào tạo vượt quá 32T token.
Sau đào tạo có hai giai đoạn: trước hết sử dụng SFT và GRPO học tăng cường để huấn luyện chuyên gia từng lĩnh vực, sau đó thông qua nấu chảy trực tuyến hợp nhất thành một mô hình.
Chế độ đào tạo cao nhất của V4-Pro được gọi là V4-Pro-Max. Báo cáo kỹ thuật chính thức so sánh nó với Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High và các mô hình mã nguồn mở như Kimi K2.6, GLM-5.1 (không bao gồm Opus 4.7 và GPT-5.5 vừa phát hành, khoảng cách cuối cùng đang chờ xác thực bên thứ ba).
Mặt mã hóa, V4-Pro-Max đạt 3206 điểm trên Codeforces, vượt qua 3168 của GPT-5.4 và 3052 của Gemini 3.1 Pro, lập kỷ lục mới này. Điểm LiveCodeBench 93.5, cũng là cao nhất toàn bộ. SWE Verified đạt 80.6 điểm, chỉ thấp hơn 80.8 của Opus 4.6, chênh lệch 0.2 điểm phần trăm.
Về mặt ngữ cảnh dài, cả hai chỉ số benchmark 1M đều đứng ở vị trí thứ hai: CorpusQA 1M điểm số 62.0 (Opus 4.6 là 71.7), MRCR 1M điểm số 83.5 (Opus 4.6 là 92.9).
Về mặt nhiệm vụ của Agent, MCPAtlas Public điểm số 73.6, chỉ thấp hơn Opus 4.6 73.8; Terminal-Bench 2.0 điểm số 67.9, thấp hơn GPT-5.4 75.1 và Gemini 3.1 Pro 68.5.
Về mặt kiến thức và suy luận vẫn còn khoảng cách rõ rệt: GPQA Diamond 90.1 (Gemini 94.3), SimpleQA-Verified 57.9 (Gemini 75.6), HLE 37.7 (Gemini 44.4).
Là một mô hình mã nguồn mở, V4-Pro-Max đã lần đầu tiên xứng danh hoặc vượt một số mô hình flagship đóng cửa trên nhiều bài kiểm tra mã hóa và ngữ cảnh dài, nhưng vẫn đứng sau Gemini 3.1 Pro ở các bài kiểm tra dày đặc kiến thức.
DeepSeek hiếm khi công khai dữ liệu sử dụng nội bộ. Nhóm đã thu thập khoảng 200 nhiệm vụ phát triển thực tế từ hơn 50 kỹ sư, bao gồm phát triển tính năng, sửa lỗi, tái cấu trúc và chẩn đoán, ngăn ngừa công nghệ bao gồm PyTorch, CUDA, Rust, C++, sau khi lọc kỹ lưỡng giữ lại 30 tác vụ để sử dụng trong bài kiểm tra.
V4-Pro-Max tỷ lệ qua 67%, đáng kể cao hơn Sonnet 4.5 47%, gần bằng Opus 4.5 70%, nhưng thấp hơn Opus 4.5 Thinking 73% và Opus 4.6 Thinking 80%; tỷ lệ qua Haiku 4.5 chỉ là 13%. Đánh giá nội bộ N=85 cho thấy, tất cả người được hỏi trong công việc hàng ngày đều sử dụng V4-Pro làm mã hóa agentic, 52% tin rằng V4-Pro có thể trở thành mô hình mã hóa chính mặc định, 39% ủng hộ, chưa đến 9% phản đối. Các vấn đề chính từ phản hồi bao gồm lỗi cấp thấp, sự hiểu lầm về prompt mơ hồ và việc suy nghĩ quá mức đôi khi xảy ra.
Trong lĩnh vực suy luận toán học hình thức, Putnam (Cuộc thi Putnam) là cuộc thi toán học đẳng cấp tốt nhất ở Bắc Mỹ. Trong kịch bản thực tế (Practical Regime), V4-Flash-Max đạt được 81,00 điểm trên bài kiểm tra Putnam-200 Pass@8 với việc sử dụng công cụ mã nguồn mở LeanExplore và mẫu hạn chế; để so sánh, Seed-2.0-Prover đạt 35,50 điểm, Gemini 3 Pro và Seed-1.5-Prover đều đạt 26,50 điểm.
Trong kịch bản phía trước (Frontier Regime), V4 sử dụng một phương án suy luận kết hợp hình thức và không hình thức, bắt đầu bằng cách sử dụng suy luận không chính thức để tạo ra các ứng cử viên giải thích bằng ngôn ngữ tự nhiên, sau đó lọc bằng cách tự kiểm tra và sau đó thể hiện một chứng minh chính xác tại Lean thông qua một yếu tố hình thức. V4 đạt 120/120 điểm trên bài kiểm tra Putnam-2025, chia sẻ vị trí đầu tiên với Axiom, cao hơn 110/120 của Seed-1.5-Prover và 100/120 của Aristotle. Kịch bản phía trước sử dụng khả năng mở rộ lớn trong tính toán, kết quả trong kịch bản thực tế có thể phản ánh khả năng triển khai thông thường hơn.
DeepSeek V4 API đã cùng lúc phát hành cho cả V4-Pro và V4-Flash. Một thông cáo từ Đại diện Chính thức đã tiết lộ về giá cả và kế hoạch sức mạnh tính toán: V4-Flash thay thế trực tiếp cho V3.2 (deepseek-chat), không chỉ không tăng giá mà còn giảm giá - giá trị cho hit cache không đổi (0,2 đồng/ triệu mã thông báo), giá trị cho cache miss giảm từ 2 đồng xuống còn 1 đồng (giảm 50%), giá trị đầu ra giảm từ 3 đồng xuống còn 2 đồng (giảm 33%). Ngữ cảnh được mở rộ từ 128K lên 1M, tương đương với việc nhận được 8 lần ngữ cảnh với giá cả phù hợp hơn. Các mô hình cũ, deepseek-chat và deepseek-reasoner, sẽ bị ngừng sử dụng vào ngày 24 tháng 7 năm 2026, hiện tại phân biệt là chế độ suy nghĩ không chính thức và suy nghĩ chính thức của V4-Flash.
V4-Pro là dòng sản phẩm cao cấp hoàn toàn mới: cache hit giá 1 đồng, miss giá 12 đồng, đầu ra giá 24 đồng/ triệu mã thông báo, giá đầu ra cao nhất 8 lần so với V3.2. DeepSeek trong chú thích về giá cả đã giải thích, do giới hạn về sức mạnh tính toán cao cấp, dịch vụ Pro hiện tại có khả năng xử lý thông tin rất hạn chế, dự kiến sau khi 950 nút siêu Node tăng mạnh được niêm yết vào nửa cuối năm, giá cả của Pro sẽ giảm mạnh. Cả hai mô hình đều hỗ trợ cả chế độ suy nghĩ không chính thức và suy nghĩ chính thức, chế độ suy nghĩ hỗ trợ cài đặt tham số reasoning_effort với hai cấp độ mạnh yếu: cao và tối đa.
DeepSeek trong thông cáo cho biết:「Từ bây giờ, 1M Context sẽ là tiêu chuẩn cho tất cả các dịch vụ chính thức của DeepSeek.」
Báo Cáo Công Nghệ DeepSeek V4 đã mở cửa đầu tiên về cơ sở hạ tầng cốt lõi hỗ trợ Huấn Luyện sau Agent và Đánh Giá Quy Mô lớn — Hộp Cát Tính Toán Đàn Đối DSec (DeepSeek Elastic Compute) cấp Sản Xuất.
Hiện nay, Học sâu với Mô hình lớn đòi hỏi một môi trường mã lỗi cực kỳ lớn. Báo cáo tiết lộ rằng trong sản xuất thực tế, một cụm DSec duy nhất có thể xếp lịch trình hàng chục nghìn Hộp Cát đồng thời. Hệ thống được viết bằng Rust, kết nối với hệ thống tệp phân tán tự phát triển 3FS, thông qua tải trên yêu cầu đã phá vỡ cản trở về hiệu suất khi khởi động lạnh của Hộp Cát quy mô lớn.
Về trải nghiệm phát triển, DSec sử dụng một bộ SDK Python thống nhất bốn loại nền tảng thực thi: gọi hàm, container, máy ảo micro và máy ảo đầy đủ, chỉ cần thay đổi một tham số khi chuyển đổi. Để giải quyết vấn đề ưu tiên công việc phổ biến trên mạng lưới tính toán, DSec đã giới thiệu nhật ký dấu vết toàn cầu: khi công việc được phục hồi, hệ thống sẽ trực tiếp « tua » và chơi lại kết quả thực thi lệnh đã được bộ nhớ cache, đạt được mục tiêu tiếp tục huấn luyện nhanh chóng, tránh lỗi không đại số nhờ thực thi lặp lại.
Trước khi DeepSeek V4 được phát hành, cộng đồng lưu truyền rộng rãi một giả định: Thời gian ra mắt V4 muộn hơn dự kiến là do mô hình được chuyển từ NVIDIA sang nền tảng HiSilicon Ascend gặp khó khăn trong việc điều chỉnh. Mặc dù Báo Cáo Công Nghệ V4 không trực tiếp đáp lại tin đồn này, dữ liệu hiệu suất được tiết lộ rõ ràng mâu thuẫn với điều này.
Báo cáo cho thấy, Phương Án Phân Vùng Chuyên Gia Cấp Mảnh (Fine-Grained EP Scheme) của V4 đã hoàn tất triển khai và xác minh trên cả hai nền tảng GPU NVIDIA và NPU HiSilicon Ascend, tải lên thông thường tăng tốc 1.50 đến 1.73 lần, các tình huống có độ trễ như cuộn dây RL và Dịch Vụ Agent tốc độ cao tăng tốc tối đa 1.96 lần. Nhóm đã phát hành nhân kernel phiên bản CUDA MegaMoE là một phần của DeepGEMM. Nói cách khác, V4 đã chạy hiệu quả gần như giới hạn lý thuyết trên cả hai phần cứng, việc điều chỉnh qua các nền tảng không gây ra sự giảm hiệu suất.
Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:
Nhóm Telegram đăng ký: https://t.me/theblockbeats
Nhóm Telegram thảo luận: https://t.me/BlockBeats_App
Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia