Theo dõi từ Động Sát Beating, DeepSeek kết hợp với Đại học Bắc Kinh công bố báo cáo kỹ thuật về khung tăng tốc lấy mẫu đầu cơ DSpark, đồng thời mã nguồn mở toàn bộ thư viện mã DeepSpec. Hiện tại, DSpark đã được triển khai trong dịch vụ trực tuyến của DeepSeek-V4. Với điều kiện đảm bảo đầu ra không bị suy giảm, DSpark giúp tăng tốc độ tạo sinh đơn người dùng của phiên bản Flash lên 60% đến 85%, và phiên bản Pro lên 57% đến 78. Hiệu suất của DSpark vượt qua đường cơ sở dự đoán đa nhánh đơn Token (MTP-1) trước đây, nâng cao đáng kể thông lượng tổng thể của hệ thống dưới các ràng buộc độ trễ nghiêm ngặt.
Trước đây, việc lấy mẫu đầu cơ đa Token khó có thể triển khai trong môi trường sản xuất trực tuyến. Mô hình dự thảo tự hồi quy tạo sinh quá chậm, trong khi mô hình dự thảo song song do dự đoán độc lập ở từng vị trí dẫn đến tỷ lệ chấp nhận ở nửa cuối của chuỗi dài cực kỳ thấp. Nếu mù quáng xác thực bản thảo đa Token dưới tình trạng đồng thời cao, mô hình lớn sẽ lãng phí một lượng lớn sức mạnh tính toán để xác thực các ký tự sai chắc chắn bị từ chối, khiến thông lượng tổng thể của hệ thống sụp đổ nghiêm trọng. Do đó, ngành công nghiệp chủ yếu giới hạn ở dự đoán đơn Token (MTP-1) trên môi trường trực tuyến.
DSpark đã khắc phục nút thắt suy giảm thông lượng dưới tình trạng đồng thời cao. Đầu tiên, DSpark sử dụng mạng chính song song DFlash để tạo ra trạng thái ẩn, sau đó thêm một đầu Markov cực kỳ nhẹ. Đầu Markov thông qua tra bảng và một phép nhân ma trận, với chi phí cực thấp để tiêm tuần tự mối liên kết giữa các từ liền kề. Đồng thời, hệ thống tích hợp đầu dự đoán độ tin cậy và thuật toán hiệu chỉnh hậu nghiệm. Để tương thích hoàn hảo với việc lập lịch không chi phí trong môi trường sản xuất và ngăn chặn rò rỉ thông tin tương lai, bộ lập lịch sử dụng cơ chế bất đồng bộ, sử dụng dự đoán lịch sử từ hai bước trước để động quyết định độ dài cắt bỏ từ ứng viên, ngăn chặn hoàn toàn mô hình lớn xác thực các ký tự đuôi rủi ro cao dưới tải nặng.
Ngoài DSpark, thư viện mã DeepSpec mà DeepSeek mã nguồn mở lần này hỗ trợ tích hợp các mô hình lớn mã nguồn mở như Qwen3 và Gemma. DeepSpec cung cấp chuỗi công cụ Python hoàn chỉnh từ tải xuống prompt, xây dựng lại bộ nhớ đệm của mô hình lớn, huấn luyện mô hình dự thảo đến đánh giá chuẩn. Các nhà phát triển có thể trực tiếp sử dụng script mã nguồn mở để tùy chỉnh và triển khai các mô-đun tăng tốc riêng cho các mô hình lớn mã nguồn mở khác nhau tại địa phương.
