Theo giám sát từ Beatping, sinh viên tiến sĩ Princeton Yifan Zhang đã cập nhật chi tiết kỹ thuật của DeepSeek V4 trên X. Anh ấy đã dự báo "V4 Tuần sau" vào ngày 19 tháng 4 và liệt kê ba tên thành phần kiến trúc, đồng thời công bố lần đầu tiên một phiên bản nhẹ V4-Lite chứa 285B tham số.
V4 tổng cộng 1.6T. Cơ chế chú ý là DSA2, kết hợp hai lời giải cơ chú ý thưa thớt mà DeepSeek đã sử dụng trước đó trong V3.2 là DSA (DeepSeek Sparse Attention) và NSA (Native Sparse Attention) được đề xuất trong bài báo vào đầu năm nay, với head-dim 512, phối hợp với Sparse MQA và SWA (Attention cửa sổ trượt). Tầng MoE bao gồm 384 chuyên gia, mỗi lần kích hoạt 6 chuyên gia, sử dụng Fused MoE Mega-Kernel. Kết nối dư theo Hyper-Connections.
Chi tiết lần đầu tiên công bố cho giai đoạn huấn luyện bao gồm: Bộ tối ưu hóa sử dụng Muon (một bộ tối ưu hóa ma trận áp dụng phương pháp Newton-Schulz đối với cập nhật momentum), độ dài ngữ cảnh tiền huấn luyện 32K, giai đoạn học tăng cường sử dụng GRPO và thêm điều chỉnh KL divergence. Độ dài ngữ cảnh cuối cùng mở rộng lên 1M. Chế độ văn bản thuần túy.
Zhang không công tác tại DeepSeek, và đội ngũ DeepSeek chính thức chưa phản hồi thông tin trên.
