BTC
$96,000
5.73%
ETH
$3,521.91
3.97%
HTX
$0.{5}2273
5.23%
SOL
$198.17
3.05%
BNB
$710
3.05%
lang
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
Trang chủ
Cộng đồng
AI AI
Tin nhanh
Bài viết
Sự kiện
Thêm
Thông tin tài chính
Chuyên đề
Hệ sinh thái chuỗi khối
Mục nhập
Podcast
Data
OPRR

Yifan Zhang tiết lộ đầy đủ Thông số Kỹ thuật DeepSeek V4: 1.6T Tham số, 384 chuyên gia kích hoạt 6 cái

Theo giám sát từ Beatping, sinh viên tiến sĩ Princeton Yifan Zhang đã cập nhật chi tiết kỹ thuật của DeepSeek V4 trên X. Anh ấy đã dự báo "V4 Tuần sau" vào ngày 19 tháng 4 và liệt kê ba tên thành phần kiến trúc, đồng thời công bố lần đầu tiên một phiên bản nhẹ V4-Lite chứa 285B tham số.

V4 tổng cộng 1.6T. Cơ chế chú ý là DSA2, kết hợp hai lời giải cơ chú ý thưa thớt mà DeepSeek đã sử dụng trước đó trong V3.2 là DSA (DeepSeek Sparse Attention) và NSA (Native Sparse Attention) được đề xuất trong bài báo vào đầu năm nay, với head-dim 512, phối hợp với Sparse MQA và SWA (Attention cửa sổ trượt). Tầng MoE bao gồm 384 chuyên gia, mỗi lần kích hoạt 6 chuyên gia, sử dụng Fused MoE Mega-Kernel. Kết nối dư theo Hyper-Connections.

Chi tiết lần đầu tiên công bố cho giai đoạn huấn luyện bao gồm: Bộ tối ưu hóa sử dụng Muon (một bộ tối ưu hóa ma trận áp dụng phương pháp Newton-Schulz đối với cập nhật momentum), độ dài ngữ cảnh tiền huấn luyện 32K, giai đoạn học tăng cường sử dụng GRPO và thêm điều chỉnh KL divergence. Độ dài ngữ cảnh cuối cùng mở rộng lên 1M. Chế độ văn bản thuần túy.

Zhang không công tác tại DeepSeek, và đội ngũ DeepSeek chính thức chưa phản hồi thông tin trên.

举报 Báo lỗi/Báo cáo
Báo lỗi/Báo cáo
Gửi
Thêm mới thư viện
Chỉ mình tôi có thể nhìn thấy
Công khai
Lưu
Chọn thư viện
Thêm mới thư viện
Hủy
Hoàn thành