BTC

$96,000

5.73%

ETH

$3,521.91

3.97%

HTX

$0.{5}2273

5.23%

SOL

$198.17

3.05%

BNB

$710

3.05%

lang

简体中文

繁體中文

English

Tiếng Việt

한국어

日本語

ภาษาไทย

Türkçe

Yifan Zhang tiết lộ đầy đủ Thông số Kỹ thuật DeepSeek V4: 1.6T Tham số, 384 chuyên gia kích hoạt 6 cái

Theo giám sát từ Beatping, sinh viên tiến sĩ Princeton Yifan Zhang đã cập nhật chi tiết kỹ thuật của DeepSeek V4 trên X. Anh ấy đã dự báo "V4 Tuần sau" vào ngày 19 tháng 4 và liệt kê ba tên thành phần kiến trúc, đồng thời công bố lần đầu tiên một phiên bản nhẹ V4-Lite chứa 285B tham số.

V4 tổng cộng 1.6T. Cơ chế chú ý là DSA2, kết hợp hai lời giải cơ chú ý thưa thớt mà DeepSeek đã sử dụng trước đó trong V3.2 là DSA (DeepSeek Sparse Attention) và NSA (Native Sparse Attention) được đề xuất trong bài báo vào đầu năm nay, với head-dim 512, phối hợp với Sparse MQA và SWA (Attention cửa sổ trượt). Tầng MoE bao gồm 384 chuyên gia, mỗi lần kích hoạt 6 chuyên gia, sử dụng Fused MoE Mega-Kernel. Kết nối dư theo Hyper-Connections.

Chi tiết lần đầu tiên công bố cho giai đoạn huấn luyện bao gồm: Bộ tối ưu hóa sử dụng Muon (một bộ tối ưu hóa ma trận áp dụng phương pháp Newton-Schulz đối với cập nhật momentum), độ dài ngữ cảnh tiền huấn luyện 32K, giai đoạn học tăng cường sử dụng GRPO và thêm điều chỉnh KL divergence. Độ dài ngữ cảnh cuối cùng mở rộng lên 1M. Chế độ văn bản thuần túy.

Zhang không công tác tại DeepSeek, và đội ngũ DeepSeek chính thức chưa phản hồi thông tin trên.

Liên kết gốc

Báo lỗi/Báo cáo

Bài viết nổi bật

Donald Trump tuyên bố ngừng bắn vô thời hạn, Bitcoin sẽ phản ứng như thế nào?

Meme Season của Ethereum đã trở lại

Elon Musk đã mua lại Cursor với giá 600 tỷ USD: Chi phí ẩn bên dưới - Chiến lược phòng thủ của người yếu, Thuê sức mạnh tính toán, Đảm bảo giá tham gia công khai

X hỗ trợ meme, meme season thực sự đã đến chưa?

Thám tử chuỗi tiếp tục giám sát

4h trước

Một cá heo đen HYPE đã dừng lỗ và rời khỏi thị trường, giá bán ra là 41.01 đô la Mỹ

5h trước

Một địa chỉ đã bán khoảng cách 3 giờ trước với giá trị 234 triệu USD CHIP

5h trước

Hyperliquid trên đã có 7 baleine lớn mở vị thế bán ngắn tạm thời, giá thanh lý trung bình là 81,502 USD

5h trước

Nhóm Ondo đã chuyển 34 triệu USD giá trị token vào một Ví mới hoặc có thể bán ra

24HThông tin quan trọng

Báo Cáo Tài Chính không còn quan trọng? Nhìn vào Quý 1 của Tesla: Thị trường đặt cược vào việc câu chuyện tương lai của Musk có thể tiếp tục duy trì giá trị.

Chỉ Số Tổng Thể Nasdaq Một Lần Nữa Lập Đỉnh Lịch Sử Trong Phiên Giao Dịch; Các Cổ Phiếu Liên Quan Đến Tiền Điện Tử Tăng Mạnh

Iran denies holding US-Iran new talks, says Trump "lied again"

Báo cáo cho biết, 360 AI Vulnerability Agent đã phát hiện gần 1000 lỗ hổng chưa biết đến, đang cạnh tranh với Mythos.

Báo lỗi/Báo cáo

Gửi

Thêm mới thư viện

Chỉ mình tôi có thể nhìn thấy

Công khai

Lưu

Chọn thư viện

Thêm mới thư viện

Hủy

Hoàn thành