BTC
$96,000
5.73%
ETH
$3,521.91
3.97%
HTX
$0.{5}2273
5.23%
SOL
$198.17
3.05%
BNB
$710
3.05%
lang
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
Trang chủ
Cộng đồng
AI AI
Tin nhanh
Bài viết
Sự kiện
Thêm
Thông tin tài chính
Chuyên đề
Hệ sinh thái chuỗi khối
Mục nhập
Podcast
Data
OPRR

DeepSeek V4 sẽ được phát hành vào tuần tới, Yifan Zhang tiết lộ ba thành phần kiến trúc

Theo theo giám sát từ Telegram Beating, Tiến sĩ tại Đại học Princeton Yifan Zhang đã tiết lộ rằng thế hệ tiếp theo của công ty Trí tuệ nhân tạo DeepSeek ở Trung Quốc sẽ công bố Flagship V4 tuần sau; anh ấy liệt kê ba thành phần kiến trúc trong một bình luận: Sự chú ý Đa truy vấn Thưa thớt (Sparse Multi-Query Attention), Lõi Mega MoE Hợp nhất (Fused MoE Mega Kernel), Hyper-Connections. Zhang tốt nghiệp Đại học Bắc Kinh, thạc sĩ chương trình Yao tại Đại học Tsinghua, hiện là Hội viên Nhóm Trí tuệ Nhân tạo tại Princeton, từng làm việc tại nhóm mô hình hạt giống của ByteDance dưới vai trò Stagiaire Nghiên cứu; hiện không làm việc tại DeepSeek, cũng chưa được xác nhận bởi DeepSeek về lịch trình công bố.

Ba thành phần tương ứng với ba hướng độc lập trong tối ưu hóa LLM. Sự chú ý Đa truy vấn Thưa thớt là sự kết hợp thưa thớt trên cơ sở của chú ý đa truy vấn, được sử dụng để giảm hiệu suất lập luận và bộ nhớ hiển thị thêm trong ngữ cảnh văn bản dài; Lõi Mega MoE Hợp nhất kết hợp việc đánh giá định tuyến MoE với việc nhân ma trận của chuyên gia vào một lõi GPU duy nhất, loại bỏ một lượng lớn chi phí khởi tạo lõi và di chuyển bộ nhớ trong giai đoạn lập luận; Hyper-Connections là sự tổng quát hoá của kết nối dư, thay thế cho chú thích dư duy nhất bằng nhiều đường thông tin tuỳ chỉnh có thể học được.

举报 Báo lỗi/Báo cáo
Báo lỗi/Báo cáo
Gửi
Thêm mới thư viện
Chỉ mình tôi có thể nhìn thấy
Công khai
Lưu
Chọn thư viện
Thêm mới thư viện
Hủy
Hoàn thành