BTC

$96,000

5.73%

ETH

$3,521.91

3.97%

HTX

$0.{5}2273

5.23%

SOL

$198.17

3.05%

BNB

$710

3.05%

简体中文

繁體中文

English

Tiếng Việt

한국어

日本語

ภาษาไทย

Türkçe

DeepSeek V4 sẽ được phát hành vào tuần tới, Yifan Zhang tiết lộ ba thành phần kiến trúc

Theo theo giám sát từ Telegram Beating, Tiến sĩ tại Đại học Princeton Yifan Zhang đã tiết lộ rằng thế hệ tiếp theo của công ty Trí tuệ nhân tạo DeepSeek ở Trung Quốc sẽ công bố Flagship V4 tuần sau; anh ấy liệt kê ba thành phần kiến trúc trong một bình luận: Sự chú ý Đa truy vấn Thưa thớt (Sparse Multi-Query Attention), Lõi Mega MoE Hợp nhất (Fused MoE Mega Kernel), Hyper-Connections. Zhang tốt nghiệp Đại học Bắc Kinh, thạc sĩ chương trình Yao tại Đại học Tsinghua, hiện là Hội viên Nhóm Trí tuệ Nhân tạo tại Princeton, từng làm việc tại nhóm mô hình hạt giống của ByteDance dưới vai trò Stagiaire Nghiên cứu; hiện không làm việc tại DeepSeek, cũng chưa được xác nhận bởi DeepSeek về lịch trình công bố.

Ba thành phần tương ứng với ba hướng độc lập trong tối ưu hóa LLM. Sự chú ý Đa truy vấn Thưa thớt là sự kết hợp thưa thớt trên cơ sở của chú ý đa truy vấn, được sử dụng để giảm hiệu suất lập luận và bộ nhớ hiển thị thêm trong ngữ cảnh văn bản dài; Lõi Mega MoE Hợp nhất kết hợp việc đánh giá định tuyến MoE với việc nhân ma trận của chuyên gia vào một lõi GPU duy nhất, loại bỏ một lượng lớn chi phí khởi tạo lõi và di chuyển bộ nhớ trong giai đoạn lập luận; Hyper-Connections là sự tổng quát hoá của kết nối dư, thay thế cho chú thích dư duy nhất bằng nhiều đường thông tin tuỳ chỉnh có thể học được.

Liên kết gốc

Báo lỗi/Báo cáo

Bài viết nổi bật

Truyền thông Mỹ: Trump tỏ ra tự cao tự đại trước công chúng, nhưng bên trong lại đầy sợ hãi

Tỷ lệ APY cho vay USDT trên nền tảng Aave tăng mạnh lên 14.99%

马斯克: Grok 4.4 sẽ tăng lên gấp đôi lên 1T và 4.5 sẽ mở rộng thêm đến 1.5T, cả hai dự kiến sẽ phát hành vào tháng 5

Báo lỗi/Báo cáo

Gửi

Thêm mới thư viện

Chỉ mình tôi có thể nhìn thấy

Công khai

Lưu

Chọn thư viện

Thêm mới thư viện

Hủy

Hoàn thành

DeepSeek V4 sẽ được phát hành vào tuần tới, Yifan Zhang tiết lộ ba thành phần kiến trúc

Cuộc Đời trên Binance: Tăng 15 Lần đến Đỉnh Cao Mới, Ba Lần Cứu Chữa trong Thị Trường Tăng Giá Nhân Tạo

Nhóm lõnh đạo về Quản lý Rủi ro vừa bị sa thải, Aave đã ghi nhận mức nợ xấu lên đến hai tỷ đô la

a16z: Vũ trụ AI tiếp theo, Bánh xe Ba dao ba gồm Robot, Khoa học Tự trị và Giao diện Não-Máy

Máy móc có thể thay thế con người không? Anh ấy nói không!

Một Nhà giao dịch đã chi tiêu 575 đô la mua 27,9 tỷ ASTEROID cách đây 2 ngày, hiện đầu tư này đã tăng hơn 1700 lần.

Một cá voi ZRO long đã bị thanh lý một phần, tổn thất 2,88 triệu USD

Trên 5.4 tỷ USD tài sản bị rút khỏi sau khi hacker vay mượn một lượng lớn ETH từ Aave

Một địa chỉ nắm giữ 8,02 tỷ ASTEROID, Lãi chênh lệch lên đến 2,6 triệu USD