Theo theo giám sát từ Telegram Beating, Tiến sĩ tại Đại học Princeton Yifan Zhang đã tiết lộ rằng thế hệ tiếp theo của công ty Trí tuệ nhân tạo DeepSeek ở Trung Quốc sẽ công bố Flagship V4 tuần sau; anh ấy liệt kê ba thành phần kiến trúc trong một bình luận: Sự chú ý Đa truy vấn Thưa thớt (Sparse Multi-Query Attention), Lõi Mega MoE Hợp nhất (Fused MoE Mega Kernel), Hyper-Connections. Zhang tốt nghiệp Đại học Bắc Kinh, thạc sĩ chương trình Yao tại Đại học Tsinghua, hiện là Hội viên Nhóm Trí tuệ Nhân tạo tại Princeton, từng làm việc tại nhóm mô hình hạt giống của ByteDance dưới vai trò Stagiaire Nghiên cứu; hiện không làm việc tại DeepSeek, cũng chưa được xác nhận bởi DeepSeek về lịch trình công bố.
Ba thành phần tương ứng với ba hướng độc lập trong tối ưu hóa LLM. Sự chú ý Đa truy vấn Thưa thớt là sự kết hợp thưa thớt trên cơ sở của chú ý đa truy vấn, được sử dụng để giảm hiệu suất lập luận và bộ nhớ hiển thị thêm trong ngữ cảnh văn bản dài; Lõi Mega MoE Hợp nhất kết hợp việc đánh giá định tuyến MoE với việc nhân ma trận của chuyên gia vào một lõi GPU duy nhất, loại bỏ một lượng lớn chi phí khởi tạo lõi và di chuyển bộ nhớ trong giai đoạn lập luận; Hyper-Connections là sự tổng quát hoá của kết nối dư, thay thế cho chú thích dư duy nhất bằng nhiều đường thông tin tuỳ chỉnh có thể học được.
