BTC

$96,000

5.73%

ETH

$3,521.91

3.97%

HTX

$0.{5}2273

5.23%

SOL

$198.17

3.05%

BNB

$710

3.05%

简体中文

繁體中文

English

Tiếng Việt

한국어

日本語

ภาษาไทย

Türkçe

Con đường 1 triệu tỷ USD của DeepSeek: Sử dụng mã nguồn mở để thúc đẩy hệ sinh thái phần cứng triệu tỷ

Đọc bài viết này mất 46 phút

Bằng cách giảm ngưỡng đào tạo và suy luận, đưa thêm nhiều nhà sản xuất lưu trữ, chip và mạng trong nước tham gia vào cuộc cạnh tranh cơ sở hạ tầng AI

Tiêu đề Ban Đầu: Chiến lược lớn 10 nghìn tỷ USD của DeepSeek
Tác giả Ban Đầu: @bookwormengr
Dịch Thuật: Peggy, BlockBeats

Biên tập viên chú thích: Trong năm qua, cuộc thảo luận về DeepSeek chủ yếu tập trung vào hiệu suất mô hình, chiến lược mã nguồn mở và cuộc chiến về giá cả. Nhưng nếu chỉ tồn tại trong việc "bán hoặc không bán dịch vụ đăng ký," "có đa dạng không" và "có thể làm coding agent hay không" để hiểu về DeepSeek, có thể đã đánh giá thấp điều thực sự mà nó muốn thay đổi.

Bài viết này đưa ra một quan điểm táo bạo hơn: Mục tiêu của DeepSeek không nhất thiết phải tối ưu hóa ứng dụng trong tương lai ngắn hạn, mà là thông qua một loạt các đổi mới ở tầng cơ sở, tái thiết kết cấu chi phí đào tạo và suy luận AI, và gián tiếp thúc đẩy một hệ sinh thái phần cứng mới hình thành. Từ MoE, MLA đến DSA, CSA, mHC, Engram, rồi Dual Path và TileLang, lộ trình công nghệ của DeepSeek luôn xoay quanh một vấn đề cốt lõi: trong bối cảnh HBM, quy trình sản xuất tiên tiến, đóng gói và sinh thái CUDA đều bị hạn chế, làm thế nào để sử dụng ít tài nguyên tính toán cao cấp hơn để chạy ra mô hình mạnh hơn.

Điều đáng chú ý nhất trong bài viết không phải là "DeepSeek có thể kiếm được vài tỷ USD thông qua API hoặc dịch vụ đăng ký không," mà là liệu nó có đang kết hợp khả năng mô hình, kiến trúc bộ nhớ và hệ sinh thái phần cứng nội địa với nhau. KV Cache nén giảm sự phụ thuộc vào HBM, NAND và SSD có thể chịu được bộ nhớ cache lâu dài, LPDDR có thể sử dụng cho tải luồng trọng số và lưu trữ Engram, còn TileLang thì cố gắng làm suy yếu "cuồng phù của CUDA." Nếu những đổi mới này tiếp tục lan truyền, những người hưởng lợi sẽ không chỉ là DeepSeek mà còn bao gồm lĩnh vực lưu trữ, ASIC, GPU, chip mạng và toàn bộ chuỗi cơ sở hạ tầng AI.

Tất nhiên, sự đánh giá trong bài viết về "hệ sinh thái ngành công nghiệp 10 nghìn tỷ USD" và "ước định giá trị 1 nghìn tỷ USD" vẫn mang tính chất suy luận mạnh mẽ. Nhưng nó cung cấp một con đường quan trọng trong việc hiểu về DeepSeek: mã nguồn mở không nhất thiết có nghĩa là từ bỏ việc thương mại hóa, giá thấp cũng không nhất thiết chỉ là chi trả thị trường. Đối với DeepSeek, doanh nghiệp thực sự có thể không nằm ở tầng ứng dụng mà ở việc hỗ trợ cho việc làm cho nhiều hơn phần cứng trở nên có sẵn, và khiến việc cung ứng AI chi phí thấp hơn trở thành khả thi. Nói cách khác, điều mà họ bán không nhất thiết là mô hình chính mà là khả năng thực tế của cơ sở hạ tầng AI thế hệ tiếp theo.

Dưới đây là văn bản ban đầu:

Bạn có bao giờ tự hỏi, DeepSeek thực sự định kiếm tiền thông qua cách nào, và có thể sẽ kiếm rất nhiều tiền?

Nó không ra mắt một giải pháp đăng ký lập trình cạnh tranh như GLM, MoonShot và MiniMax; cũng không có mô hình đa dạng, âm thanh, video. Cho đến nay, nó thậm chí còn chưa có harness riêng, nghĩa là một framework chạy bên ngoài được sử dụng cho việc gọi mô hình, tích hợp công cụ và thực thi tác vụ — mặc dù họ gần đây đã bắt đầu tuyển dụng các vị trí liên quan, chuẩn bị xây dựng hệ thống này.

Trong khi đó, DeepSeek dường như luôn kiên định ủng hộ mã nguồn mở, thậm chí rất sẵn lòng chia sẻ "bí quyết" của mình. Điều đó liệu có điên rồ không? Không phải là đang phung phí tiền sao? Những nhà đầu tư sẵn sàng đầu tư 100 tỷ USD vào nó, liệu họ có đang vứt tiền vào cống không?

Theo quan điểm cá nhân của tôi, câu trả lời hoàn toàn trái ngược.

Tiếp theo, dựa trên những gì DeepSeek đã thực hiện cho đến nay, tôi sẽ đưa ra một số quan sát và phân tích một loạt chiến lược mà họ dường như đang theo đuổi. Mục tiêu của CEO DeepSeek Lương Văn Phong, có lẽ không giới hạn ở việc cạnh tranh mô hình trong tầm nhìn hiện tại. Anh ta có thể nhắm đến một giải thưởng lớn hơn: DeepSeek có cơ hội tiến thẳng đến 1 nghìn tỷ USD và đồng thời thúc đẩy hình thành một ngành công nghiệp mới có quy mô lên đến 10 nghìn tỷ USD.

Bài báo của TechInAsia về vòng huy động vốn mới nhất của DeepSeek

Nhìn lại "Hành trình anh hùng" của DeepSeek

DeepSeek luôn luôn đối mặt với phong trào phản đối. Họ không chọn lựa liên tục tung ra các mô hình mạnh hơn một chút, sau đó cố gắng đóng gói chúng thành các ứng dụng có thể tiếp cận trực tiếp, như giải pháp đăng ký lập trình. Vào ngày 27 tháng 1 năm 2025, tôi đã đăng một tweet phổ biến, kể lại "Hành trình anh hùng" của DeepSeek theo góc nhìn của tôi. Bây giờ, câu chuyện này trở nên thú vị hơn.

Khi người khác vẫn đang cố gắng xây dựng các mô hình dày đặc, DeepSeek đã chọn MoE (Mixture of Experts), một loại mô hình chuyên gia phức tạp hơn để huấn luyện.

Họ đã sử dụng phương pháp "nguyên lý cơ bản" và phát minh ra thuật toán GRPO mới để thay thế thuật toán học tăng cường PPO tiêu biểu nhưng chi phí triển khai cao trong thời điểm đó.

Họ nhận ra rằng học tăng cường từ Phần thưởng Xác nhận được (RLVR) dựa trên phần thưởng có thể xác minh, là một chiến lược chính để nâng cao khả năng suy luận của mô hình.

Họ cũng đề xuất một chiến lược giải mã đoán đơn giản thông qua "Dự đoán đa Token" (Multi Token Prediction), đồng thời làm cho tín hiệu huấn luyện trở nên mật độ hơn.

Họ hoàn thiện đường ống "Không Bubble" (ZERO bubble) để tăng cường hiệu quả sử dụng tài nguyên GPU hữu hạn.

Họ đã phát hành Bộ cân bằng Tải chuyên gia, giúp mọi người dễ dàng triển khai mô hình MoE hơn. Đặc biệt qua chiến lược "Song song Chuyên gia Rộng" (Wide Expert Parallel), mô hình có thể phục vụ với batch lớn hơn, giảm chi phí suy luận đáng kể.

Họ đã phát minh các cơ chế như MLA, DSA, CSA, HCA để giảm nhu cầu của Bộ nhớ Cache KV, và giúp cho nhu cầu tính toán tăng theo độ dài bối cảnh được duy trì gần như không đổi.

Họ đã phát minh Engram, trao đổi bộ nhớ để đạt hiệu quả tính toán.

Họ cũng đã phát minh mHC, giúp mô hình vẫn duy trì việc huấn luyện ổn định khi quy mô mô hình tăng lên. Còn nhiều ví dụ tương tự khác.

Trong "Chuyến phiêu lưu của Anh hùng," một cấu trúc kể chuyện phổ biến nhất, Anh hùng không bao giờ quyết định ngay từ đầu cuộc hành trình của mình dẫn đến đâu. Anh ta học hỏi dọc đường, từ từ khám phá ra nhiệm vụ cao cả thực sự và hoàn thành nó dưới mọi khó khăn. Anh ta sẽ gặp nhiều người nghi ngờ, nhưng anh ta chọn lờ định họ. Anh ta cũng sẽ gặp phải nhiều kẻ hành động ác ý. Anh ta có nhược điểm hoặc điểm yếu rõ ràng, nhưng cuối cùng anh ta sẽ vượt qua những vấn đề đó, hoàn thành nhiệm vụ của mình. Anh ta đối mặt với những thách thức có vẻ không thể vượt qua, nhưng lại tìm được cách liên minh và học cách sử dụng thông tin giới hạn và quý giá một cách khôn ngoan. Điều này khiến khán giả sẵn sàng cổ vũ cho Anh hùng. Điều này cũng là lý do DeepSeek đã thu hút mọi người theo đuổi, tôn trọng toàn cầu và cả những người phản đối.

Giống như tôi sẽ trình bày chi tiết tiếp theo, DeepSeek đã đi rất xa trên con đường này và dần dần khám phá ra số phận cuối cùng của mình: Mục tiêu của nó không phải là bán các gói dịch vụ đăng ký lập trình, mà là thúc đẩy một hệ sinh thái phần cứng AI Trung Quốc với quy mô 10 nghìn tỷ đô la Mỹ và đạt được định giá 1 nghìn tỷ đô la Mỹ. Trong quá trình này, nó cũng sẽ tạo cơ hội cho nhiều tân binh trong hệ sinh thái phần cứng phía Tây.

Bắt đầu từ một số tính toán Bộ nhớ Cache KV thú vị

Vui lòng xem tweet mới đây rất kịp thời của @SemiAnalysis_:

DeepSeek đã giải quyết vấn đề này tốt hơn bất kỳ ai khác!

Hãy cùng tính toán một chút về Bộ nhớ Cache KV thú vị. Đừng lo lắng, nếu bạn không thích toán học cũng không sao. Chúng tôi sẽ sử dụng Bộ tính Cache KV mới được phát hành gần đây để xem DeepSeek V4 Pro có thể tiết kiệm bao nhiêu Bộ nhớ Cache KV và so sánh nó với các mô hình GLM và Qwen mới nhất.

Ở đây, tôi giả định tính toán với độ dài ngữ cảnh 1 triệu, giả sử độ chính xác của KV là 8 bit và của bộ chỉ mục là 16 bit. Bạn cũng có thể thử nghiệm bản tính này trên trang web:

Bạn cũng có thể tự thử nghiệm bản tính này!

Với độ dài ngữ cảnh 1 triệu:

·DeepSeek V4 chỉ cần 5,48GB HBM;
·GLM-5 cần 60GB HBM;
·Qwen3-235B-A22B cần lên đến 89GB HBM.

Cần lưu ý rằng:

·DeepSeek là một mô hình 1,6 tỷ tham số;
·GLM-5 có khoảng 700 tỷ tham số và đã áp dụng MLA và DSA của DeepSeek, nhưng vẫn chưa sử dụng cơ chế chú ý nén mới nhất;
·Qwen3-235B-A22B có khoảng 235 tỷ tham số và sử dụng cơ chế chú ý GQA.

DeepSeek đã đóng góp cơ bản trong việc giảm áp lực bộ nhớ. Nếu loại đổi mới này được áp dụng rộng rãi, sẽ giảm đáng kể chi phí vận hành Agent chu kỳ dài và mở khóa một loạt các trường hợp ứng dụng mới.

So sánh Sử dụng Bộ nhớ Cache KV trong 100 triệu Ngữ cảnh Token và Quy mô Mô hình

Phương pháp học sau "Điên loạn"

Lý do Bộ nhớ Cache KV có thể nhỏ như vậy mà vẫn không ảnh hưởng đến chất lượng mô hình chính là DeepSeek có thể cung cấp bộ nhớ Cache lâu dài với chi phí cực thấp – giá thậm chí không đến 3% giá cảm biến Cache Sonnet 4.6, và DeepSeek có thể duy trì bộ nhớ Cache trong vài giờ.

Đối với các nhiệm vụ có chu kỳ dài, việc có một KV Cache nhỏ hơn có nghĩa là có thể giải phóng bộ nhớ cache này một cách tiết kiệm hơn xuống SSD và tải lại khi cần. Điều này giúp giảm sự phụ thuộc vào HBM. Từ góc độ của ngành công nghiệp phần cứng AI của Trung Quốc, HBM không chỉ khan hiếm nguồn cung mà còn là một trong những loại bộ nhớ khó sản xuất nhất.

Ngoài ra, DeepSeek cũng đã phát triển công nghệ để tải KV Cache từ SSD nhanh hơn, điều này đã được mô tả trong bài báo Dual Path của họ.

DeepSeek V4 nén KV Cache một cách rất lớn, đến mức có thể không cần bước này nữa.

Vậy, ai là người hưởng lợi trực tiếp nhất từ việc nén KV Cache?

Ai cung cấp SSD quy mô lớn? Đừng quên rằng YMTC (Longsys) đang trở thành một trong những người khổng lồ trong lĩnh vực NAND 3D. NAND có thể giúp DeepSeek tránh việc tính toán KV trùng lặp. Ngược lại, DeepSeek cũng tạo ra một thị trường lớn cho NAND và SSD — điều này không chỉ mang lại lợi ích cho Longsys mà còn cho các nhà sản xuất liên quan khác.

Tuy nhiên, điều này không chỉ liên quan đến NAND và SSD.

Bộ nhớ LPDDR cũng có tiềm năng lớn. Nó có thể được sử dụng để lưu trữ trọng số mô hình và chuyển truyền dòng trọng số này vào HBM khi cần, từ đó giảm áp lực yêu cầu trên HBM. Nhóm SGLang đã từng đăng một bài đăng blog tốt về điều này. Bức hình dưới đây cho thấy nguyên lý hoạt động của giải pháp này.

Mặc dù DeepSeek không đặc biệt thiết kế cho giải pháp này, nhưng kiến trúc MoE của họ, sở hữu một lượng lớn mô hình chuyên gia, và đặc tính trọng số 4 bit, tất cả đều giúp việc triển khai giải pháp này dễ dàng hơn.

Biểu đồ này mô tả cách bộ nhớ có thể được sử dụng và cách trọng số mô hình được truyền từ LPDDR vào HBM. Rất khuyến khích mọi người đọc bài blog đó của SGLang.

Đổi mới này, khi kết hợp với KV Cache cực kỳ nhỏ gọn và không mất mát, sẽ giảm đáng kể nhu cầu về HBM.

Vậy, ở Trung Quốc, ai đang sản xuất LPDDR? Câu trả lời là CXMT, còn được biết là Longsys. Họ chỉ có chênh lệch khoảng một nửa thế hệ về tốc độ LPDDR và chỉ chênh lệch một thế hệ về mật độ, chênh lệch không lớn.

Ngoài NAND dồi dào, hệ sinh thái trí tuệ nhân tạo của Trung Quốc cũng sẽ có nguồn cung cấp LPDDR dồi dào trong tương lai gần. Điều này có thể giảm áp lực tính toán không? Câu trả lời là: có thể. Tiếp tục đọc để biết thêm thông tin.

Sử dụng bộ nhớ một cách thông minh cũng có thể giảm áp lực cho GPU / ASIC

Việc sử dụng NAND để lưu trữ KV Cache có tác dụng thực sự dễ hiểu: nó cho phép KV Cache giữ được lâu hơn, giảm áp lực cho HBM, đồng thời tránh tính toán KV Cache trùng lắp, qua đó giảm bớt gánh nặng tính toán cho GPU và ASIC.

Vậy, liệu LPDDR có thể cũng hoạt động tương tự không? Ngoài việc là một vị trí lưu trữ có thể chuyển dữ liệu trọng số theo yêu cầu ngay lập tức đến HBM, liệu nó còn có thể giảm áp lực tính toán thêm không?

Câu trả lời là: có thể.

LPDDR có thể được sử dụng để lưu trữ một lượng lớn nội dung được gọi là Engram. Trong bài báo về Engram của DeepSeek, họ chỉ ra rằng, MoE có thể mở rộng khả năng mô hình thông qua tính toán điều kiện, nhưng Transformer thiếu một cơ chế "tra cứu tri thức" tự nhiên. Do đó, Transformer thường phải mô phỏng quá trình tra cứu một cách không hiệu quả thông qua tính toán.

Để giải quyết vấn đề này, DeepSeek đưa ra mô-đun Engram. Nó đã hiện đại hóa việc nhúng N-gram cổ điển thành một cơ chế tra cứu O(1) dựa trên Hash, tạo ra một con đường giảm thấp (sparse) bổ sung, họ gọi đó là bộ nhớ điều kiện (conditional memory).

Cách tiếp cận này có thể tiết kiệm tính toán, nhưng cũng cần bộ nhớ để chứa bảng nhúng, bảng này có thể rất lớn.

Về bản chất, đây là một lần nữa tiêu biểu cho "trao đổi tính toán bằng bộ nhớ". Nhưng cái nhìn quan trọng ở đây là: từ góc độ chi phí đọc dữ liệu mỗi bit, "bộ nhớ" có vẻ rẻ hơn rất nhiều - một lần truy vấn LPDDR, rẻ hơn nhiều so với việc cho dữ liệu trải qua nhiều lớp Transformer để tính toán tiến.

Đó chính là cách mà DeepSeek đánh đổi bằng cách hy sinh một phần bộ nhớ, để tiết kiệm tính toán.

Điều Cần Phải Hy Sinh

Vì thiếu mật độ vi mạch chip tương đương và không có EUV, GPU và ASIC của Trung Quốc có khả năng rơi vào tình trạng lạc hậu so với GPU phương Tây trong khả năng tính toán FLOPs nguyên thủy, cũng như vẫn còn tồn tại khoảng cách đáng kể trong lĩnh vực đóng gói tiên tiến. Do đó, việc hy sinh như vậy rất đáng giá, đặc biệt là khi Trung Quốc có khả năng sản xuất hàng loạt bộ nhớ NAND và LPDDR.

Xem Lại Chiến Lược Dài Hạn của DeepSeek

Dựa vào những đổi mới này, mục tiêu của DeepSeek dường như không phải là kiếm được vài tỷ đô la lợi nhuận ngay bây giờ. Rất nhiều quyết định mà nó đã đưa ra trong quá khứ đều cho thấy điều này: đến nay vẫn chưa có nhiều loại, không có mô hình giọng nói, huống chi là mô hình video.

Điều mà họ thực sự đang tham gia là một trò chơi dài hạn kiên nhẫn có thể trị giá đến 10 nghìn tỷ đô la: thúc đẩy sự hình thành một hệ sinh thái phần cứng AI thay thế.

Điều này không chỉ để làm cho các nhà sản xuất bộ nhớ Trung Quốc trở thành một cầu thủ quan trọng trong thị trường phần cứng AI ở Trung Quốc và toàn cầu, mà còn để từ cơ bản giảm nhu cầu về tài nguyên, khiến việc huấn luyện và cung cấp dịch vụ mô hình AI trở nên hiệu quả về chi phí hơn. Như vậy, rất nhiều nhà sản xuất GPU, ASIC và mạch lưới cũng có cơ hội trở thành các lựa chọn khả thi.

Đồng thời, những đổi mới này cũng sẽ mang lại lợi ích cho hệ sinh thái mã nguồn mở phương Tây, cũng như những nhà sản xuất phần cứng thế hệ mới.

Tất cả dấu hiệu thực sự đã xuất hiện. Hãy xem xét chi tiết những đổi mới mà DeepSeek đã đề xuất cho đến nay:

1. Mô hình pha trộn Chuyên gia (MoE) và MLA được giới thiệu trong DeepSeek V2

DeepSeek đã giới thiệu MoE và MLA trong V2. MoE giảm lượng tính toán cần thiết cho việc huấn luyện mô hình thông minh cao khoảng 40% đến 50%; MLA giảm KV Cache đến 90%.

Điều này đã khiến việc xóa bộ nhớ đệm KV lên SSD trở nên cực kỳ hiệu quả.

Các ý tưởng này đã được đề xuất lần đầu trong bài báo DeepSeek V2 được công bố vào tháng 5 năm 2024. Sau này, chúng đã làm nền tảng cho việc huấn luyện DeepSeek V3. Lúc đó, DeepSeek chỉ sử dụng 2048 chiếc H800 GPU bị giảm hiệu suất, đã huấn luyện ra một hệ thống gần bằng hiệu suất mô hình đóng cửa.

2、DSA: Được giới thiệu trong DeepSeek V3.2 Exp, DSA giảm thiểu chi phí tính toán trong ngữ cảnh dài đồng thời giảm áp lực băng thông HBM.

Vai trò cốt lõi của DSA là đảm bảo lượng tính toán không tăng theo chiều dài ngữ cảnh. Bạn có thể xem biểu đồ dưới đây: Với việc tăng chiều dài ngữ cảnh, thời gian xử lý của DeepSeek-V3.2 giữ ổn định.

3、mHC: DeepSeek đã đề xuất mHC trong bài báo "mHC: Manifold-Constrained Hyper-Connections" vào tháng 12 năm 2025.

mHC là một đổi mới của DeepSeek ở mức độ kiến trúc toàn cục, nó đã thiết kế lại cách thông tin chảy giữa các lớp Transformer.

Trước đây, từ ResNet trở đi, mô hình thường sử dụng kết nối dư tiêu chuẩn, tức là x + F(x). Cách làm của mHC là mở rộng luồng dư thành nhiều kênh thông tin song song và cho phép mô hình học kết hợp giữa các kênh này. Điểm chính ở đây là nó sẽ ràng buộc ma trận kết hợp thành ma trận ngẫu nhiên kép, tức là hạn chế nó trên nhiều mặt Birkhoff thông qua phản chiếu Sinkhorn-Knopp. Điều này đảm bảo từ mặt toán học, không lưu lượng tín hiệu nào sẽ gia tăng khi mô hình được xây dựng sâu.

Điều này giải quyết vấn đề bất ổn không kiểm soát từ trước đó mà Hyper-Connections đối mặt. Hyper-Connections ban đầu được Bytedance đề xuất, nhưng trong trường hợp không ràng buộc, tín hiệu tăng sẽ tăng lên 3000 lần khi mô hình đạt 270 tỷ tham số, dẫn đến sự sụp đổ hoàn toàn của quá trình huấn luyện.

Chi phí tính toán của mHC rất thấp: Nó chỉ đem lại khoảng 6.7% thời gian huấn luyện thực tế vì nó không thay đổi FLOPs của tầng chú ý hoặc FNN, chỉ thay đổi cách định tuyến đầu ra của những tầng này giữa các tầng.

Nhưng hiệu suất mà nó mang lại khá rõ rệt: Ở quy mô 270 tỷ tham số, mHC đã cải thiện 7.2 điểm trên nhiệm vụ suy luận Hard BIG-Bench, cải thiện 3.2 điểm trên DROP, cải thiện 2.8 điểm trên nhiệm vụ toán học GSM8K, cải thiện 1.4 điểm trên nhiệm vụ kiến thức tổng quát MMLU. Và các cải thiện này đều được thực hiện trong cùng một quy mô mô hình, cùng một ngân sách tính toán gần như không thay đổi.

Về bản chất, mHC là thông qua việc cung cấp một đồ thị định tuyến thông tin qua các tầng dày đặc và phong phú hơn cho mạng, giúp tăng khả năng biểu diễn mà không tăng FLOPs thêm, đạt được thông số thông minh đơn vị cao hơn.

mHC là một kiến trúc phức tạp, nhưng nó mang lại quá trình huấn luyện ổn định hơn và hiệu suất thông số cao hơn.

4. CSA, HSA: DeepSeek được giới thiệu trong bản V4 vào tháng 4 năm 2026.

Mục tiêu của CSA và HSA là thông qua việc nén KV Token, giảm yêu cầu KV Cache thêm 90%, đồng thời giảm đáng kể FLOPs cần thiết, từ đó đồng thời giảm áp lực lên HBM và GPU / ASIC.

5. Engram: DeepSeek được giới thiệu trong quý đầu tiên của năm 2026, về bản chất, là ở một mức độ nào đó sử dụng bộ nhớ, cụ thể là bộ nhớ LPDDR, để đổi lấy hiệu suất tính toán.

Như được thể hiện trong biểu đồ chi tiết dưới đây, với ngân sách tham số tổng cùng mức, Engram đã mang lại sự cải thiện đáng kể về hiệu suất.

6. Engram: DeepSeek được giới thiệu trong quý đầu tiên của năm 2026, về bản chất, là ở một mức độ nào đó sử dụng bộ nhớ, cụ thể là bộ nhớ LPDDR, để đổi lấy hiệu suất tính toán.

Như được thể hiện trong biểu đồ chi tiết dưới đây, với ngân sách tham số tổng cùng mức, Engram đã mang lại sự cải thiện đáng kể về hiệu suất.

Đây là lời khuyên mà DeepSeek chia sẻ với các nhà sản xuất phần cứng trong bài báo V4 của họ. Tôi chắc chắn rằng trong các buổi trao đổi ngoại khóa, phản hồi mà họ nhận được sẽ còn nhiều hơn.

7. Sự đầu tư vào TileLang cũng hướng tới cùng một mục tiêu: DeepSeek không chỉ giải quyết chính nó vấn đề về sức mạnh tính toán, mà còn đang thúc đẩy hệ sinh thái phần cứng Trung Quốc có khả năng cạnh tranh với hệ sinh thái phương Tây.

Thông qua TileLang, các nhà phát triển chỉ cần viết một lần kernel, nghĩa là mã lõi dùng cho tính toán, sau đó để nó chạy thành công trên nhiều nền tảng phần cứng, với điều kiện rằng các nền tảng đó đã có hỗ trợ backend TileLang tương ứng.

Tôi dự đoán rằng, các phòng thí nghiệm trí tuệ nhân tạo khác ở Trung Quốc cũng sẽ liên tục tham gia. Điều này sẽ giúp các nhà sản xuất phần cứng Trung Quốc đối mặt gián tiếp với cái mà được gọi là "thành trì CUDA". Đồng thời, nó cũng sẽ giải phóng tiềm năng của nhiều phần cứng phương Tây, như AMD.

Cần lưu ý rằng nhiều nền tảng phần cứng AI tại Trung Quốc đã cung cấp khả năng tương thích CUDA, hoặc là lớp chuyển đổi CUDA. Ví dụ, MoorThread, Muxi, WallMatrix và Qnumen đều là các nhà sản xuất chip Trung Quốc có mức độ tương thích CUDA cao thông qua lớp chuyển đổi. Do đó, về lý thuyết, chúng không nhất thiết cần TileLang.

Học tăng cường quy mô lớn và RSI

Khi DeepSeek có thêm nguồn lực tính toán, nghĩa là sự đa dạng về phần cứng tăng lên, đồng thời mô hình giảm yêu cầu về tài nguyên tính toán, nó có thể tiến hành các dự án huấn luyện có tham vọng hơn, đặc biệt là sau khi huấn luyện sau học tăng cường.

Học tăng cường đòi hỏi tạo ra một lượng lớn các quỹ đường, tức là tạo ra hàng ngàn tỷ Token. Quá trình này sẽ nhanh chóng trở nên cực kỳ đắt đỏ. Hơn nữa, nếu muốn huấn luyện một mô hình với độ dài ngữ cảnh 100 triệu, bạn cũng cần phải tạo ra cùng độ dài quỹ đường. Chỉ khi huấn luyện mô hình trên quỹ đường siêu dài như vậy, nó mới thật sự hỗ trợ cho các nhiệm vụ chu kỳ dài.

Ngoài ra, do tùy chọn phần cứng tăng lên, DeepSeek cũng sẽ có nhiều tài nguyên phần cứng có thể gọi, điều này sẽ thúc đẩy nghiên cứu tự động, tức là RSI. RSI đề cập đến việc AI tự thiết kế và thực thi thử nghiệm. Phương pháp này sẽ liên quan đến rất nhiều thử và lỗi, chi phí cũng sẽ tăng nhanh chóng. Nhưng RSI là một yếu tố quan trọng để khám phá không gian thiết kế mô hình đầy đủ. Trước khi tiến tới AGI, thậm chí sau đó là ASI, DeepSeek phải có khả năng RSI.

Công việc DeepSeek làm hôm nay, cả ngành sẽ theo kịp vào ngày mai

Xung quanh sự đổi mới về mô hình kết hợp chuyên gia, MLA, DSA và hướng đi khác của DeepSeek, đã được các phòng thí nghiệm AI toàn cầu và Trung Quốc khác ứng dụng dần.

Ví dụ, nhà phát triển mô hình dòng GLM ZAI đã sử dụng MLA và DSA. Kimi, còn được gọi là Moonshot, cũng sử dụng MLA và một cách mạnh mẽ cho biết, kiến trúc của nó dựa trên thiết kế kiến trúc của DeepSeek. Ngược lại, DeepSeek cũng sử dụng trình tối ưu hóa Muon, trong đó Muon ban đầu được Kimi (Moonshot) sử dụng trong huấn luyện quy mô lớn.

Cần lưu ý rằng:

MoE đầu tiên được Google đưa ra vào năm 2017, tác giả chính là Noam Shazeer. Đóng góp của DeepSeek là ứng dụng MoE quy mô lớn và phát minh ra các kỹ thuật kết hợp riêng.

Muon, cũng được gọi là MomentUm Orthogonalized by Newton-Schulz Optimizer, được đề xuất bởi nhà nghiên cứu học máy Keller Jordan vào cuối năm 2024. Nhóm Kimi (Moonshot) là nhóm đầu tiên áp dụng nó vào việc huấn luyện quy mô lớn.

Vấn đề về việc kiếm tiền thì sao?

Chúng ta có thể xem xét ví dụ thú vị từ OpenAI.

OpenAI đã nhận quyền mua cổ phiếu AMD và Cerebras với giá thấp, những quyền này kết nối với các cột mốc tiêu thụ sức mạnh tính toán của họ. Đối với AMD và Cerebras, đây là một giao dịch rất đáng giá. Bởi vì khi mà OpenAI cam kết sử dụng phần cứng của họ, khả năng thành công lâu dài của họ sẽ tăng đáng kể.

Trong thông cáo của AMD có đoạn:

「Là một phần của thỏa thuận, để phối hợp lợi ích chiến lược giữa hai bên, AMD đã phát hành quyền mua tối đa 160 triệu cổ phiếu thông thường AMD cho OpenAI, và sẽ dần chuyển nhượng dựa trên việc đạt được các mốc tiêu cụ thể. Lô đầu tiên sẽ chuyển nhượng khi triển khai ban đầu 1 gigawatt hoàn thành, các lô tiếp theo sẽ dần chuyển nhượng khi quy mô mua sắm mở rộng lên 6 gigawatt. Điều kiện chuyển nhượng còn liên quan đến việc AMD đạt được mục tiêu giá cổ phiếu cụ thể, cũng như việc OpenAI đạt được các mốc tiêu công nghệ và kinh doanh cần thiết để AMD triển khai quy mô lớn.」

Tôi dự đoán rằng DeepSeek cũng sẽ đạt thỏa thuận tương tự với nhiều nhà sản xuất cục bộ tại Trung Quốc, bao gồm RAM, ASIC, CPU và kỹ thuật mạng, và hợp tác sâu đậm với họ để tạo ra một ngăn xếp phần cứng thỏa mãn được công việc AI hàng đầu.

Xét đến tổng giá trị vốn hóa cổ phiếu AI của tất cả các đồng minh phương Tây, bao gồm đồng minh Đông Á, đã vượt qua 10 nghìn tỷ đô la Mỹ, cách tiếp cận 「đạt được lợi ích cổ phiếu thông qua hợp tác」 này sẽ cho phép DeepSeek có cơ hội giúp Trung Quốc xây dựng một ngành công nghiệp cũng lớn mạnh và cắt phân chia của mình, cuối cùng đạt mức định giá 1 nghìn tỷ đô la Mỹ.

Điều này không chỉ giúp DeepSeek kiếm được số tiền nhiều hơn rất nhiều so với dịch vụ đăng ký ứng dụng truyền thống, mà còn có thể đạt được mục tiêu 「để AGI mang lợi ích đến cho mọi người」 mà họ đã nói. Lương Văn Phong là một tổng tham hâm của Jim Simons, cũng là một cầu thủ văn bản thông minh đủ, anh ta không thể bỏ lỡ điều này.

Nếu bạn nhìn lại những gì DeepSeek đã làm cho đến nay, chỉ có giải thích này là hợp lý nhất.

Đây là các cổ phiếu trí tuệ nhân tạo then chốt. Biểu đồ chưa bao gồm các hyperscalers, tức là các nhà cung cấp đám mây quy mô siêu lớn, cũng như nhiều công ty liên quan khác.

[Liên kết gốc]

Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:

Nhóm Telegram đăng ký: https://t.me/theblockbeats

Nhóm Telegram thảo luận: https://t.me/BlockBeats_App

Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia

#tìm kiếm sâu #trí tuệ nhân tạo

Báo lỗi/Báo cáo