BTC

$96,000

5.73%

ETH

$3,521.91

3.97%

HTX

$0.{5}2273

5.23%

SOL

$198.17

3.05%

BNB

$710

3.05%

简体中文

繁體中文

English

Tiếng Việt

한국어

日本語

ภาษาไทย

Türkçe

IOSG: Khi suy luận trở thành tài nguyên khan hiếm, giá trị sẽ do ai nắm giữ?

IOSG Ventures

Đọc bài viết này mất 28 phút

Công ty chiến thắng cuối cùng sẽ không phải là công ty sở hữu nhiều GPU nhất.

Tiêu đề gốc: 《IOSG Weekly Brief｜Khi suy luận trở thành tài nguyên khan hiếm, giá trị do ai nắm bắt #329》
Tác giả gốc: Frank Fu, IOSG Ventures

Khoảng trống mà David Cahn đề cập vào năm 2023 chưa bao giờ được lấp đầy ở phía huấn luyện. Nó đã được lấp đầy ở phía suy luận, và thị trường chỉ mới bắt đầu đưa nó vào định giá trong vài tuần qua.

Khi Nvidia tái cấu trúc báo cáo tài chính xoay quanh "token dịch vụ", và đợt IPO của Cerebras nhận được lượng đăng ký vượt mức 20 lần, cuộc tranh luận về nút thắt cổ chai đã kết thúc. Câu hỏi thực sự bây giờ là: Khi suy luận trở thành tài nguyên khan hiếm, giá trị sẽ lắng đọng ở tầng nào của ngăn xếp tính toán.

Theo dấu GPU: Từ vấn đề 200 tỷ đô la đến vấn đề 600 tỷ đô la

Vào năm 2023, David Cahn của Sequoia đã đặt ra câu hỏi treo lơ lửng trên toàn bộ quá trình xây dựng AI, đó là "vấn đề 200 tỷ đô la". Cứ mỗi 1 đô la mua GPU, cần thêm khoảng 1 đô la để cấp điện cho nó trong trung tâm dữ liệu. Do đó, mỗi năm chi tiêu vốn cho GPU, những con chip này cuối cùng phải tạo ra khoảng 200 tỷ đô la doanh thu để thu hồi số vốn đó.

Ngay cả với những giả định rất hào phóng về doanh thu AI, ông vẫn phát hiện ra khoảng trống hơn 125 tỷ đô la giữa "đầu tư" và "số tiền khách hàng cuối thực sự trả". Mối lo ngại rất thẳng thắn: GPU đang được xây dựng quá mức so với nhu cầu thực tế.

Một năm sau, khoảng trống không những không thu hẹp mà còn mở rộng. Trong phần tiếp theo năm 2024, khi chi tiêu vốn của các công ty siêu quy mô phình to, Cahn đã định nghĩa lại nó thành "vấn đề 600 tỷ đô la". Quan điểm giảm giá hội tụ thành một hình dạng quen thuộc: xây dựng quá mức dẫn đến dư thừa cung, và dư thừa sẽ đốt cháy vốn.

Cả hai bài viết thực chất đều hỏi cùng một điều: Ai sẽ lấp đầy khoảng trống này? Câu trả lời chưa bao giờ xuất hiện trong sổ sách của phía "huấn luyện". Nó xuất hiện ở phía inference (suy luận), và thị trường chỉ mới bắt đầu đưa nó vào định giá trong vài tuần qua.

IPO của Cerebras và sự chèn ép suy luận

Cerebras đã niêm yết vào thứ Năm. Đợt IPO này nhận được lượng đăng ký vượt mức 20 lần, với mức định giá gần gấp đôi mức tăng giá cuối cùng của thứ Tư. Nhu cầu không đến từ việc đặt cược vào "kẻ hủy diệt Nvidia tiếp theo", mà bắt nguồn từ một điều đơn giản hơn: Thị trường bắt đầu nhận ra rằng nút thắt cổ chai thực sự trong AI là inference, chứ không phải training.

Điểm mạnh của Cerebras là một kiến trúc chip giúp suy luận cực kỳ nhanh. Không phải huấn luyện, mà là suy luận. Đây chính là điều khiến Phố Wall phấn khích. Thị trường inference mang tính định kỳ, nó mở rộng theo mức độ sử dụng. Mỗi lần Claude trả lời câu hỏi, mỗi lần agent thực thi nhiệm vụ, đều tiêu tốn sức mạnh tính toán. Huấn luyện chỉ xảy ra một lần, còn suy luận không bao giờ dừng lại.

J.P. Morgan ước tính quy mô thị trường inference lớn gấp 10 đến 50 lần so với huấn luyện. Khi máy móc bắt đầu thực thi các nhiệm vụ do máy móc khác giao, tức là sự mở rộng theo kiểu agentic, nhu cầu inference không còn mở rộng theo số lượng người dùng nữa, mà mở rộng theo chính sức mạnh tính toán.

Nvidia vẽ lại bản đồ: Suy luận trở thành tâm điểm

Nếu Cerebras là sự thức tỉnh của thị trường, thì báo cáo tài chính mới nhất của Nvidia là sự xác nhận từ đỉnh cao của chuỗi ngành. Trong cuộc họp báo cáo tài chính gần đây, Jensen Huang đã nói thẳng điều mà ai cũng hiểu ngầm: Nhu cầu AI đang tăng trưởng theo hình parabol.

Lý do rất đơn giản: agentic AI đã đến. AI chủ đạo đã chuyển từ suy luận một lần, sang suy luận logic, rồi bước vào giai đoạn agent tự gọi công cụ và sắp xếp nhiệm vụ. Huang nói: "Tokens giờ đây có lợi nhuận." Trong kỷ nguyên AI, sức mạnh tính toán chính là doanh thu và lợi nhuận.

Điều này định hình lại toàn bộ ngành. Huấn luyện là chi phí một lần để xây dựng mô hình, còn inference là chi phí định kỳ để vận hành nó, và nút thắt hiện tại nằm ở suy luận, không phải huấn luyện.

Nvidia đã đưa nhận định này vào báo cáo tài chính của mình. Giờ đây, họ công bố theo hai nền tảng thay vì một: Data Center (Trung tâm dữ liệu) và Edge Computing (Điện toán biên). Trung tâm dữ liệu (khoảng 75 tỷ USD trong quý, tăng 92% so với cùng kỳ) được chia nhỏ thành Hyperscale (khoảng 38 tỷ USD, tăng 12% theo quý) và ACIE, tức AI Cloud, Industrial & Enterprise (khoảng 37 tỷ USD, tăng 31% theo quý).

Một mảng hoàn toàn mới là Edge Computing: 6,4 tỷ USD, tăng 29% so với cùng kỳ, bao phủ các thiết bị đầu cuối nơi agentic AI và physical AI thực sự hoạt động, như PC, máy trạm, trạm gốc AI-RAN, robot và ô tô.

Edge hiện vẫn chiếm chưa đến 8% tổng doanh thu, nhưng Nvidia đã nâng nó lên thành "nền tảng thứ hai" ngang hàng với trung tâm dữ liệu. Tín hiệu này cho thấy: inference đang chia thành hai mặt trận, cloud inference trong trung tâm dữ liệu (suy luận đám mây) và endpoint inference ở phía biên (suy luận điểm cuối), AI phải nhìn thấy, di chuyển và hành động trong thế giới vật lý.

Lộ trình phát triển cũng tuân theo cùng một logic: Vera Rubin, dự kiến xuất xưởng từ quý 3, có thông lượng suy luận cao gấp 35 lần Blackwell; Huang cũng đưa ra một TAM hoàn toàn mới trị giá 200 tỷ USD cho CPU Vera được thiết kế cho khối lượng công việc agentic. Mọi công ty mô hình tiên tiến đều dự kiến sẽ chuyển đổi hoàn toàn sang nó ngay từ ngày đầu tiên.

Khi công ty có vốn hóa thị trường lớn nhất thế giới tái cấu trúc báo cáo tài chính xoay quanh "token dịch vụ", cuộc chiến về nút thắt cổ chai đã ngã ngũ. Phần còn lại của bài viết này thảo luận về việc ai sẽ nắm bắt giá trị khi inference (chứ không phải training) trở thành nguồn lực khan hiếm.

Trước tiên, hãy làm rõ phạm vi. Trong hai mặt trận này, bài viết thảo luận về cloud inference, tức là các GPU trung tâm dữ liệu cho thuê cung cấp dịch vụ token API ra bên ngoài.

Endpoint inference chạy trên chip cục bộ bên trong chính thiết bị (Jetson, RTX, Drive, AI-RAN của Nvidia), hoàn toàn không đi qua lớp tổng hợp và cho thuê GPU bên dưới. Ở đây, hãy coi nó như một cơn gió thuận lợi giúp khuếch đại toàn bộ nền kinh tế inference và củng cố luận điểm về nút thắt cổ chai, chứ không phải là thị trường của Hyperbolic và Venice, vì hai công ty này hoàn toàn nằm trên tuyến cloud.

Sự siết chặt đã đến

Anthropic là con chim hoàng yến trong mỏ than. Mức sử dụng vượt xa công suất được cấu hình sẵn, những lời phàn nàn về việc Claude bị "cắt thùy não" tràn ngập khắp mạng, bao gồm các phản hồi bị giới hạn tốc độ, suy luận chậm hơn và cửa sổ ngữ cảnh bị nén lại.

Giải pháp là sức mạnh tính toán trần trụi: Vào tháng 5 năm 2026, Anthropic tiếp quản toàn bộ trung tâm dữ liệu Colossus 1 từ SpaceX, với hơn 220.000 GPU Nvidia và hơn 300 megawatt, và dành riêng nó cho inference, chứ không phải training.

Công suất này đã mở khóa một loạt các thay đổi về giới hạn, mỗi thay đổi đều là một tín hiệu.

Vào ngày 6 tháng 5, Anthropic đã tăng gấp đôi giới hạn năm giờ của Claude Code, loại bỏ giới hạn tốc độ trong giờ cao điểm và tăng đáng kể giới hạn tốc độ API của Opus. Vào ngày 13 tháng 5, họ lại tăng giới hạn hàng tuần của Claude Code thêm 50% (có hiệu lực đến ngày 13 tháng 7). Sau đó, kể từ ngày 15 tháng 6, họ đã làm điều ngược lại với "hào phóng": tách việc sử dụng agentic và lập trình (Agent SDK, chế độ không đầu claude -p, đường ống CI) khỏi gói đăng ký phẳng và đưa vào một pool credit được đo lường độc lập (20 đến 200 đô la Mỹ mỗi tháng, tính theo giá API).

Bước cuối cùng này cô đọng toàn bộ luận điểm vào một hành động: tốc độ tiêu thụ inference của agent vượt xa khả năng chịu tải của thiết kế đăng ký phẳng, do đó phải định giá dựa trên "chi phí định kỳ" vốn có của nó.

Huấn luyện là một khoản chi vốn một lần. Inference là một chi phí vận hành định kỳ, tích lũy lãi kép theo từng người dùng mới, từng agent mới.

Stack này: Sáu lớp, một điểm nghẽn

Mỗi ứng dụng AI đều nằm trên một chuỗi cung ứng bắt đầu từ nhà máy wafer của TSMC và kết thúc tại endpoint API:

Hầu hết các công ty chỉ sở hữu một lớp. Nvidia sở hữu silicon, CoreWeave sở hữu bare metal, Together AI sở hữu tối ưu hóa inference, OpenRouter sở hữu định tuyến model API.

Chỉ có một ngoại lệ.

Hyperbolic: Công ty duy nhất trải dài ba lớp

Hyperbolic ra mắt thị trường GPU theo yêu cầu vào tháng 6 năm 2025. Trong vài tháng đầu, số lượng nhà phát triển của nó đã vượt 200.000+, với phạm vi áp dụng bao gồm các phòng thí nghiệm AI tiên tiến, tìm kiếm và các nền tảng tiêu dùng lớn.

Điều thú vị là kiến trúc của nó.

Hyperbolic không sở hữu một GPU nào. Mỗi card đều đến từ neocloud và trung tâm dữ liệu, bao gồm CoreWeave, Lambda Labs, Nebius và các nhà vận hành nhỏ hơn có công suất dư thừa. Nghe có vẻ như điểm yếu, nhưng thực chất là hào phòng thủ.

Bằng cách ngồi giữa bên cung cấp và bên tiêu thụ GPU, Hyperbolic có thể thấy dữ liệu thời gian thực mà người khác không thấy. Nó biết ai đang mua GPU nào, với giá nào, vào thời điểm nào. Nó thấy tình trạng dư cung trước khi nó công khai, và thấy nhu cầu tăng vọt trước khi nó tác động đến thị trường.

Ngày nay, hào phòng thủ chính là sự tổng hợp multi-cloud này. Hyperbolic kết hợp công suất phân mảnh từ hàng chục đám mây và trung tâm dữ liệu độc lập thành một pool thống nhất chuẩn hóa, cho phép nhà phát triển thuê GPU rẻ nhất có sẵn ở bất kỳ đâu mà không cần đàm phán với từng nhà vận hành hay quản lý hàng loạt tài khoản.

Càng kết nối nhiều đám mây, tính thanh khoản càng sâu, dữ liệu định giá càng phong phú. Xa hơn nữa, nhóm đang khám phá cách sử dụng những dữ liệu này để mô hình hóa đường cong giá GPU, và cuối cùng đầu tư vốn tự có để làm phẳng cung-cầu, đóng vai trò nhà tạo lập thị trường cho sức mạnh tính toán vật lý; nhưng mục tiêu này vẫn còn ở giai đoạn đầu, thứ thực sự mang lại lợi ích kép hiện tại là lớp tổng hợp.

Đây chính là bánh đà:

1. Kết nối thêm nhiều đám mây → Nhiều nguồn cung được tổng hợp hơn

2. Nhiều nguồn cung hơn → Thị trường sâu hơn và dữ liệu định giá thời gian thực

3. Dữ liệu tốt hơn → Định tuyến thông minh hơn ngay lập tức, về lâu dài là mô hình định giá

4. Tính thanh khoản và giá cả tốt hơn → Nhiều nhà phát triển hơn → Nhiều đám mây muốn kết nối

Không có công ty nào khác đang thử điều này. Hyperbolic là công ty duy nhất cùng lúc hoạt động trên cả lớp cho thuê GPU, lớp triển khai và lớp API mô hình.

Tấm gương Venice

Venice là minh chứng rõ ràng nhất cho nền kinh tế inference ở lớp ứng dụng, đồng thời là một sự đối chiếu hữu ích với vị trí của Hyperbolic.

Đây là một ứng dụng inference ưu tiên quyền riêng tư: một bộ API tương thích với OpenAI, cùng với các gói đăng ký hướng đến người tiêu dùng (Free / Pro / Pro+ / Max), định tuyến các yêu cầu đến khoảng 75 mô hình, trong đó khoảng 2/3 là mã nguồn mở hoặc tự lưu trữ (Llama, Mistral, Qwen, DeepSeek), phần còn lại là truyền dẫn ẩn danh đến các mô hình tiên tiến đóng.

Điểm mấu chốt là Venice tự nó không sở hữu sức mạnh tính toán đáng kể. Nó thuê từ các đối tác GPU không công khai và các nhà cung cấp tính toán bảo mật (NEAR AI Cloud, Phala), và trả phí cho các phòng thí nghiệm tiên tiến để truyền dẫn, vì vậy chi phí doanh thu thực sự của nó là sức mạnh tính toán inference, chứ không phải lưu trữ SaaS.

Thứ Venice thực sự bán là quyền riêng tư. "Riêng tư hóa" ở đây không phải biến sức mạnh tính toán công cộng thành tài sản riêng, mà là bọc một lớp đảm bảo lên inference đã được hàng hóa hóa: không lưu trữ dữ liệu, không dùng để huấn luyện, yêu cầu được ẩn danh, một phần tải được chạy trong TEE, khiến ngay cả nhà vận hành cũng không thể thấy văn bản rõ.

Sức mạnh tính toán cơ bản là hàng hóa phổ thông, giá trị gia tăng được bán chính là lớp bọc quyền riêng tư này. Và lớp đảm bảo này được phân tầng, không đồng nhất: đối với các mô hình mã nguồn mở chạy trên GPU do mình kiểm soát hoặc trong TEE, có thể đạt được tính toán bảo mật gần như đầu cuối; nhưng đối với truyền dẫn ẩn danh của các mô hình đóng như Claude, GPT, quyền riêng tư chỉ là tách biệt danh tính, phía phòng thí nghiệm tiên tiến vẫn xử lý prompt gốc của bạn. Vì vậy, quyền riêng tư mạnh nhất chỉ bao phủ phần mã nguồn mở, phần mô hình tiên tiến là "ẩn danh" chứ không phải "thực sự bảo mật".

Lợi nhuận của Venice = Giá đăng ký − Chi phí suy luận (inference) trả cho bên hạ nguồn, và phần chênh lệch mà nó có thể thu thêm so với giá API trần gần như hoàn toàn dựa vào lớp bảo mật (privacy premium) này. Đây cũng là lý do tại sao nó có biên lợi nhuận mỏng và bị phụ thuộc vào giá truyền tải tiên tiến (frontier pass-through pricing).

Thiết kế token đã đóng gói phần nhu cầu suy luận này. Venice hoạt động trên hai token: VVV (stake và truy cập nền tảng) và DIEM, một loại tín dụng suy luận (inference credit), mỗi DIEM tương đương khoảng 1 đô la sức mạnh tính toán mỗi ngày.

Đăng ký trả phí sẽ kích hoạt chương trình mua lại và đốt (buyback & burn) VVV theo lịch trình (Pro / Pro+ / Max lần lượt khoảng 2 / 5 / 10 đô la), trong khi lượng phát hành giảm dần theo một lịch trình cố định: 6M → 5M → 4M VVV mỗi tháng, và sẽ giảm xuống còn 3M vào ngày 1 tháng 7.

Việc mua lại là có thật, nhưng thuộc diện tùy ý và vẫn còn nhỏ: Tháng 4 và tháng 5 mỗi tháng đốt khoảng 103.000 đô la, tháng 6 đang dần tiến tới khoảng 110.000 đô la, thấp hơn nhiều so với mức 200.000 đô la mỗi tháng.

Các chỉ số cơ bản lành mạnh hơn tiêu đề. Con số "70 triệu đô la ARR" được lan truyền công khai gần như chắc chắn là kết quả của việc nhầm lẫn gia hạn đăng ký với khách hàng mới ròng; phạm vi quan sát có thể bảo vệ được gần hơn với mức ARR từ 6 triệu đến 15 triệu đô la.

Bên dưới điều này, traction là có thật: khoảng 136.000 địa chỉ nắm giữ token, khoảng 9,9 triệu lượt truy cập trang web mỗi tháng (khoảng 330.000 lượt mỗi ngày), và số lượng đăng ký Pro mới dao động quanh mức khoảng 1.400 mỗi ngày. Đây là một doanh nghiệp thực sự, nhưng là một doanh nghiệp có biên lợi nhuận mỏng, với nền kinh tế bị chi phối bởi sức mạnh tính toán mà nó mua.

Đây chính xác là lý do tại sao Hyperbolic nằm ở lớp trên nó. Nếu Venice là trạm xăng, thì Hyperbolic là nhà máy lọc dầu. Venice mua sức mạnh tính toán từ cùng một nguồn cung hạn chế mà mọi người đều phụ thuộc; Hyperbolic tổng hợp và tiêu chuẩn hóa phần nguồn cung phân mảnh đó, sau đó bán lại cho Venice và tất cả những người chơi tương tự.

Khi nhu cầu suy luận tăng lên, giá trị không chỉ tích lũy cho các ứng dụng tiêu thụ sức mạnh tính toán, mà còn tích lũy cho lớp tổng hợp và định tuyến sức mạnh tính toán, đồng thời thu được chi phí doanh thu (cost of revenue) mà các ứng dụng này phải trả.

Tại sao điều này lại quan trọng ngay bây giờ

Nvidia đã tái cấu trúc tài chính xoay quanh "token dịch vụ". Đợt IPO của Cerebras chứng minh thị trường đã hiểu rằng inference là điểm nghẽn. Anthropic chạy đua tìm kiếm năng lực sản xuất, cho thấy đây là một vấn đề thực sự. AI tác nhân và AI vật lý sẽ khuếch đại nhu cầu lên nhiều bậc, trải dài trên cả hai tuyến đám mây và thiết bị biên.

Và nó cũng khép lại vòng tròn của "vấn đề 600 tỷ đô la" từ phía bên kia. Luận điểm bearish của Cahn, tức là xây dựng quá mức, sau đó dư thừa, cuối cùng rất có thể sẽ được xác thực.

Nhưng dư thừa chính xác là điều kiện tối ưu cho các bên tổng hợp tài sản nhẹ: khi giá GPU giảm xuống, nguồn cung phân mảnh rải rác trên hàng chục đám mây, người chơi không sở hữu bất kỳ phần cứng nào, định tuyến từng khối lượng công việc đến thẻ rẻ nhất có sẵn sẽ kiếm được chênh lệch giá, trong khi các nhà vận hành sở hữu GPU liên tục khấu hao sẽ chịu tổn thất. Hyperbolic đang long sự dư thừa, chứ không phải short nó.

Công ty chiến thắng cuối cùng sẽ không phải là công ty sở hữu nhiều GPU nhất, mà là công ty có thể cho bạn biết GPU nào ở đâu, với giá bao nhiêu, và định tuyến từng khối lượng công việc đến nơi có thể vận hành với chi phí thấp nhất.

Hyperbolic đang xây dựng một công ty như vậy. Không tự sở hữu GPU, hoàn toàn là phần mềm, ba lớp chiều sâu, nhưng lại trở thành lớp tổng hợp sức mạnh tính toán tối thượng cho inference.