TL;DR
· Biểu đồ phân tích chi phí đăng ký Claude 20 đô la, phân bổ phí AI hàng tháng cho các công ty mô hình, điện toán đám mây, GPU, điện năng và chuỗi cung ứng.
· Đăng ký AI có chi phí suy luận liên tục, không thể áp dụng trực tiếp giả định biên lợi nhuận cao của SaaS truyền thống.
· Các tài sản liên quan: OpenAI, Anthropic, Microsoft, Amazon, Google, NVIDIA (NVDA), TSMC, SK Hynix, Samsung, Micron, trung tâm dữ liệu và chuỗi điện năng.
Một biểu đồ ước tính phân bổ khoản thanh toán hàng tháng khoảng 20 đô la của Claude Pro tại Mỹ cho các công ty mô hình, điện toán đám mây, khấu hao GPU, điện năng và chuỗi cung ứng đang khiến các nhà đầu tư thảo luận lại về cách định giá doanh thu ứng dụng AI.

Biểu đồ này không phải là dữ liệu phân chia chính thức từ Anthropic, AWS hay NVIDIA, cũng không thể coi là sổ sách thực tế của bất kỳ công ty nào. Giá trị của nó nằm ở việc đặt ra một câu hỏi cốt lõi hơn: Bao nhiêu phần trăm phí đăng ký mà người dùng trả cho ứng dụng AI có thể tích lũy thành lợi nhuận phần mềm giống như SaaS truyền thống?
Hình dung định giá của SaaS truyền thống rất rõ ràng. Sau khi phần mềm được viết xong, việc bán thêm một tài khoản thường không tốn nhiều chi phí gia tăng, biên lợi nhuận gộp của các công ty phần mềm thuần túy trưởng thành thường đạt 70% hoặc thậm chí trên 80%. Nhà đầu tư sẵn sàng đưa ra bội số cao vì khi quy mô doanh thu mở rộng, tỷ suất lợi nhuận có cơ hội tiếp tục tăng.
Rắc rối của ứng dụng AI nằm ở chỗ, mỗi lần người dùng đặt câu hỏi, viết mã, phân tích tệp hoặc gọi agent, đều tiêu tốn thời gian GPU, điện năng, băng thông bộ nhớ và tài nguyên đám mây. Bề ngoài là phí cố định hàng tháng, nhưng bên dưới là một chuỗi chi phí thay đổi theo mức sử dụng. Người dùng nhẹ có thể có biên lợi nhuận cao, trong khi người dùng nặng chạy các tác vụ liên tục trong hạn mức khả dụng hoặc gói công cụ liên quan, chi phí có thể tăng nhanh.
Vì vậy, biểu đồ phân tích 20 đô la không thách thức việc một công ty cụ thể lấy bao nhiêu đô la, mà là "liệu doanh thu ứng dụng AI có tự nhiên tương đương với doanh thu SaaS hay không". Các công ty AI phải chứng minh rằng họ xứng đáng với bội số cao, không chỉ bằng cách chứng minh người dùng sẵn sàng trả tiền, mà còn phải chứng minh rằng biên lợi nhuận gộp có trọng số theo mức sử dụng có thể cải thiện bền vững.
Sự khác biệt lớn nhất giữa đăng ký AI và đăng ký phần mềm thông thường là chi phí biên của "một lần sử dụng" không còn gần bằng không.
Trong SaaS truyền thống, khi một nhóm mở thêm một tài khoản, nhà cung cấp dịch vụ cũng có chi phí máy chủ, hỗ trợ khách hàng và băng thông, nhưng những chi phí này thường không tăng tuyến tính theo mỗi lần nhấp chuột. Thứ thực sự đắt đỏ là nghiên cứu và phát triển ban đầu, bán hàng và thu hút khách hàng. Sau khi sản phẩm mở rộng quy mô, một phần đáng kể doanh thu mới có thể được giữ lại.
Các mô hình lớn khác nhau. Người dùng nhập câu hỏi, mô hình tạo ra câu trả lời, quá trình này được gọi là suy luận, tức là tính toán thực tế khi mô hình được người dùng gọi. Token là đơn vị đo lường cơ bản để mô hình đọc và viết văn bản. Người dùng hỏi càng nhiều, ngữ cảnh càng dài, nội dung tạo ra càng phức tạp, thì token và sức mạnh tính toán tiêu hao càng lớn.
Điều này tạo ra mâu thuẫn giữa đăng ký cố định và chi phí biến đổi. Mức phí hàng tháng của Claude Pro tại Mỹ là khoảng 20 USD, giá có thể bị ảnh hưởng bởi khu vực, thuế và điều chỉnh của Anthropic. Người dùng thấy mức giá cố định, nhưng các công ty mô hình lại đối mặt với hành vi sử dụng rất khác nhau. Có người chỉ viết email và tra cứu tài liệu, có người xử lý tài liệu dài, chạy tác vụ code hoặc gọi các quy trình tự động hóa phức tạp hơn.
Biểu đồ phân tách lan truyền trên thị trường cố gắng cụ thể hóa điều này: Trong 20 USD, một phần dành cho công ty mô hình, một phần trả cho nhà cung cấp đám mây và sức mạnh tính toán. Chi phí sức mạnh tính toán bao gồm điện năng, vận hành, khấu hao GPU. Việc mua GPU tiếp tục chảy ngược lên NVIDIA, TSMC, nhà cung cấp HBM (Bộ nhớ băng thông cao), mô-đun quang, ODM và các doanh nghiệp liên quan đến điện năng.

Ở đây, "khấu hao GPU" có thể hiểu là GPU đắt tiền không được tính hết chi phí một lần, mà được phân bổ dần vào dịch vụ AI theo thời gian sử dụng, cường độ sử dụng hoặc tiêu chuẩn kế toán. Phân bổ thực tế bị ảnh hưởng bởi giới hạn gói, tỷ lệ người dùng nặng/nhẹ, giá nội bộ của nhà cung cấp đám mây, chiết khấu sức mạnh tính toán dự trữ, tỷ lệ sử dụng GPU và thời gian khấu hao. Chi phí trung bình cũng không bằng chi phí biên.
Điều mà nhà đầu tư thực sự cần theo dõi là hướng đi: Các công ty ứng dụng AI không chỉ phải tiết lộ tăng trưởng doanh thu, mà còn phải trả lời liệu chi phí sức mạnh tính toán đằng sau tăng trưởng doanh thu có tăng đồng bộ hay không. Nếu khối lượng sử dụng mở rộng nhanh hơn hiệu quả mô hình, doanh thu đăng ký càng cao, áp lực lợi nhuận gộp càng rõ rệt. Chỉ khi hiệu quả cải thiện đủ nhanh, các công ty mô hình mới có cơ hội tiếp cận lại cấu trúc lợi nhuận của các công ty phần mềm.
Ở giai đoạn hiện tại, tăng trưởng khối lượng sử dụng AI chảy trực tiếp hơn vào cơ sở hạ tầng, thay vì lắng đọng hoàn toàn ở lớp ứng dụng.
Dù người dùng sử dụng mô hình trên Claude, ChatGPT, Gemini hay agent nội bộ doanh nghiệp, suy luận cuối cùng đều phải dựa vào sức mạnh tính toán, điện năng, bộ nhớ và mạng. Lớp ứng dụng có thể xuất hiện thay thế sản phẩm, nhưng tiêu thụ tài nguyên cơ bản cứng nhắc hơn. Chỉ cần khối lượng sử dụng AI tiếp tục tăng, chi tiêu vốn đám mây, mua GPU, nhu cầu HBM và điện năng trung tâm dữ liệu sẽ được kéo theo.
Đây cũng là lý do tại sao chuỗi cơ sở hạ tầng như NVIDIA, TSMC, SK Hynix liên tục được thị trường định giá lại. Biên lợi nhuận gộp tổng thể của NVIDIA trong những năm gần đây ở mức cao, biên lợi nhuận gộp GAAP và Non-GAAP cho năm tài chính FY2026 lần lượt khoảng 71,1% và 71,3%, hướng dẫn các quý tiếp theo cũng duy trì ở mức cao. Cần lưu ý, các quý riêng lẻ có thể bị ảnh hưởng bởi các khoản phí cụ thể, báo cáo tài chính công khai không phải lúc nào cũng có thể tách trực tiếp cấu trúc lợi nhuận gộp thực tế của trung tâm dữ liệu AI, nhưng thực tế rằng cơ sở hạ tầng khan hiếm có quyền định giá đã được phản ánh trong kết quả kinh doanh.
HBM là mắt xích điển hình nhất trong chuỗi này. Nó không phải là bộ nhớ thông thường, mà là thành phần then chốt hỗ trợ tính toán thông lượng cao trong các bộ tăng tốc AI. Khi quy mô mô hình, độ dài ngữ cảnh và nhu cầu suy luận đồng thời tăng lên, chip AI càng phụ thuộc nhiều hơn vào bộ nhớ băng thông cao. Ước tính từ chuỗi cung ứng cho thấy, tỷ trọng chi phí của HBM trong các chip AI thế hệ mới đang tăng lên, đây cũng là lý do quan trọng khiến SK Hynix, Samsung và Micron được định giá lại trong chu kỳ AI.
Điện năng và trung tâm dữ liệu cũng chuyển từ chi phí nền thành chủ đề đầu tư chính. Mức tiêu thụ năng lượng của một truy vấn văn bản thông thường có thể không quá lớn, nhưng các tác nhân phức tạp, ngữ cảnh dài, sinh mã và tác vụ đa vòng sẽ khuếch đại khối lượng tính toán. Đối với các nhà cung cấp dịch vụ đám mây và vận hành trung tâm dữ liệu, vấn đề không phải là một truy vấn cụ thể tiêu thụ bao nhiêu điện, mà là khi có lượng lớn yêu cầu suy luận liên tục, tỷ lệ sử dụng cụm, giá điện, làm mát, dung lượng phòng máy và khả năng kết nối lưới điện đều trở thành chi phí và nút thắt cổ chai.
Lợi thế của phía cơ sở hạ tầng nằm ở việc xác minh hiệu suất nhanh hơn. Chi tiêu vốn AI của các nhà cung cấp dịch vụ đám mây đã diễn ra, doanh thu và lợi nhuận của NVIDIA được phản ánh trong báo cáo tài chính, đơn đặt hàng và giá cả của các nhà sản xuất HBM cũng sẽ nhanh chóng đi vào báo cáo lợi nhuận. Giao dịch ở lớp ứng dụng mô hình chủ yếu dựa trên kỳ vọng tương lai: chuyển đổi đăng ký, tỷ lệ thâm nhập doanh nghiệp, doanh thu API và giải phóng lợi nhuận sau khi đường cong chi phí giảm xuống.

Các nhà đầu tư phần mềm và phe đầu cơ giá lên AI không phải không có lý lẽ phản bác. Quan điểm cốt lõi của phe hiệu quả là, chi phí suy luận cao ngày nay chỉ là hiện tượng giai đoạn đầu, tối ưu hóa mô hình, bộ nhớ đệm, mô hình nhỏ, chip tự phát triển và tỷ lệ sử dụng cụm cao hơn sẽ liên tục kéo giảm chi phí đơn vị. Miễn là chi phí giảm đủ nhanh, các ứng dụng AI vẫn có thể quay trở lại logic phần mềm có biên lợi nhuận cao.
Lý lẽ phản bác này có cơ sở thực tế. Một số mô hình chính thống, với năng lực tương đương hoặc cao hơn, đã giảm giá đơn vị rõ rệt. OpenAI từng tiết lộ rằng, chi phí mỗi token của GPT-4o mini đã giảm 99% so với text-davinci-003 thời kỳ đầu. Nhịp độ của các công ty khác nhau không hoàn toàn giống nhau, Anthropic gần đây thể hiện nhiều hơn ở việc nâng cấp cùng giá và phân tầng mô hình, nhưng hướng đi của ngành vẫn là cung cấp năng lực mạnh hơn với chi phí thấp hơn.

Các công ty mô hình cũng có nhiều cách để cải thiện tính kinh tế đơn vị. Giao tác đơn giản giao cho mô hình nhỏ, yêu cầu phổ biến tái sử dụng qua bộ nhớ đệm, ngữ cảnh dài và tác vụ phức tạp giao cho mô hình mạnh hơn. Các nhà cung cấp dịch vụ đám mây giảm chi phí tính toán đơn vị thông qua chip tự phát triển và điều phối cụm. Google có TPU, Microsoft ra mắt Maia dùng cho suy luận, Amazon cũng đang thúc đẩy Trainium và Inferentia.

Nếu chỉ nhìn vào tiến bộ công nghệ, tỷ suất lợi nhuận của các ứng dụng AI thực sự có dư địa cải thiện. Suy luận rẻ hơn, định tuyến mô hình tốt hơn và khả năng nén mạnh hơn đều có thể giúp cùng một gói đăng ký 20 đô la phục vụ nhiều khối lượng sử dụng hơn. Người dùng nhẹ, gói doanh nghiệp giá cao, định giá phân tầng API và giới hạn sử dụng chặt chẽ hơn cũng có thể cải thiện kinh tế đơn vị tổng thể.
Khó khăn nằm ở chỗ, giảm chi phí không phải là biến số duy nhất. Các ứng dụng AI đang chuyển từ trò chuyện đơn giản sang khối lượng công việc nặng hơn. Trước đây, người dùng có thể chỉ hỏi đáp và chỉnh sửa văn bản, nhưng hiện nay ngày càng nhiều nhu cầu đến từ các agent mã nguồn, xử lý tài liệu dài, tạo video và đa phương thức, quy trình tự động hóa doanh nghiệp. Những kịch bản này có giá trị cao hơn và mức tiêu thụ cũng cao hơn. Mô hình càng hữu ích, người dùng càng có xu hướng giao cho nó những nhiệm vụ phức tạp và kéo dài hơn.
Sự khác biệt do đó trở nên cụ thể hơn: tốc độ giảm chi phí suy luận có vượt qua được tốc độ tăng trưởng của khối lượng sử dụng và độ phức tạp của nhiệm vụ hay không. Nếu chi phí đơn vị giảm nhanh, nhưng mức tiêu thụ trung bình của người dùng tăng nhanh hơn, tỷ suất lợi nhuận gộp có trọng số của các công ty mô hình vẫn sẽ chịu áp lực. Ngược lại, nếu định tuyến mô hình, bộ nhớ đệm, chip tự phát triển và phân tầng giá đủ hiệu quả, các gói đăng ký AI có thể dần thoát khỏi đặc điểm chi phí nặng nề hiện tại.
Biểu đồ phân tích 20 đô la không nên được hiểu là kết cục cuối cùng. Nó giống như một lời nhắc nhở về định giá ở giai đoạn hiện tại hơn: khi thị trường chưa thấy đủ dữ liệu minh bạch về tỷ suất lợi nhuận gộp của các công ty mô hình, nhà đầu tư cần giảm giá cho giả định "ứng dụng AI tự nhiên bằng SaaS".
Đối với các công ty mô hình chưa niêm yết như OpenAI, Anthropic, nhà đầu tư bên ngoài khó có thể nhìn thấy toàn bộ sổ sách. Tài liệu huy động vốn, tiết lộ từ đối tác, cấu trúc chi phí đám mây, giá gói doanh nghiệp, tỷ trọng doanh thu API và giới hạn sử dụng đều sẽ trở thành manh mối đánh giá. Dữ liệu thực sự có giá trị không phải là có bao nhiêu người dùng trả phí, mà là tỷ lệ người dùng nhẹ và người dùng nặng, liệu khách hàng doanh nghiệp có sẵn sàng trả giá cao hơn cho cường độ sử dụng cao, chi phí thanh toán đám mây có giảm hay không, và liệu chi phí suy luận đơn vị có đi vào tỷ suất lợi nhuận gộp của công ty hay không.
Việc xác minh chuỗi công ty niêm yết sẽ xuất hiện nhanh hơn trong các báo cáo tài chính. Tỷ suất lợi nhuận gộp tổng thể của NVIDIA và tốc độ tăng trưởng doanh thu trung tâm dữ liệu, nhu cầu quy trình tiên tiến và đóng gói của TSMC, giá và tỷ suất lợi nhuận của các nhà sản xuất HBM, cường độ chi tiêu vốn của các nhà cung cấp đám mây, tất cả sẽ tiếp tục phản ánh liệu khối lượng sử dụng AI có đang tiếp tục truyền đến tầng cơ sở hạ tầng hay không. Nếu các chỉ số này vẫn mạnh mẽ, trong khi tầng ứng dụng mô hình thiếu bằng chứng cải thiện tỷ suất lợi nhuận gộp, thị trường sẽ tiếp tục dành mức định giá ưu đãi chắc chắn hơn cho cơ sở hạ tầng.
Cuối cùng, để giành lại mức định giá cao hơn, các công ty mô hình cần chứng minh không chỉ rằng người dùng sẵn sàng trả 20 đô la, mà còn rằng các khoản phí đăng ký này, sau khi sử dụng nặng, vẫn có thể để lại đủ lợi nhuận gộp. Vòng tranh luận về định giá tiếp theo có thể không nằm ở con số headline của ARR, mà ở việc liệu chi phí suy luận, giới hạn gói và giá thanh toán doanh nghiệp có thể cùng hoạt động thông suốt hay không.
Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:
Nhóm Telegram đăng ký: https://t.me/theblockbeats
Nhóm Telegram thảo luận: https://t.me/BlockBeats_App
Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia