황인훈은 어제 GTC 2026에서 Vera Rubin 플랫폼을 발표했으며, 단위 전력 소비에서 Blackwell을 10배 향상시키고 추론 토큰 비용을 1/10 수준으로 낮추었다고 주장했습니다. 그리고 Blackwell과 Vera Rubin의 합병 주문이 2027년 전에 1조 달러를 돌파할 것을 예고했습니다.
지난 두 년간 GPT-4 수준 API의 추론 비용이 94% 하락하여 백만 토큰 당 36달러에서 2달러 미만으로 떨어졌습니다. 직관적으로는 계산 성능이 싸졌으므로 기업들이 적은 돈을 써야할 것으로 생각됩니다. 그러나 Amazon, Alphabet, Meta, Microsoft의 4개 클라우드 업체의 자본 지출은 1,540억 달러에서 4,160억 달러로 거의 3배 증가했습니다.
황인훈의 조언은 단순한 마케팅 구호가 아니며, 그 뒤에는 데이터로 나타낼 수 있는 한 가지 선이 있습니다.
2022년의 H100에서 2026년 하반기에 양산이 예정된 Vera Rubin까지, NVIDIA AI GPU의 FP8 집중 추론 성능은 4년 사이에 8배 증가했습니다. NVIDIA 공식 사양에 따르면, H100은 1장당 2.0 페타플롭이고, B200은 4.0 PF에 이르며, Vera Rubin은 직접 16 PF로 뛰어넘었습니다.

하지만 모든 세대 간의 이 증가는 동일한 곳에서 나온 것은 아닙니다. wccftech의 보고에 따르면, H200의 연산 코어는 H100과 완전히 동일하며, FP8 성능은 변하지 않았는데, 그 업그레이드는 전체적으로 메모리 대역폭(3.35 TB/s에서 4.8 TB/s로 증가)에서 나왔으며, 추론 처리량을 약 45% 향상시켰습니다.
진정한 아키텍처 교체는 B200과 Vera Rubin에서 발생했습니다. Vera Rubin은 TSMC 3nm 공정을 사용하며, 336B 트랜지스터의 더블 칩릿 디자인을 채택했으며, FP4 정확도에서 50 PF의 추론 성능을 달성했습니다. Tom's Hardware에 따르면, 첫 번째 Vera Rubin 시스템이 이미 Microsoft Azure에서 실행 중이라고 합니다.
여기서 간과하기 쉬운 차이점이 있습니다. GTC에서 황인훈이 말한 "10배"는 원시적인 계산 성능의 배수가 아니라 추론 토큰 비용의 감소를 가리킵니다. 토큰 비용에는 Transformer Engine 최적화, FP4 정확도, 보다 큰 배치의 추론 등 시스템 수준 요소가 포함됩니다. 표준화된 FP8 집중 TFLOPS로 보면, Vera Rubin은 Blackwell에 비해 4배이며, H100에 비해 8배입니다.
Dốc đầu dòng của đường cong này chưa bao giờ chậm lại. Mỗi thế hệ GPU đều làm cho thế hệ trước trở nên không đủ, và đó chính là điểm xuất phát của câu chuyện tiếp theo.
Vào tháng 3 năm 2023, khi GPT-4 vừa được ra mắt, chi phí gọi API là khoảng 36 đô la Mỹ cho mỗi triệu Token. Theo lịch sử giá cước chính thức của OpenAI, đến giữa năm 2024 khi GPT-4o được tung ra, giảm xuống khoảng 7 đô la Mỹ, và vào cuối năm 2025, giá thực tế đã thấp hơn 2 đô la Mỹ. Trong hai năm, giảm giá này vượt quá 94%.
Theo lý thuyết, khi chi phí tính toán giảm đến vậy, các doanh nghiệp nên chi tiêu ít hơn. Nhưng thực tế lại hoàn toàn ngược lại. Theo báo cáo tài chính của các công ty và dữ liệu theo dõi của Platformonomics, tổng chi phí vốn hàng năm của bốn nhà cung cấp đám mây Amazon, Alphabet, Meta, Microsoft tăng từ 1540 tỷ đô la Mỹ vào năm 2023 lên 4160 tỷ đô la Mỹ vào năm 2025, tăng 170%. Trong đó, riêng Google từ 320 tỷ đô la tăng lên 915 tỷ đô la (gần 2,9 lần), và tăng trưởng của Microsoft còn lớn hơn.

Hiện tượng này có tên trong kinh tế học, được gọi là Điều Ngược Lý Jevons. Năm 1865, nhà kinh tế học người Anh William Jevons phát hiện rằng việc cải tiến độ hiệu quả sử dụng của máy hơi Watt đã khiến lượng than đá tiêu dùng tăng mạnh, mặc dù không giảm. Lý do rất đơn giản, việc tăng hiệu quả đã làm cho máy hơi trở nên rẻ hơn, do đó nhiều ngành công nghiệp hơn bắt đầu sử dụng máy hơi, nhu cầu tổng cộng đã tăng vượt xa phần tiết kiệm được bởi hiệu quả.
Hôm nay, trường hợp suy luận trí tuệ nhân tạo hoàn toàn giống nhau. Giá cước API giảm xuống chỉ còn 6% so với trước, nhưng doanh nghiệp không tiết kiệm ngân sách mà bắt đầu áp dụng trí tuệ nhân tạo vào các tình huống trước đây không hiệu quả về chi phí. Dịch vụ khách hàng, kiểm tra mã nguồn, tạo nội dung, sắp xếp lại tìm kiếm, đấu giá quảng cáo, mỗi tình huống mới đều tiêu thụ nhiều sức mạnh tính toán hơn. Tốc độ mở rộng của nhu cầu vượt xa tốc độ giảm chi phí. DeepSeek R1 đã làm giảm giá trị đầu vào xuống còn 0.55 đô la Mỹ cho mỗi triệu Token vào đầu năm 2025, gia tăng thêm vòng quay của chuỗi suy luận này. Hai đường thẳng đối phản trên biểu độ này, là hai mặt của cùng một sự việc.
Nếu Điều Ngược Lý Jevons có một người hưởng lợi trực tiếp nhất, đó chính là những người bán xẻng.
Theo báo cáo tài chính của NVIDIA, doanh thu năm của mảng Trung tâm Dữ liệu tăng từ 106 tỷ USD trong FY2022 (kết thúc vào tháng 1 năm 2022) lên 1152 tỷ USD trong FY2025 (kết thúc vào tháng 1 năm 2025). Tăng 10.9 lần trong ba năm. Đây là một đường cong tăng trưởng hiếm có trong lịch sử công nghệ. Trong khi đó, để so sánh, iPhone sau khi ra mắt vào năm 2007, Apple mất khoảng 6 năm để đạt được quy mô doanh thu tương tự.

Sau đó, Huang Renxun nói tại GTC 2026: "Đến năm 2027, tôi thấy đơn hàng có thể nhìn thấy ít nhất 1 nghìn tỷ USD. Thực tế, khả năng sản xuất của chúng tôi sẽ không đủ. Tôi tin rằng nhu cầu tính toán sẽ vượt xa con số này."
Trong GTC năm ngoái, dự báo mà ông đưa ra thông qua đơn hàng có thể nhìn thấy cho đến năm 2026 là khoảng 500 tỷ USD. Một năm sau, con số tăng gấp đôi, nhưng cửa sổ thời gian chỉ được gia tăng thêm một năm. Dự báo doanh thu cho FY2026-FY2027 của các nhà phân tích dao động trong khoảng từ 1600-2200 tỷ USD và từ 2500-4000 tỷ USD. Tuy nhiên, Huang Renxun nói rằng con số này không phải là giới hạn cao nhất, "nhu cầu tính toán sẽ vượt xa con số này". Ngay sau khi GTC kết thúc, giá cổ phiếu NVIDIA tăng 4.3%. Thị trường rõ ràng đã chọn tin tưởng ông.
Mỗi thế hệ GPU đều làm thế hệ trước trở nên đáng thương, mỗi chu kỳ giảm giá làm cho vốn đầu tư của chu kỳ tiếp theo trở nên dễ chấp nhận. NVIDIA đang đứng ở vị trí ngọt ngào nhất của nghịch lý này.
Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:
Nhóm Telegram đăng ký: https://t.me/theblockbeats
Nhóm Telegram thảo luận: https://t.me/BlockBeats_App
Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia