作者 | 林晚晚
1876 年,Phiên hội Thế giới Philadelphia. Đương thần Pedro II của Bra-xin cầm lấy chiếc điện thoại do Bell phát minh, nghe thấy giọng nói từ đầu kia truyền tới, kinh ngạc thanh: "Trời ơi, nó có thể nói chuyện!"
Hai trăm năm sau, ngày 18 tháng 3 năm 2026, Trung tâm Hội nghị San Jose. Người đàn ông mặc áo khoác da màu đen Hwang In-hyuk đứng trên sân khấu của Hội nghị GTC, cũng nói một câu khiến người khác ngạc nhiên.
"Sau mười năm, NVIDIA sẽ có khoảng 7.5 vạn nhân viên. Họ sẽ rất rất bận rộn, vì phải làm việc cùng với 750 vạn AI agent."
Ở dưới sân khấu, mọi người cười.
7.5 vạn người, 750 vạn agent, tỷ lệ 1:100.
Chính Hwang In-hyuk cũng cười, sau đó bổ sung: "Chúng sẽ làm việc suốt ngày đêm. Hy vọng mọi người của chúng ta không cần phải so sánh với chúng."
Tiếng vỗ tay dần lặng, con số này đã bị chìm trong việc tung ra các vi mạch phức tạp hơn và các thỏa thuận hợp tác trong ngày hôm đó. Nhưng nếu chúng ta nhìn con số này đứng riêng một chút, nó có thể là một trong những câu nói quan trọng nhất của toàn bộ hội nghị.
Không chỉ có Hwang In-hyuk. Ba tháng trước, một cá nhân khác đã mô tả tương lai giống như vậy.
Tháng 1 năm 2026, CES Las Vegas. CEO của McKinsey Bob Sternfels ngồi trên sân khấu báo cáo con số.
"Hiện nay chúng tôi có 4 vạn nhân viên con người, khoảng 2.5 vạn agent AI." Chưa đến hai năm trước, con số này chỉ là vài ngàn. 2.5 vạn agent đó đã tạo ra 250 vạn biểu đồ trong nửa năm qua.
250 vạn biểu đồ. Việc làm này trước đây do các nhân viên mới vào nghề của McKinsey thục hiện. Hai mươi ba bốn tuổi, đeo bám vương miện từ các trường đại học hàng đầu trên thế giới, ngồi cân chỉnh hệ tọa độ lúc ba giờ sáng.
Đó là điểm xuất phát của mỗi gà mới tại McKinsey, trao đổi điều chỉnh một tấm vé tới vị trí đối tác thông qua lao động cơ khí nhất.
Ngày nay phần đầu của tấm vé đã được agent tiếp quản. Sternfels nói: AI đã khiến một số vị trí làm việc tăng 25%, cũng khiến một số vị trí khác giảm 25%. Công ty đã bị chia đều thành hai nửa, một nữa mở rộng và một nữa thu hẹp.
Câu chuyện của NVIDIA và câu chuyện của McKinsey nói về cùng một điều.
Ở thế giới tỷ lệ 1:100, người làm việc là agent được đào tạo bằng Token, con người là giao diện kết nối vào agent.
Trong tuần GTC, Huang Renxun tham gia Podcast All-In và nói một câu nói có sức tác động lớn hơn.
「Giả sử bạn có một kỹ sư có mức lương hàng năm là 500 nghìn đô la. Nếu anh ta không tiêu tốn ít nhất 250 nghìn đô la Token, tôi sẽ rất lo lắng.」
Người dẫn chương trình hỏi xem NVIDIA có đang chi 2 tỷ đô la để mua Token cho đội ngũ kỹ sư, Huang Renxun trả lời:「Chúng tôi đang cố gắng.」
Một kỹ sư không đốt Token, 500 nghìn đô cũng không đáng 500 nghìn đô.

Phương án của NVIDIA rất trực tiếp, đưa Token vào gói lương. Huang Renxun nói tại bài phát biểu chủ đề GTC, trong tương lai, mỗi kỹ sư của NVIDIA sẽ có một ngân sách Token hàng năm, tương đương khoảng một nửa lương cơ bản.
Một kỹ sư có lương cơ bản hàng chục nghìn đô, được cung cấp một phần cấp sức mạnh suy luận tương đương một nửa lương cơ bản, một phần ba tổng gói là nhiên liệu tinh khiết.
Một người nhận ngân sách Token đầy đủ, tương đương với việc có từ mười đến mười hai AI agent giúp anh ta viết mã, chạy thử nghiệm, tìm kiếm tài liệu và mô phỏng. Một người chỉ có cấp quyền API phiên bản miễn phí vẫn phải dùng tay để gõ phím. Hai người có thể có lý lịch giống nhau, nhưng sản phẩm của họ chênh lệch từ 5 đến 10 lần.
Điều này đã không còn là lý thuyết ở Silicon Valley.
Tháng 3 năm nay, Business Insider đã đưa tin về một sự thay đổi: Khi phỏng vấn kỹ sư, họ bắt đầu hỏi「Vị trí này được cấp bao nhiêu ngân sách Token?」. Đối tác của Theory Ventures, Tomasz Tunguz, gọi ngân sách Token là「cột thứ tư」 của lương kỹ sư, xếp sau lương cơ bản, thưởng và cổ phần. Tuyên bố của Tổng giám đốc OpenAI, Greg Brockman, càng thẳng thắn hơn: Khả năng sử dụng sức mạnh suy luận càng ngày càng quyết định năng suất tổng thể của bạn.
Huang Renxun cũng nói về điều này trong bài phát biểu GTC của mình:「Số lượng Token đi theo vị trí của tôi? Đây đã trở thành một công cụ tuyển dụng ở Silicon Valley.」
Năm 1950, mức lương của công nhân ô tô Detroit nằm ở hàng đầu cả nước Mỹ. Điều thực sự giúp họ sống cuộc sống trung lưu là dây chuyền lắp ráp mà Henry Ford đã phát minh. Công nhân đứng trên dây chuyền, dây chuyền chạy, công suất của mỗi người được gia tăng một vài chục lần bởi cánh tay cơ khí. Mức sống của một công nhân Detroit vượt xa nghệ nhân trong cùng thời kỳ, kỹ năng thủ công có thể không tốt hơn, nhưng họ đang đứng trên một dây chuyền lớn hơn.
Ngân sách Token năm 2026, chính là dây chuyền sản xuất năm 1950.
Nhưng có một điểm khác biệt.
Công nhân ở Detroit có thể rời khỏi Ford, có thể chuyển sang General Motors, có thể chuyển sang Chrysler, dây chuyền sản xuất ở đó khắp nơi. Công đoàn có thể đàm phán với tư bản, yêu cầu tốc độ dây chuyền tốt hơn và môi trường làm việc an toàn hơn.
Ngân sách Token khác biệt. Công ty cho bạn vào ngày đó bạn như siêu nhân, rồi thu hồi vào ngày hôm sau bạn trở lại như người thông thường. Cổ phiếu có thể bán ra rời đi, kỹ năng có thể theo bạn khi chuyển việc. Ngân sách Token không phải là điều gì khác ngoài việc tạo ra sự cân thiết, chiếc công tắc nằm trong tay công ty.
Thung lũng Silicon đã có một thuật ngữ mới để mô tả tình hình này, gọi là "Sự Khao Khát GPU".
Người nghiên cứu trí tuệ nhân tạo hàng đầu chuyển việc, khoảng cách về mức lương đã dẫn đầu bởi sức mạnh tính toán. Không thể chạy thử nghiệm, không thể triển khai agent, khả năng bị hạn chế bởi hạn mức. "Công ty trả bạn bao nhiêu Token" đôi khi đứng trước cổ phiếu. Cổ phiếu chỉ là một tấm séc tương lai có thể giảm giá, ngân sách Token là năng suất có thể thực hiện ngay trong ngày hôm nay.
Và những người không dùng trí tuệ nhân tạo, trực tiếp bị loại.
Goldman Sachs ước lượng trí tuệ nhân tạo có thể tự động hóa 25% giờ làm của Mỹ. Báo cáo của Mercer cho biết 65% các nhà quản lý dự đoán từ 20 đến 30% nhân viên sẽ được sắp xếp lại vì trí tuệ nhân tạo. Hai nhóm con số này cộng lại, kết luận rõ ràng: những người có Token tạo ra sản lượng bùng nổ, những người không có Token bị tối ưu hóa ra khỏi hệ thống.
Đường biên là hạn mức Token, và năng lực của con người, mối quan hệ càng ngày càng ít.
Giá trị cá nhân được quyết định bởi hạn mức Token. Còn công ty thì sao?
Vào đầu tháng 3 năm 2026, một công ty ở Thượng Hải có tên MiniMax đã phát hành báo cáo thường niên đầu tiên kể từ khi công ty niêm yết. Doanh thu cả năm 79 triệu USD, lỗ ròng sau điều chỉnh 250 triệu. Theo các chỉ số tài chính truyền thống, đây là một công ty nhỏ lỗ tiền, doanh thu chỉ bằng một phần nhỏ của Accenture trong một quý.
Nhưng thị trường vốn không nhìn nhận công ty theo cách đó.
CEO của MiniMax, Yen Junjie, đã nói một câu quan trọng hơn cả báo cáo tài chính trong cuộc họp thông báo của công ty: "Giá trị của công ty được quyết định bởi Mật Độ Thông Minh nhân lên Token và Tốc độ Token."
Tốc độ Token, không phải là tốc độ tăng trưởng doanh thu, không phải là số người dùng, không phải là lợi nhuận gộp.
Dữ liệu hỗ trợ câu nói này rất mạnh mẽ. Vào tháng 2 năm 2026, lượng Token tiêu thụ trung bình hàng ngày của dòng M2 của MiniMax đã tăng gấp 6 lần so với hai tháng trước vào tháng 12. Lượng Token tiêu thụ trong kịch bản lập trình đã tăng gấp 10 lần. Trên nền tảng tổng hợp mô hình AI OpenRouter, M2.5 của MiniMax đã tiêu thụ 45.5 nghìn tỷ Token trong hai tuần, đẩy toàn bộ các mô hình của Mỹ xuống dưới, một công ty ở Thượng Hải lần đầu tiên leo lên vị trí đầu bảng xếp hạng toàn cầu về lượng Token tiêu thụ.
Bài báo trên South China Morning Post đã sử dụng một thuật ngữ: mô hình mã nguồn mở của Trung Quốc đã chấm dứt sự thống trị thị trường của các nhà phát triển Mỹ kéo dài một năm. Điều này kết thúc bằng điều gì? Lượng Token tiêu thụ. Ai đốt nhiều Token nhất, người đó là người chiến thắng.
Logic này cũng áp dụng vào OpenAI. Nền tảng API của OpenAI xử lý 60 tỷ Token mỗi phút, tăng gấp 20 lần trong hai năm. Khách hàng doanh nghiệp tiêu thụ hơn 10 nghìn USD mỗi năm, đã tăng gấp gần 7 lần trong một năm. Dựa trên phân tích của nhà phân tích Barclays Ross Sandler, sau khi phân tích dữ liệu một lần, kết luận rằng lượng Token tiêu thụ ở phía tiêu thụ của OpenAI vượt qua Google Gemini hơn hai lần.
Lượng Token tiêu thụ, đã trở thành tiền mặt cứng cung cấp vị trí cho các công ty AI.
Điều thú vị hơn là cách mà điều này diễn ra bên trong công ty. The New York Times gần đây báo cáo một hiện tượng được gọi là "tokenmaxxing": các kỹ sư của Meta và OpenAI cạnh tranh trên bảng xếp hạng nội bộ xem ai đã tiêu thụ nhiều Token hơn.
Ngân sách Token đang trở thành một phúc lợi tiêu biểu, giống như bữa trưa miễn phí và bảo hiểm nha khoa cách đây mười năm. Một kỹ sư làm việc tại văn phòng của Ericsson ở Stockholm nói với The New York Times, anh ta có thể chi tiêu cho Claude nhiều hơn cả mức lương của mình, nhưng công ty sẽ trả tiền.
Một bài báo trên TechCrunch tuần trước đã tính toán xem: một kỹ sư viết bài viết vào buổi chiều có thể tiêu hao 10 nghìn Token, nhưng một kỹ sư vận hành cụm agent có thể đốt hàng triệu Token chỉ trong một ngày, mà không cần phải gõ một từ nào.
Hai năm trước, giá của mỗi triệu Token là 33 USD. Bây giờ, chỉ còn 9 cent. Giảm 99.7%. Giá càng rẻ, tiêu càng dữ dội. Tiêu càng dữ dội, càng không thể tách rời.
Ước lượng của Yan Junjie trong cuộc họp điện thoại là: trong tương lai, nhu cầu về Token trên thị trường có thể tăng một hoặc hai cấp số.
Đây chính là cách định giá một công ty vào năm 2026. Không xem xét bạn đã kiếm được bao nhiêu tiền, mà xem xét Token của bạn đã bị đốt đi bao nhiêu. MiniMax đã mất 2.5 tỷ, nhưng đường cong tăng trưởng lưu lượng Token của họ vô cùng dốc, thị trường vốn sẵn lòng đặt cược. Bạn có thể so sánh nó với YouTube vào năm 2006, doanh thu chỉ có mấy xu, nhưng lưu lượng tiêu thụ băng thông tăng theo cấp số nhân, Google đã sẵn lòng chi 16.5 tỷ để mua lại nó.
Vào thời đó, YouTube đã đốt băng thông. Ngày nay, MiniMax đang đốt Token. Đơn vị đo đã thay đổi, nhưng logic vẫn còn.
Trong cùng một tuần, điều gì đó đã xảy ra với GTC.
Ngày 18 tháng 3, Stripe đã phát hành Machine Payments Protocol. Nói một cách đơn giản: AI agent có thể tự chi tiền.
Một agent cần một bộ dữ liệu, tự trả tiền để tải xuống. Cần sức mạnh tính toán để chạy lý luận, tự mua theo giây. Cần gọi API của một agent khác, tự thanh toán. Toàn bộ quá trình không cần xác nhận từ con người. Visa đã phối hợp với giao thức này để chấp nhận thanh toán thẻ tín dụng, Coinbase đã tạo ví dành riêng cho agent, Mastercard đang phát triển Agent Pay.

Từ nay, việc tiêu thụ Token có thêm một nguồn. Trước đây chỉ có trường hợp "con người điều phối agent". Bây giờ agent tự mình cũng tiêu thụ Token, và dùng tiền kiếm được từ việc sử dụng Token để mua thêm Token. Cofounder của Stripe, John Collison, đã sử dụng một từ: dòng chảy.
Ông Hwang In-hyuk trên sân khấu đã đưa ra con số tương ứng: NVIDIA định tăng tỷ lệ tạo Token từ 22 triệu lên 7 tỷ, tăng 350 lần.
Đây giống như việc xây dựng một hệ thống đường cao tốc hoàn chỉnh, cược rằng lưu lượng xe sẽ tăng theo cấp số nhân.
Cược 600 tỷ USD vào hạ tầng, đòi hỏi một điều kiện tiên quyết: lưu lượng tiêu thụ Token trên toàn cầu phải đủ lớn để chịu chi phí. Điều kiện tiên quyết này hiện chỉ là một giả định, và là một giả định rất đắt đỏ.
Vào quý cuối cùng của năm 2025, các công ty công nghệ đã phát hành một lượng nợ phiền hồn kỷ lục là 1,087 tỷ USD. Đầu năm 2026, chỉ trong vài tuần đầu tiên đã có thêm 1,000 tỷ. Morgan Stanley và JPMorgan ước lượng rằng tổng nợ của các công ty liên quan đến AI có thể lên tới 15 nghìn tỷ USD trong vài năm tới. Theo Goldman Sachs, chi phí vốn cho AI hiện chiếm khoảng 3% GDP của Mỹ.
Một số người ở Wall Street đã cảm nhận được rủi ro và đã bắt đầu mua bảo hiểm. Khối lượng giao dịch hoán đổi rủi ro tín dụng đang tăng. Chi trả một khoản phí bảo hiểm nhỏ, đánh cược rằng các công ty này có thể không trả được tiền. Giám đốc Chiến lược Tín dụng của Citi, Daniel Sorid, đã nói một câu trong một hội nghị nhà đầu tư: "Là một nhà đầu tư tín dụng, đương đầu với quy mô biến đổi như vậy, với lượng vốn lớn như vậy, làm cho người ta cảm thấy không an tâm tự nhiên."
Người sáng lập Google, Larry Page, đã nói một câu cực đoan hơn trong nội bộ công ty. Page đã nhiều lần nói với nhân viên Google: "Tôi sẵn lòng phá sản cũng không muốn thua cuộc trong trận đấu này."
Điều đó chính xác mô tả một tình hình Bài toán Tù nhân: Mỗi công ty lớn đều đánh cược rằng đối thủ sẽ tiếp tục đầu tư, vì vậy họ không thể dừng lại. Người dừng lại sẽ bị loại trực tiếp.
Phía lạc quan có dữ liệu cứng. Tốc độ tạo mã Token đã tăng gấp 350 lần. Stripe vừa cho phép agent tự chi tiền. McKinsey đã từ một vài nghìn agent mở rộng lên 25.000 agent trong vòng hai năm. Nếu nền kinh tế agent bùng nổ hoàn toàn, đường cong tăng trưởng tiêu thụ Token thực sự có thể chuyển sang dạng số mũ.
Nhưng có một ngày mà nhiều người không thể ngủ yên. Nửa cuối năm 2026, vực thẻ hợp đồng.
Từ năm 2024 đến 2025, các công ty đã chi tiêu từ "Ngân sách Đổi mới". CEO cần phải nói một câu "Chúng tôi đang thúc đẩy trí tuệ nhân tạo" tại cuộc họp báo cáo tài chính, giá không quan trọng lắm, hiệu quả không được yêu cầu cao, đó là tiền của tư duy. Nửa cuối năm 2026, dự án thử nghiệm đầu tiên đến nút thời điểm gia hạn. Ngân sách đổi mới đã hết, CTO rời vị trí ở bàn cạnh, CFO ngồi vào. CFO chỉ quan tâm đến một con số: ROI.
Nếu nhiều dự án thử nghiệm bị cắt giảm, tiêu thụ ở điểm cuối của Token sẽ đột ngột có khoảng trống. Năng suất 6.000 tỷ ở đầu nguồn, các trung tâm dữ liệu đã được xây dựng, điện đã được kết nối, chip đã được trưng bày, trở thành năng suất trống rỗng.
Việc này đã xảy ra trong lịch sử.
Năm 2000, các công ty viễn thông đã chi hàng nghìn tỷ đô la để lắp đặt cáp quang dưới biển. Sau khi bong bóng bị nổ, 90% cáp quang trên thế giới bị "tắt sáng" dưới biển, không hoạt động gần mười năm. Cho đến khi Netflix bắt đầu dịch vụ phát trực tuyến, iPhone kích hoạt Internet di động, cáp quang mới được kích hoạt từng sợi từng sợi. Cáp quang không được xây thừa. Các công ty viễn thông tiền phát ra cáp Optics, Nô điện, Luân điện đều phá sản. Cơ sở hạ tầng vẫn còn, người xây dựng đã không còn.
Năm 2012, điện mặt trời của Trung Quốc. Tiêu Bồ thành Đạt, Tề Từ vài ảnh giá thành thành phẩm dưới ngưỡng chi phí toàn cầu. Năng suất dư thừa nặng, ngành công nghiệp phải trải qua ba năm rửa sạch. Sau đó, nhu cầu thực sự đã đến, điện mặt trời hiện đang là nguồn năng lượng tăng trưởng nhanh nhất trên trái đất. Tiêu Bồ phá sản. Tề Từ phá sản. Các người tiên phong một thời nằm mép đường vào cuối đêm tối cùng trước bình minh.
Sau khi Bell phát minh ra điện thoại, Western Union từ chối mua bằng 100.000 USD. Mười năm sau, Western Union đã sẵn lòng trả 25 triệu USD, nhưng Bell không bán nữa. Ba mươi năm sau, mạng điện thoại đã lan rộng khắp toàn bộ Hoa Kỳ. Nhưng những công ty nhỏ xây dựng mạng đó, hầu hết không sống sót đến ngày điện thoại phổ cập. Người chiến thắng là AT&T sau này, nắm giữ tất cả thông qua việc mua lại và độc quyền.
Câu chuyện về cơ sở hạ tầng luôn theo bản chất này. Hướng đi hầu như luôn đúng, nhưng sự chênh lệ về thời gian có thể làm hỏng mọi thứ.
Quay trở lại với Token. Cấu trúc được nói đến trước đó, Token trở thành lao động, con người trở thành giao diện, hạn ngạch Token xác định tất cả, điều kiện thành lập là Token bị tiêu thụ liên tục, nhiều và tăng tốc. Hiệu suất gấp 10 lần của kỹ sư được duy trì nhờ cung cấp Token, nếu cắt giảm sẽ trở về số 0. Định giá 840 tỷ USD của OpenAI dựa vào cam kết sức mạnh tính toán, nếu giao thức bị chấm dứt thì giảm giá trị. Hạ tầng trị giá 6000 tỷ đô la dựa vào sự tăng trưởng tiêu thụ cuối cùng, nếu tốc độ tăng trưởng giảm, sẽ chỉ là chuyển động trống rỗng.
Mỗi tầng phụ thuộc vào tầng bên dưới. Tốc độ tăng tiêu thụ chậm hơn tốc độ xây dựng khoảng hai đến ba năm, mọi giá của mọi người trên toàn chuỗi sẽ xả lỏng.
Năm 2023, quyền lực đến từ thẻ. Năm 2026, quyền lực đến từ Token.
Nghe có vẻ giống nhau, nhưng sự thay đổi ở phía dưới sâu hơn so với nhận thức của đa số người.
GPU là tài sản, mua rồi là của bạn, khoá trong phòng máy tính, người khác không thể mang đi.
Token là lưu lượng. Hiệu suất gấp 10 lần của bạn, giá trị ước lượng cao của bạn, tấm vé đàm phán của bạn, tất cả dựa trên nguồn cung liên tục không phải của bạn. Nếu vòi nước bị tắt, mọi thứ trở về số 0.
Khi Token trở thành lao động thực sự, con người trở thành giao diện được kết nối với Token. Một giao diện tốt có thể giúp Token phát huy giá trị lớn hơn, sự đánh giá, thẩm mỹ, kinh nghiệm, những thứ đó vẫn còn. Nhưng mức độ mà một giao diện có thể làm việc, trước hết phụ thuộc vào khối lượng Token mà nó được kết nối.
Vào những năm 1870, nông dân tại Mỹ phát hiện ra rằng việc trồng lúa mì tốt chưa đủ, phải ở gần đường sắt. Vào những năm 1950, các thợ thủ công phát hiện rằng thậm chí có thế mạnh thủ công cũng không thể so sánh với công nhân trên dây chuyền sản xuất. Vào năm 2026, kỹ sư đang phát hiện ra rằng, dù viết mã có đẹp đẽ nhưng nếu thiếu ngân sách Token, mọi thứ sẽ trở nên vô nghĩa.
Khi Token trở thành lao động thực sự, con người trở thành giao diện. Chất lượng của giao diện cũng quan trọng, nhưng giá trị của giao diện, trước hết phụ thuộc vào ai đang cung cấp năng lượng cho nó.
Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:
Nhóm Telegram đăng ký: https://t.me/theblockbeats
Nhóm Telegram thảo luận: https://t.me/BlockBeats_App
Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia