Tiêu đề gốc: Token Budget Wars
Tác giả gốc: Jaya Gupta
Biên dịch: Peggy
Lời biên tập: AI trong doanh nghiệp đang chuyển từ giai đoạn “có nên áp dụng hay không” sang giai đoạn “tính toán chi phí và hiệu quả như thế nào”.
Trong hai năm qua, nhiều công ty thúc đẩy nhân viên sử dụng AI chủ yếu để bắt kịp xu hướng công nghệ và áp lực cạnh tranh. Nhưng khi chi phí suy luận AI chuyển từ ngân sách thử nghiệm thành chi phí vận hành liên tục, CEO và CFO bắt đầu đặt ra một câu hỏi thực tế hơn: AI rốt cuộc đã tạo ra bao nhiêu giá trị? Mỗi một USD chi phí token đổi lại kết quả thực tế gì?
Đây chính là trọng tâm của “Token Budget Wars”. Cái gọi là cuộc chiến ngân sách token không chỉ là việc doanh nghiệp muốn giảm hóa đơn AI, mà là đánh giá lại những mảng kinh doanh nào đáng được đầu tư thêm năng lực tính toán, những tác vụ nào nên chuyển sang mô hình rẻ hơn, những quy trình nào có thể thay thế thuê ngoài hoặc lao động thủ công, và những phần nào chỉ là tiêu hao vô hiệu.
Điểm đáng chú ý nhất của bài viết là: mức độ sử dụng AI không đồng nghĩa với giá trị. Trong kỷ nguyên SaaS, mức độ sử dụng thường có nghĩa là phần mềm đã được chấp nhận; nhưng trong kỷ nguyên AI, mức tiêu thụ token chỉ cho thấy “đồng hồ tính tiền đang chạy”. Cùng một workflow có thể phát sinh chênh lệch chi phí gấp nhiều lần do khác biệt về prompt, ngữ cảnh, lựa chọn mô hình và số lần thử lại. Hóa đơn tăng cao có thể là vì AI thực sự đang làm việc, nhưng cũng có thể là hệ thống đang loay hoay vô ích.
Vì vậy, giai đoạn tiếp theo của AI doanh nghiệp không chỉ nằm ở năng lực mô hình, mà ở việc liệu có thể gắn chi phí token với kết quả kinh doanh hay không. Giai đoạn đầu đã chứng minh AI có thể hoàn thành công việc; giai đoạn thứ hai cần trả lời câu hỏi: những công việc đó rốt cuộc có đáng để trả tiền hay không.
Dưới đây là nguyên văn:
Ở tầng lãnh đạo cấp cao của công ty, “đồng tiền” mới là khả năng định lượng ROI của khoản đầu tư vào AI. Mỗi bộ phận chức năng đều bị hỏi cùng một câu: Bạn đã tạo ra gì? Chi phí là bao nhiêu? Trong hai năm qua, các CEO vừa thức dậy buổi sáng xem Jim Cramer trên CNBC (#bearish), vừa nhìn các đối thủ công bố mức tăng năng suất, rồi yêu cầu toàn công ty phải sử dụng AI. Giờ đây, thứ thực sự tạo ra áp lực là câu hỏi tiếp theo: hãy chứng minh giá trị cho tôi thấy.
Claude được phát hành vào tháng 11 năm 2025, và vào thời điểm đó ngân sách thường niên năm 2026 của phần lớn doanh nghiệp đã được chốt. Đến quý I, mức sử dụng thực tế của doanh nghiệp đã vượt xa kế hoạch ban đầu. Chi phí suy luận không còn chỉ là một hạng mục ngân sách dành cho thử nghiệm, mà đã trở thành chi phí vận hành phát sinh liên tục. Kéo theo đó là một câu hỏi mới: AI rốt cuộc thực sự tạo ra giá trị ở đâu?
Câu hỏi này rất khó trả lời, vì công dụng của token chưa được định lượng. Hóa đơn không thể cho bạn biết khoản chi này rốt cuộc đã thay thế nhân công, tạo ra doanh thu, giảm thiểu rủi ro, tăng tốc quy trình, hay chỉ là một nhóm kỹ sư đang điên cuồng “đốt” token để leo bảng xếp hạng (#metamates). Khi khoản chi chỉ ở mức vài trăm nghìn USD, nó vẫn trông giống một thử nghiệm. Nhưng khi vượt qua một ngưỡng nhất định, chẳng hạn đạt đến bảy chữ số, nó sẽ trở thành hạ tầng. Những khác biệt về kỹ thuật bắt đầu tạo ra tác động thực chất lên báo cáo lãi lỗ: cùng một workflow, cùng một nhóm input, chi phí token giữa hai lần chạy có thể chênh nhau 5 đến 10 lần, trong khi bề ngoài trông có vẻ không có vấn đề gì. Ở quy mô thử nghiệm, mức biến động này đã khá đắt đỏ; nhưng một khi bước vào quy mô hạ tầng, nó sẽ trở thành con số mà CFO phải giải thích với CEO.
Có thể gọi nó là “hiệu dụng token cận biên”: giá trị kinh doanh được tạo ra từ mỗi 1 USD chi phí suy luận tăng thêm. Đây là con số thực sự quan trọng ở giai đoạn mở rộng quy mô, và cũng là con số mà hiện nay phần lớn công ty chưa nhìn thấy.
Câu hỏi trong phòng họp hội đồng quản trị đang chuyển từ “AI có hữu ích hay không” sang “AI rốt cuộc tạo ra đòn bẩy thực sự ở đâu”. Chính vì vậy, cái gọi là cuộc chiến ngân sách token, về bản chất, là cuộc tranh giành quyền phân bổ token.
Lý do cuộc tranh giành quyền sở hữu token nhanh chóng nóng lên là vì nó đang va chạm với một bản năng điều hành đã kéo dài suốt ba mươi năm: đội ngũ lớn đồng nghĩa với chức vị lớn, phạm vi trách nhiệm lớn và quyền lực lớn hơn. Trong quá khứ, dấu hiệu hữu hình cho sự thành công của một nhà quản lý cấp cao là quy mô đội ngũ mà họ quản lý — cấp dưới trực tiếp, cấp dưới gián tiếp, cũng như số lượng người trong sơ đồ tổ chức.
Nhưng khi trí tuệ trở thành tài nguyên khan hiếm, dấu hiệu mới sẽ là: bạn có thể điều phối được bao nhiêu trí tuệ.
Về bản chất, chi tiêu cho AI đang cạnh tranh với chi phí nhân công.
Phần lớn đề xuất ngân sách AI, về bản chất, thuộc một trong ba loại luận điểm: thay thế lao động thuê ngoài, thay thế lao động nội bộ, hoặc tạo ra doanh thu mới.
Một nhân viên có tiền lương. Một hợp đồng thuê ngoài BPO có mức giá tính theo ticket, yêu cầu bồi thường, hóa đơn hoặc lượt kiểm duyệt. Con người có thể hiểu những đơn vị đo lường này. Nhưng chi phí suy luận phức tạp hơn, vì chi phí để hoàn thành một nhiệm vụ cuối cùng phụ thuộc vào cách hệ thống vận hành trong quá trình thực thi. Một tác vụ xử lý yêu cầu bồi thường cần thử lại ba lần, có chỉnh sửa thủ công và gọi đến mô hình frontier, có thể còn đắt hơn cả nhân lực thuê ngoài mà nó vốn định thay thế. Chính vì vậy, cuộc thảo luận đang chuyển sang: chi phí để hoàn thành một kết quả là bao nhiêu? Ví dụ như chi phí cho mỗi ticket đã giải quyết, mỗi yêu cầu bồi thường đã xử lý, mỗi hợp đồng đã rà soát, mỗi hóa đơn đã hoàn tất, mỗi vị trí tuyển mới được tránh phát sinh, mỗi khách hàng được giữ lại, hoặc chi phí tương ứng với mỗi 1 USD doanh thu được chuyển đổi.
Các lãnh đạo cấp cao đã nhận ra rằng BPO là nơi dễ thiết lập chuẩn đối sánh nhất, vì những công việc này vốn đã được định giá theo “đơn vị hoàn thành”. Ngược lại, việc so sánh nhân viên nội bộ với AI khó hơn nhiều, bởi mỗi ngày nhân viên làm rất nhiều việc, bao gồm cả lướt TikTok trong giờ nghỉ trưa; mức tăng năng suất thường thể hiện dưới dạng tránh phải tuyển thêm người hoặc giải phóng năng lực rải rác; và các nhà quản lý cũng sẽ phản đối việc cắt giảm nhân sự trong đội ngũ chỉ dựa trên mức độ tự động hóa một phần. BPO cung cấp cho các đội ngũ kinh doanh một đường chuẩn có thể định lượng.
Điều này khác với logic của SaaS. SaaS từng huấn luyện doanh nghiệp xem mức độ sử dụng là chỉ số đại diện cho giá trị.
Nhưng AI đã phá vỡ điều đó. Cùng một workflow tiêu tốn bao nhiêu tài nguyên suy luận có thể khác nhau rất lớn tùy theo prompt, ngữ cảnh được truy xuất, mô hình được chọn, công cụ được gọi, số lần thử lại, cũng như việc agent có bị kẹt hay không. Đơn vị trên hóa đơn — token — là ổn định, nhưng khối lượng công việc mà nó đại diện thì không ổn định.
Nói chính xác hơn: tín hiệu và nhiễu đang dùng cùng một đơn vị đo lường. Hóa đơn token tăng lên có thể có nghĩa là công việc thực sự đang được hoàn thành; nhưng cũng có thể là sức mạnh tính toán đang bị lãng phí vào prompt kém, ngữ cảnh không liên quan, các lệnh gọi công cụ không cần thiết, suy luận lặp lại và những mô hình dư thừa năng lực. Hai doanh nghiệp có thể có hóa đơn token hoàn toàn giống nhau, nhưng hoạt động kinh doanh bên dưới lại khác nhau một trời một vực: một bên đang chuyển suy luận thành kết quả, bên kia thì đang trả tiền cho những vòng xoay vô ích, và hai trường hợp này trông giống hệt nhau trên các dòng mục của hóa đơn.
Mức độ sử dụng của SaaS cho bạn biết: phần mềm đã được chấp nhận sử dụng. Mức độ sử dụng của AI chỉ có thể cho bạn biết: đồng hồ tính tiền đang chạy. Nó không thể cho bạn biết liệu công ty có thực sự vận hành hiệu quả hay không.
Chủ yếu có ba điểm.
Thứ nhất là đuôi dài của việc thử lại. Nếu xác suất một agent hoàn thành đúng workflow ngay lần đầu là p, thì mức tiêu thụ token kỳ vọng cho mỗi workflow đã được giải quyết nhìn chung sẽ tăng theo khoảng T/p, trong đó T là chi phí cơ sở. Nếu tỷ lệ hoàn thành giảm từ 90% xuống 70%, chi phí hiệu dụng cho mỗi lần giải quyết vấn đề sẽ tăng khoảng 28%, chứ không phải 20%, vì thất bại tạo ra hiệu ứng cộng dồn. Trong các workflow doanh nghiệp, dữ liệu đầu vào thường lộn xộn và các trường hợp ngoại lệ cũng rất quan trọng. Thất bại không chỉ làm giảm độ chính xác, mà còn thay đổi bài toán kinh tế.
Thứ hai là sự phình to của ngữ cảnh. Đối với các thao tác phụ thuộc nhiều vào cơ chế attention, chi phí suy luận nhìn chung sẽ tăng theo độ dài ngữ cảnh ở mức O(n²). Vì vậy, khi độ dài ngữ cảnh tăng gấp đôi, chi phí suy luận nhìn chung sẽ tăng lên khoảng bốn lần. Ai cũng muốn mô hình nắm đủ thông tin, nên hệ thống thường cung cấp quá mức: ban đầu chỉ cần năm tài liệu là đủ, nhưng truy xuất lại kéo về năm mươi tài liệu; connector đổ thẳng toàn bộ chuỗi email vào; agent tiếp tục vận hành với lịch sử hội thoại đã lỗi thời từ lâu.
Thứ ba là định tuyến. Khi đội ngũ không biết mô hình nào là “đủ tốt”, mặc định họ sẽ dùng mô hình mạnh nhất. Một tác vụ phân loại cơ bản có thể được chạy trên cùng một mô hình vốn được dùng cho suy luận phức tạp. Khi số lượt gọi đạt đến hàng triệu lần, việc giao các tác vụ đơn giản cho mô hình nhỏ, hay giao tất cả tác vụ cho mô hình tiên tiến nhất, thường chính là sự khác biệt giữa một hóa đơn có thể kiểm soát và một vấn đề ở cấp hội đồng quản trị.
Các ngành phi phần mềm sẽ cảm nhận nỗi đau này dưới dạng một cuộc “chuyển đổi”. Các công ty phần mềm sẽ nhìn thấy vấn đề này đầu tiên, vì công việc được tối ưu hóa vốn đã được đo lường bằng công cụ rất đầy đủ. Đội ngũ kỹ thuật có các chỉ số như PR, commit, triển khai, sự cố, thời gian chu kỳ, thời gian trung bình để khắc phục, v.v., và những chỉ số này gắn với sản phẩm. Dù không hoàn hảo, loại công việc này dễ đo lường hơn.
Các doanh nghiệp phi phần mềm sẽ cảm nhận vấn đề này sâu sắc hơn, vì công việc của họ mang tính vận hành. Ví dụ như bồi thường bảo hiểm, thẩm định bảo hiểm, ticket chăm sóc khách hàng, rà soát tuân thủ, bất thường trong chuỗi cung ứng, tranh chấp thanh toán. Hoặc những công ty sở hữu tài sản trong thế giới thực cũng sẽ đối mặt với vấn đề tương tự. Trước đây, các quy trình công việc này thường được đo bằng nhân công, thời gian chu kỳ, tỷ lệ đạt SLA và tỷ lệ lỗi; hơn nữa thường có yêu cầu cao hơn, cần đứng vững trước kiểm toán, chứ không chỉ đúng theo nghĩa trung bình. Đơn vị công việc và đơn vị chi phí không dùng cùng một ngôn ngữ, cũng không nằm trong cùng một tổ chức. Đội ngũ kỹ thuật có thể nhìn thấy mức tiêu thụ token, bộ phận kinh doanh có thể nhìn thấy thay đổi trong quy trình công việc, nhưng để kết nối hai thứ này lại với nhau, nhiều đội ngũ trước hết phải thống nhất được “rốt cuộc đang đo lường điều gì”.
Tôi cho rằng các công ty phần mềm sẽ trải nghiệm cuộc tranh luận về ngân sách token như một vấn đề đo lường năng suất, điều này cũng tương ứng với nhiều đợt “sa thải vì AI” đã xảy ra trước đó; còn các doanh nghiệp phi phần mềm sẽ trải nghiệm nó như một vấn đề chuyển đổi.
Lớp còn thiếu chính là quy kết từ token đến kết quả. Doanh nghiệp cần một lớp chuyển đổi để kết nối chi phí suy luận với công việc đã hoàn thành và kết quả kinh doanh được tạo ra. Lớp này phải trả lời ba câu hỏi: chi phí thực của quy trình công việc này là bao nhiêu, bao gồm cả việc thử lại và sửa lỗi? Trong quỹ đạo thực thi của agent, phần nào thực sự quan trọng, phần nào chỉ là loay hoay vô ích? Công việc này có làm thay đổi mô hình vận hành hay không — chẳng hạn mỗi nhân viên chăm sóc khách hàng xử lý ít ticket hơn, chu kỳ bồi thường ngắn hơn, ngân sách BPO nhỏ hơn, việc tuyển dụng bị trì hoãn? Lớp tiếp theo là quy kết kết quả bằng ngôn ngữ kinh doanh. Không phải chỉ đơn giản nói rằng “quy trình công việc này tốn 2,13 USD”, mà phải nói rằng: loại yêu cầu bồi thường này nếu do agent xử lý thì rẻ hơn BPO, nhưng nếu hợp đồng bảo hiểm yêu cầu thêm tài liệu ngoại lệ, phần đuôi dài của các lần thử lại sẽ phá hủy tính kinh tế.
Đo lường sẽ trở thành ký ức. Để kết nối một token với một kết quả, doanh nghiệp phải nắm bắt mọi thứ xảy ra ở giữa: agent đã nhìn thấy gì, đã truy xuất gì, đã gọi những công cụ nào, đã bỏ qua điều gì, đã thử lại ở đâu, khi nào bị con người ghi đè, quy tắc ngoại lệ nào được áp dụng, tiền lệ nào phát huy tác dụng, và vì sao một tuyến đường thành công còn tuyến đường khác thất bại. Lớp đo lường phải ghi lại quỹ đạo ra quyết định, và đây chính là thứ mà trong quá khứ doanh nghiệp hầu như chưa bao giờ thực sự sở hữu. Hệ thống ghi nhận có thể nắm bắt điều gì đã xảy ra, nhưng hiếm khi nắm bắt được vì sao. Ví dụ, CRM có thể cho bạn biết một thương vụ đã bị trì hoãn, nhưng không thể cho bạn biết những phán đoán chưa được viết ra đằng sau dự báo bán hàng.
Lý do ra quyết định là một trong những tài sản dễ bị “mục ruỗng” và dễ biến mất nhất trong công ty, bởi nó tồn tại trong các luồng Slack, chuỗi email, các cuộc họp escalation và trong đầu con người. Nhưng vấn đề là: con người sẽ rời đi, và quy trình cũng sẽ thay đổi.
AI đã thay đổi điều đó, vì các agent sẽ tạo ra dấu vết. Mỗi lần truy xuất, gọi công cụ, thử lại, escalation, chỉnh sửa thủ công và quyết định cuối cùng đều trở thành một phần của hành trình từ ngữ cảnh đến hành động rồi đến kết quả. Ban đầu, các công ty sẽ ghi lại những dấu vết này để chứng minh tính hợp lý của chi phí. Nhưng một khi các dấu vết đó được ghi lại, chúng sẽ trở nên có giá trị hơn chính bản báo cáo chi phí, vì chúng biến thành một hồ sơ bền vững, ghi lại cách tổ chức thực sự đưa ra quyết định. (E hèm, context graph, dù gần đây tôi thật sự đã nghe từ này đến phát ngán.)
Tầng phân bổ mới là phần thưởng thật sự. Nếu suy luận trở thành một loại tài nguyên tính phí theo mức sử dụng trong mô hình vận hành khách hàng, thì mỗi đô la đều phải chứng minh rằng nó đáng được chi. Nhà cung cấp nào có thể giải thích khi nào token chuyển hóa thành kết quả, khi nào thì không, và vì sao?
Doanh nghiệp sẽ không tự mình hoàn toàn mò mẫm ra việc này. Họ sẽ mua nó như một cuộc chuyển đổi. Các công ty Fortune 500 trước đây đã lặp đi lặp lại kịch bản này: thắt dây an toàn, thuê McKinsey, tuyển mọi cựu nhân viên Palantir có trên thị trường, rồi để CEO thúc đẩy thay đổi từ trên xuống. Việc quy trách nhiệm từ token đến kết quả cũng sẽ xuất hiện theo cách tương tự ERP, BI và chuyển đổi số: đến như một “dự án” có sự bảo trợ của lãnh đạo cấp cao, bên dưới được hỗ trợ bởi một bộ hạ tầng, và cuối cùng trở thành nguồn sự thật mới. Những nhà sáng lập làm được điều này sẽ xây dựng các kiểu đội ngũ sáng lập khác nhau, và bản thân họ cũng sẽ khác với nguyên mẫu startup founder truyền thống.
Ai nắm được việc quy trách nhiệm từ token đến kết quả, người đó có thể đưa ra quyết định phân bổ: workflow nào xứng đáng có thêm năng lực tính toán, workflow nào nên bị giới hạn, workflow nào nên chuyển sang mô hình rẻ hơn, workflow nào tiếp tục do con người thực hiện, và workflow nào có thể thay thế BPO. Một khi bạn có thể đưa ra những quyết định này, bạn sẽ kiểm soát dòng chảy chi tiêu AI trong doanh nghiệp, đồng thời có được niềm tin cần thiết để phân bổ nguồn lực đó.
Giai đoạn đầu của AI doanh nghiệp đã chứng minh rằng: mô hình có thể hoàn thành công việc. Giai đoạn tiếp theo sẽ quyết định: rốt cuộc có bao nhiêu phần trong số những công việc đó đáng để trả tiền. Như Charlie Munger từng nói: Hãy cho tôi thấy cơ chế khuyến khích, tôi sẽ cho bạn biết kết quả.
Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:
Nhóm Telegram đăng ký: https://t.me/theblockbeats
Nhóm Telegram thảo luận: https://t.me/BlockBeats_App
Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia