BTC

$96,000

5.73%

ETH

$3,521.91

3.97%

HTX

$0.{5}2273

5.23%

SOL

$198.17

3.05%

BNB

$710

3.05%

简体中文

繁體中文

English

Tiếng Việt

한국어

日本語

ภาษาไทย

Türkçe

Sau khi AI nuốt chửng tất cả, còn điều gì là không thể huấn luyện?

Đọc bài viết này mất 37 phút

Niềm tin, quyền hạn, trách nhiệm và phán đoán ngành nghề

Tiêu đề gốc: The Untrainable
Tác giả gốc: Sarah Guo, Conviction
Biên dịch: Peggy, BlockBeats

Lời biên tập: Khi năng lực AI liên tục vượt bậc, giới đầu tư đang xuất hiện một nhận định bi quan mới: nếu mô hình ngày càng mạnh, tất cả các công ty ứng dụng cuối cùng sẽ bị nuốt chửng bởi các lớp mô hình và sức mạnh tính toán như Anthropic, OpenAI, Nvidia, thị trường chỉ còn lại các mô hình tiên tiến, sức mạnh tính toán và một số cơ sở hạ tầng. Nhưng Sarah Guo cho rằng, nhận định này chỉ đúng một nửa. Những "thin wrapper" (lớp bọc mỏng, tức các ứng dụng đơn giản bọc ngoài mô hình) chắc chắn sẽ bị hấp thụ, và bất cứ nhiệm vụ nào có thể được đo lường bằng benchmark (chuẩn đánh giá), được huấn luyện bằng dữ liệu công khai, được xác minh với chi phí thấp, cũng sẽ dần trở thành hàng hóa.

Câu hỏi thực sự là: Sau khi AI nuốt chửng mọi thứ có thể huấn luyện, điều gì vẫn không thể huấn luyện?

Câu trả lời của bài viết này là những giá trị tồn tại bên trong các tổ chức thực tế, không thể dễ dàng sao chép từ bên ngoài: dữ liệu riêng tư của doanh nghiệp, quy trình làm việc phức tạp, lòng tin của người dùng, quyền hạn hệ thống, phán đoán ngành, trách nhiệm tuân thủ, và kinh nghiệm tích lũy qua vận hành lâu dài. Mô hình có thể thông minh hơn, nhưng không thể tự động xâm nhập vào hệ thống sản xuất của ngân hàng; có thể tạo ra câu trả lời y tế, nhưng không thể trực tiếp giành được lòng tin của bác sĩ và quy trình ra quyết định của bệnh viện; có thể viết văn bản pháp lý, nhưng không thể thay thế luật sư kỳ cựu chịu trách nhiệm, cũng không thể định nghĩa từ hư vô thế nào mới là công việc pháp lý đạt chuẩn.

Do đó, các công ty AI thực sự có hào phòng thủ trong tương lai không phải là thông minh hơn các mô hình tổng quát, mà là đi sâu vào một ngành cụ thể, hoàn thành công việc "dịch thuật" khó khăn nhưng quan trọng: sắp xếp thực tế riêng tư, công cụ, quy trình và tiêu chuẩn phán đoán của khách hàng thành một hệ thống mà mô hình có thể hành động, và dần dần viết ra định nghĩa "thế nào mới là kết quả tốt" trong quá trình phục vụ lâu dài. AI càng mạnh, càng làm mất giá trị các nhiệm vụ có thể đo lường và sao chép; càng làm nổi bật những "thứ không thể huấn luyện" mang tính lịch sử, mối quan hệ, quyền hạn và phán đoán chuyên môn. Đây mới là giá trị thực sự có thể được bảo tồn sau khi mô hình nuốt chửng mọi thứ.

Dưới đây là nguyên văn:

Giữa năm 2026, phiên bản "rối loạn tâm thần AI" của nhà đầu tư là một cảm giác tuyệt vọng rằng không còn gì đáng đầu tư: có vẻ như chúng ta nên đổ hết tiền vào Anthropic và Nvidia, rồi về nhà ngủ. Nhưng tôi chưa bao giờ có cảm giác đó. Trong nhiều phiên bản nhỏ trước đây, tôi đã tin rằng mô hình thông minh hơn tôi; nếu mua Anthropic và Nvidia theo giá thị trường, tôi cũng rất sẵn lòng; những người bạn thông minh nhất xung quanh tôi cũng khá chắc chắn rằng việc tự cải thiện của mô hình sẽ sớm thực sự chạy được – nhưng tôi vẫn không có cảm giác tuyệt vọng đó.

Sự tuyệt vọng này không phải là ngu ngốc. Logic của nó như sau: nếu mô hình ngày càng mạnh hơn trong mọi việc, thì tất cả các công ty được xây dựng dựa trên mô hình chỉ là một lớp vỏ mỏng manh chờ bị mô hình hấp thụ; giá trị cuối cùng còn lại chỉ là sức mạnh tính toán và trọng số của mô hình tiên tiến.

Lấy phần mềm làm ví dụ, đây là trường hợp điển hình nhất cho cảm giác tuyệt vọng này. Khi Devin ra mắt vào năm 2024, nó chỉ có thể giải quyết 13% nhiệm vụ trong các bài kiểm tra chuẩn của phần mềm, vì vậy phần lớn bị thị trường coi thường. Một năm rưỡi sau, Agent mạnh nhất đã đạt được hơn 80% điểm số cao và bắt đầu xử lý công việc thực tế bên trong Goldman Sachs và Quân đội Hoa Kỳ. Hầu như tất cả mọi người đều đi đến cùng một kết luận sai lầm: mô hình đã nuốt chửng kỹ thuật phần mềm.

Nhưng khi mô hình nuốt chửng phần dễ đo lường nhất trong kỹ thuật phần mềm, chúng ta cũng đang nhận ra lại một điều mà nhiều nhóm đã biết từ lâu: kỹ thuật vốn dĩ luôn chống lại việc đo lường, và phần dễ đo lường nhất chưa chắc là phần quan trọng duy nhất.

Mert Demirer từ MIT và các cộng sự cuối cùng đã định lượng được điều này: trong số hơn 100.000 nhà phát triển, thế hệ Agent viết mã mới nhất đã tăng khối lượng viết mã lên khoảng 180%, nhưng khối lượng mã thực sự được triển khai chỉ tăng khoảng 30%. Viết mã trở nên rẻ hơn, nhưng các khâu còn lại vẫn phải qua con người, và những khâu này rất quan trọng. Tất nhiên, tác động ròng tổng thể vẫn rất ấn tượng.

Benchmark là thứ bạn có thể đo lường; và bất cứ thứ gì có thể đo lường đều có thể được dùng để huấn luyện. Do đó, Agent viết mã trưởng thành đầu tiên: trình biên dịch là một bộ xác thực miễn phí, bộ kiểm thử cũng là một bộ xác thực miễn phí. Khi câu trả lời gần như có thể tự kiểm tra với chi phí bằng không, bạn có thể liên tục mài giũa xung quanh tín hiệu kiểm tra đó cho đến khi xuyên thủng nó.

Nhưng vượt qua bài kiểm tra không bao giờ có nghĩa là thay đổi đó là đúng đắn đối với một cơ sở mã đã chạy suốt mười năm. Mô-đun đó tồn tại có thể có ba lý do không ai viết trong tài liệu; đường ống triển khai có thể được duy trì một cách chật vật nhờ một cron job mà không ai thừa nhận là mình viết.

Tính đúng đắn này không thể đọc được từ bảng xếp hạng, thậm chí không thể đọc trực tiếp từ bất cứ thứ gì. Bạn chỉ có thể để một hệ thống phức tạp như vậy chạy đủ lâu trong thế giới thực để biết nó có thực sự hiệu quả hay không. Và một mô hình thông minh hơn sẽ không làm cho thế giới thực chạy nhanh hơn. Không ai sẽ hoàn toàn yên tâm khi chạy xong unit test cho một hệ thống lớn như Google và thấy dấu tích xanh. Bạn tin tưởng nó vì nó đã chịu đựng tải thực tế trong nhiều năm.

Tính đúng đắn này không chỉ là riêng tư, mà còn là một hào phòng thủ hình thành chậm rãi, một hào phòng thủ mà vốn không thể nén thời gian. Ngay cả những người lạc quan cũng thừa nhận rằng chiếc đồng hồ này không thể bỏ qua. Noam Brown, người tiên phong về mô hình suy luận của OpenAI, gần đây đã viết: cách duy nhất đáng tin cậy để đánh giá hiệu suất của một Agent trong chu kỳ một năm có thể là để nó thực sự chạy trong một năm.

Như Gabe Pereyra đã nói, tự động hóa thực sự không chỉ đơn thuần là mô hình trở nên mạnh hơn. Đó là sự thay đổi đồng bộ giữa sản phẩm, mô hình, quy trình làm việc và tổ chức công ty, và trong bốn yếu tố này, có ba yếu tố tiến triển theo tốc độ của tổ chức.

Khiến con người hành động là phần mà không một bài kiểm chuẩn nào có thể chạm tới: thuyết phục một đối tác hoài nghi thay đổi cách cô ấy xử lý công việc, giữ cho một đội nhóm gắn kết trong suốt quá trình tái cấu trúc. Đây cũng là lý do khi tuyển dụng CEO, chúng tôi coi trọng khả năng xử lý con người ít nhất không kém gì khả năng phân tích. Mô hình có thông minh hơn cũng không thay đổi trọng số này.

Phản hồi ở đây rất mơ hồ, khung thời gian tính bằng năm, và lòng tin thuộc về một cá nhân cụ thể. Mọi công ty tôi biết đều đã cho mọi kỹ sư sử dụng các mô hình mã hóa tiên tiến, nhưng không một tổ chức kỹ thuật nào thay đổi với tốc độ gần bằng tốc độ tiến bộ của mô hình. Việc áp dụng công cụ chỉ mất một quý, và đó là một quý kỳ diệu về tăng trưởng token! Nhưng sự tái cấu trúc thực sự cần nhiều năm.

Công việc có thể đo lường được đang biến mất. Công việc thực sự có giá trị, về mặt cấu trúc, là không thể đọc được: bất cứ thứ gì bạn có thể đưa lên bảng xếp hạng đều có thể được dùng để huấn luyện; do đó, bất cứ thứ gì có thể đo lường được đều đang trên đà trở thành hàng hóa. Quá trình này cần thời gian và không bao giờ hoàn tất hoàn toàn, nhưng hướng đi không bao giờ đảo ngược.

Theo cách nói của bạn tôi, Matt MacInnis từ Rippling, chuyển sang ngôn ngữ tiền tệ: một token chỉ dùng để trả lời một câu hỏi chung chung hầu như vô giá trị, vì mô hình của bất kỳ ai cũng có thể trả lời; nhưng một token suy luận trên dữ liệu công ty của bạn lại có giá trị hơn nhiều, vì nó làm điều bạn thực sự muốn, chứ không chỉ tạo ra một câu trả lời có vẻ hợp lý.

Công việc có thể đọc được sẽ bị nuốt chửng từ hai hướng.

Từ phía dưới, các nhiệm vụ sẽ bão hòa: một khi công việc có thể được kiểm tra với chi phí thấp, người mua không còn quan tâm mô hình nào hoàn thành nó, mà bắt đầu hỏi giá bao nhiêu. Vì vậy, công việc đó sẽ rơi vào tay mô hình nguồn mở hoặc mô hình chưng cất rẻ nhất trong tuần. Miễn là biên lợi nhuận có thể phát huy tác dụng, cuối cùng nó chắc chắn sẽ phát huy.

Từ phía trên, các phòng thí nghiệm đang cố gắng để mô hình tự nuốt chửng giàn giáo của chính nó. Truy xuất, định tuyến giữa lệnh gọi rẻ và đắt, sử dụng công cụ, thậm chí chiến lược suy luận – tất cả các thiết bị từng bao quanh mô hình đều đang được kéo vào trong trọng số của mô hình, cho đến khi "vỏ bọc" tự nó trở thành mô hình. Đây là ranh giới hấp thụ.

Áp lực lợi nhuận cũng tác động từ hướng khác: một Agent tổng quát phải sẵn sàng xử lý mọi thứ, do đó chi phí cao; trong khi một ứng dụng tập trung có thể tối ưu hóa một quy trình làm việc đến mức tối đa, chỉ tiêu thụ một phần nhỏ token. Và không giống các phòng thí nghiệm bán token, các công ty ứng dụng có thể giữ lại phần chênh lệch ở giữa.

Vì vậy, chúng ta có thể đặt hai câu hỏi cho bất kỳ loại công việc nào: Tính chính xác của nó có phải là riêng tư, đắt đỏ, và chỉ tồn tại trong dữ liệu nội bộ của một công ty nào đó không? Nó có bị cô lập trong một hệ thống mà người ngoài không thể truy cập không? Kết hợp những câu hỏi này với mức độ bão hòa của nhiệm vụ, chúng ta sẽ có một ma trận 2×2.

Công việc đã bão hòa và có câu trả lời công khai là lãnh địa của các token hàng hóa, nơi các mô hình mã nguồn mở sẽ chiếm lĩnh. Công việc tiên tiến nhưng có câu trả lời công khai, chẳng hạn như các bài kiểm tra chuẩn mã hóa, là nơi các phòng thí nghiệm sẽ chiến thắng, bởi vì khi việc đánh giá là miễn phí, việc sở hữu nó không có giá trị.

Phần thưởng thực sự nằm ở góc cuối cùng, đó là góc "không thể huấn luyện": công việc tiên tiến, nhưng tính chính xác của nó chỉ tồn tại trong môi trường riêng tư. Bạn có thể thấy điều này trên các đám mây suy luận phục vụ những người tiên phong bản địa AI: phần lớn token được tạo ra bởi các mô hình tùy chỉnh, chứ không phải bởi các mô hình mã nguồn mở phổ thông.

Bức tường dẫn đến góc cuối cùng này có cao có thấp. Kho mã code đồ chơi của một nhà phát triển có thể di chuyển và chuẩn hóa, nên việc trèo vào không khó. Nhưng hệ thống sản xuất của một ngân hàng thì không thể di chuyển cũng không thể chuẩn hóa. Bạn sẽ không có quyền truy cập root vào nó chỉ vì bạn thông minh hơn 2% trong SWE-Bench Verified.

Năng lực có thể nuốt chửng nhiều thứ, nhưng một mô hình tốt hơn sẽ không biến các tiêu chuẩn thực tế riêng tư thành tiêu chuẩn công khai. Nó không có giấy phép, không ký tên chịu trách nhiệm, không sở hữu tài liệu của công ty; và khi câu trả lời sai, nó cũng không thể là bên bị kiện. Nút thắt ở đây không phải là trí thông minh, mà là quyền truy cập, và cũng là trách nhiệm. Bạn có thể tưởng tượng một mô hình thông minh hơn bất kỳ ai, nhưng nó vẫn phải được phép vào cửa, và vẫn phải có người ký tên cho những việc nó làm.

Cánh cửa đó có một ổ khóa và một then cài.

Ổ khóa là môi trường: Chỉ sau khi được tin tưởng trong một hệ thống, trải qua kiểm tra bảo mật, hoàn tất tích hợp, và ký hợp đồng với trách nhiệm về kết quả, bạn mới có thể xác minh liệu AI có thực sự làm được việc hữu ích hay không.

Then cài là người dùng. Ngày nay, hầu hết các bác sĩ Mỹ mở OpenEvidence mỗi ngày, điều này không thể mua được bằng bất kỳ sức mạnh tính toán nào. Một phòng thí nghiệm có thể huấn luyện một mô hình y tế hoàn hảo vào ngày mai, nhưng nó vẫn không có cách nào xâm nhập vào thói quen sử dụng của bác sĩ, cũng như vào quy trình ra quyết định của UCSF. Bởi vì niềm tin được xây dựng từ từ, dựa trên mối quan hệ và sự chấp thuận ngầm của người dùng, chứ không phải bằng cách xóa bỏ những thứ đó qua gradient descent.

Đây cũng chính là công việc của các công ty ứng dụng. Một ứng dụng chiếm được vị trí trong góc "không thể huấn luyện" nhờ vào những công việc không hào nhoáng: sắp xếp thực tế riêng tư của một công ty để mô hình có thể hành động dựa trên nó; trao cho mô hình các công cụ hành động; và cùng khách hàng thay đổi cách vận hành thực tế của lực lượng lao động của họ.

Một công ty có thể thực hiện "bản dịch" này rất khó bị sao chép, và quá trình này sẽ không bao giờ kết thúc. Việc tích hợp và bảo trì sẽ tiếp diễn cùng với mối quan hệ khách hàng. Những đội ngũ chiến thắng là những người đặt các kỹ sư chuyên sâu và công cụ ngay bên cạnh khách hàng.

Ví dụ, tại một công ty luật hàng đầu lâu đời, riêng mảng M&A đã có gần một nghìn giao dịch mỗi năm. Bạn không thể để hàng trăm trợ lý luật sư tải tài liệu khách hàng xuống máy tính cá nhân, rồi giao cho một Agent tổng quát đọc hết. Lý do bảo mật đã không cho phép điều đó, chưa kể hàng chục vấn đề khác. Ngay cả khi có thể, bạn cũng chỉ học được những mảnh vụn: mỗi trợ lý sửa một lỗi nhỏ, không ai thấy được toàn bộ một giao dịch vận hành ra sao.

Tín hiệu thực sự quan trọng nằm ở cấp độ giao dịch. Mỗi giao dịch có hình dạng riêng: đối với M&A, đó là NDA, term sheet, thẩm định, hợp đồng mua bán, tài liệu phụ lục, danh sách hoàn tất; đối với kiện tụng sở hữu trí tuệ, đó là đơn kiến nghị, khám phá chứng cứ, công nghệ hiện có, và thêm nhiều đơn kiến nghị. Mỗi lĩnh vực nghiệp vụ đều có cấu trúc riêng, luật sư và công cụ không thể tùy tiện thay thế cho nhau.

Vấn đề thực sự mà công ty luật này cần giải quyết còn ở cấp cao hơn: làm thế nào để vận hành đồng thời mọi lĩnh vực nghiệp vụ, giống như một đối tác cấp cao vừa quản lý song song hàng trăm vụ việc, vừa thu hút nguồn vụ mới và đào tạo trợ lý luật sư. Cải tổ một công ty như vậy không phải là một vấn đề đơn lẻ mà bạn có thể viết thành bài kiểm tra. Nó cần một người điều phối xử lý nó như chơi "bóng chày dữ liệu": mục tiêu trung gian cực kỳ mơ hồ, phản hồi không đầy đủ, chu kỳ rất dài, và bản thân môi trường cũng không đứng yên.

Không may, giá trị không thể đọc được cũng khó bán, vì lý do tương tự khiến nó khó hàng hóa hóa: một công ty không thể từ bên ngoài đánh giá liệu AI có thực sự cải tổ hoạt động của nó như các bài benchmark cho thấy hay không. Do đó, những công ty mạnh nhất sẽ ngừng cố gắng chứng minh bản thân từ bên ngoài, mà trước tiên thâm nhập vào nội bộ khách hàng, sau đó định giá dựa trên kết quả.

Sierra chỉ tính phí khi Agent của nó giải quyết được vấn đề của khách hàng; nếu vấn đề được chuyển cho con người, nó không tính phí. Do đó, bản thân giá cả trở thành cơ chế đánh giá. Và điều này khả thi vì Sierra có quyền định nghĩa thế nào là "đã giải quyết". Cognition với Devin đã làm điều tương tự trong lĩnh vực phần mềm, tung ra "bảo đảm hiệu suất". Chỉ khi được tin tưởng để vào bên trong một hệ thống, bạn mới có tư cách cung cấp sự bảo đảm đó cho kết quả.

Ngay cả ở cấp độ cung cấp dịch vụ token – thứ mà mọi người thường gọi là hàng hóa thuần túy – nó cũng không hoạt động như một hàng hóa. Các công ty AI-native tốt nhất tập trung dịch vụ vào một hoặc hai nhà cung cấp, như Baseten hoặc Fireworks. Bởi vì chi phí mỗi token sẽ dần trở thành hàng hóa theo thời gian, nhưng độ tin cậy dưới lưu lượng thực tế và khả năng truy cập ổn định vào tài nguyên tính toán khan hiếm thì không. Nơi cung cấp dịch vụ suy luận và việc sử dụng mô hình nào là hai lựa chọn khác nhau. Phần duy nhất thực sự giống hàng hóa trong suy luận là giá cả.

Một phản biện phổ biến là: Phòng thí nghiệm là nhà cung cấp của bạn, tại sao họ không bán sản phẩm độc quyền của mình dưới giá thành để tiêu diệt bạn? Hoặc trực tiếp thu hồi quyền truy cập API của bạn và tự mình chiếm lấy thị trường này? Đó mới là phiên bản thực sự của cảm giác tuyệt vọng đó. Nhưng điều này chỉ đúng khi tầng mô hình là một trò chơi một người.

Rõ ràng, thực tế không phải vậy. Tầng mô hình giống một cuộc đua sinh tử của ba rưỡi người chơi hơn, bên cạnh đó là một nhóm người chơi quốc tế có tiến độ huấn luyện chậm hơn khoảng sáu tháng, và một giải đấu phát triển có quy mô gấp năm lần năm ngoái. Khách hàng muốn có sự cạnh tranh giữa các nhà cung cấp của họ, và các phòng thí nghiệm muốn thị phần hơn là muốn tiêu diệt bất kỳ ứng dụng cụ thể nào.

Bạn có thể thấy điều này trong các thị trường nơi các phòng thí nghiệm cạnh tranh trực tiếp. Trong kịch bản chat tiêu dùng, mô hình tốt nhất chưa bao giờ đơn giản chiếm toàn bộ thị trường. ChatGPT đã duy trì vị trí dẫn đầu trong nhiều năm cạnh tranh thực tế; thị phần nó đang mất đi hiện tại chảy sang Gemini, và nguyên nhân là khả năng phân phối của Android và tìm kiếm, chứ không phải mô hình tốt hơn. Anthropic hiện được coi là có mô hình tốt nhất trong các thị trường dự đoán và bầu không khí internet, nhưng nó hầu như không phải là người chơi chính trong chat tiêu dùng, mà đã xây dựng hoạt động kinh doanh của mình trong các kịch bản doanh nghiệp và lập trình.

Nếu một mô hình tốt hơn không thể cướp người dùng của đối thủ trong ứng dụng cốt lõi nhất, nó cũng sẽ không dễ dàng chiếm lấy hệ thống hồ sơ bệnh án của bệnh viện hoặc hệ thống trách nhiệm của ngân hàng thông qua tích hợp. Ngày nay, công chúng chọn sản phẩm dựa trên nhiều thứ hơn là chỉ khả năng lập trình. Nếu tầng mô hình tiên tiến vẫn đông đúc, thì tầng ứng dụng phía trên nó sẽ có giá trị.

Nếu một công việc không thể được đánh giá từ bên ngoài, thì bên trong phải có người quyết định thế nào mới là câu trả lời tốt. Và quyết định này chính là toàn bộ trò chơi. Đủ nhiều quyết định như vậy được ghi lại sẽ trở thành benchmark. Harvey đã phát hành benchmark cho lĩnh vực pháp lý, Sierra đã phát hành benchmark cho voice agent. Bạn có quyền định nghĩa "tốt" có nghĩa là gì trong một lĩnh vực, bởi vì lĩnh vực đó đã sử dụng bạn. Và những công ty này giành được quyền đó thông qua cuộc chiến khó khăn trong quá trình áp dụng thực tế.

Đánh giá thực sự quyết định dòng tiền là riêng tư, được hình thành theo từng công ty: Công ty này, trong vấn đề này, sẽ chấp nhận điều gì là công việc tốt. Và điều này còn lâu mới hoàn thành, bởi vì chiều sâu của pháp lý vượt xa bất kỳ bài kiểm tra công khai nào. OpenEvidence đang kết tinh thế nào là câu trả lời lâm sàng an toàn.

Tất cả những điều này thực ra không phải là "đo lường" theo nghĩa đen, mà là phán đoán về điều gì là thật, điều gì là tốt. Những phán đoán này được ghi lại cho đến khi chúng trở thành tiêu chuẩn mà tất cả những người khác phải chấp nhận để được đánh giá. Dù phòng thí nghiệm mô hình nền tảng có trở nên thông minh đến đâu, nó cũng không thể viết ra những tiêu chuẩn này từ con số không, bởi vì vị thế này chỉ tồn tại trong nội bộ lĩnh vực.

Quyền lực này thường rơi vào đúng nơi nó vốn có. Các luật sư kỳ cựu viết ra những chuẩn mực pháp lý. Bác sĩ là người định nghĩa câu trả lời lâm sàng an toàn. Công ty đã có mối quan hệ khách hàng từ trước sẽ quyết định "đã giải quyết" có nghĩa là gì.

Ranh giới hấp thụ sẽ tiếp tục mở rộng, vì chúng ta sẽ liên tục học cách đo lường nhiều công việc hơn, và những thứ có thể đo lường được sẽ bị nuốt chửng. Mặt đất không thể huấn luyện sẽ ngày càng thu hẹp dưới chân những người đứng trên nó, vì vậy bạn không thể dừng lại ở một vị trí có thể phòng thủ. Bạn phải liên tục tiến về những nơi chưa thể chấm điểm, và không ngừng tái bảo hiểm, tái đánh giá rủi ro.

Trong một nhiệm vụ hẹp, với dữ liệu riêng và hệ thống đánh giá của chính bạn, bạn có thể huấn luyện đến trình độ tiên tiến và đánh bại các mô hình tổng quát trong các tình huống then chốt; mô hình chuyên dụng này sẽ trở thành một phần của hào phòng thủ. Mặt khác, nếu bạn cạnh tranh dựa trên năng lực của mô hình tổng quát, đó là một cuộc chiến vốn, và bạn sẽ thua những người có nhiều sức mạnh tính toán nhất. Đây cũng là cái bẫy dễ rơi vào nhất đối với những công ty chỉ có quyền truy cập nông và nhiệm vụ có tính đọc cao.

Khi một công ty quyết định sống sót bằng cách huấn luyện năng lực vượt trội so với các mô hình tiên tiến trên một loạt nhiệm vụ tổng quát, kết quả thường đã được quyết định bởi quy mô trung tâm dữ liệu. Kết cục cuối cùng thường không phải là sự xuất hiện của một nhà vô địch độc lập, mà là bị bán cho một người chơi có đủ sức mạnh tính toán.

Trên đây đều là phòng thủ. Khó hơn là tấn công: trước tiên quyết định xem thực sự cần xây dựng cái gì. Đây là thứ tôi đã tìm kiếm suốt năm nay, và có lẽ tôi chỉ tìm thấy ba lần. Mô hình không giúp ích được gì trong việc này. Bạn chỉ nó đến đâu, nó sẽ làm việc đó; nhưng nó không thể cho bạn biết điều gì đáng để chỉ đến. Bạn không thể thiết lập benchmark cho việc này, và do đó cũng không thể huấn luyện nó.

Đây cũng là lý do tại sao các gã khổng lồ hiện tại không chiếm hết mọi thứ: chúng sẽ giữ vững lãnh thổ đã có, và thứ tiếp theo đến từ một người phát hiện ra công dụng trước những người khác. Có lẽ, ý định là một đầu vào khan hiếm hơn cả sức mạnh tính toán.

Cảm giác tuyệt vọng này đúng một nửa. Lớp vỏ mỏng quả thực đang bị hấp thụ, và nhiều thứ trông giống công ty ngày nay thực chất chỉ là lớp vỏ mỏng. Nhưng nó sai về "những gì còn lại sau khi hấp thụ". Cơ chế thì rõ ràng, nhưng điểm kết thúc thì không.

Tôi sẵn sàng đặt cược theo hướng này: trí thông minh sẽ tiếp tục trở nên rẻ hơn, và giá trị sẽ tiếp tục trượt về những nơi mà một số ít mô hình không thể chạm tới. Thứ không thể huấn luyện, là giá trị mang theo lịch sử.

Vì vậy, hãy bước vào một trong những lĩnh vực như vậy, làm những công việc dịch thuật không mấy hào nhoáng, và bắt đầu viết ra định nghĩa về "tốt" ở đó. Bởi vì sẽ luôn có người làm điều đó. Điểm benchmark được trích dẫn nhiều nhất năm nay thực chất là một tấm bản đồ lãnh thổ sắp trở nên vô giá trị, và cũng là một thông báo: thông báo cho một số người rằng họ sắp mất quyền định nghĩa thế nào là "tốt".

[Liên kết gốc]

Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:

Nhóm Telegram đăng ký: https://t.me/theblockbeats

Nhóm Telegram thảo luận: https://t.me/BlockBeats_App

Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia

#trí tuệ nhân tạo #xu hướng

Báo lỗi/Báo cáo