BTC

$96,000

5.73%

ETH

$3,521.91

3.97%

HTX

$0.{5}2273

5.23%

SOL

$198.17

3.05%

BNB

$710

3.05%

简体中文

繁體中文

English

Tiếng Việt

한국어

日本語

ภาษาไทย

Türkçe

Nghịch lý Tự động hóa: AI càng mạnh, con người càng bận rộn

Đọc bài viết này mất 100 phút

Trí tuệ nhân tạo tạo ra thêm công việc đòi hỏi sự phán đoán của con người

原文标题：Sau Quá Trình Tự Động Hóa
原文作者：Dan Shipper, Mỗi CEO
Biên Dịch: Peggy, BlockBeats

Biên tập viên chú thích: Gần đây, cuộc thảo luận về trí tuệ nhân tạo (AI) và công việc đã gần như bị một câu hỏi chi phối: Với việc năng lực mô hình tiếp tục được cải thiện, liệu các công việc văn phòng có bị thay thế hàng loạt không? Từ việc tạo mã, tự động hóa dịch vụ khách hàng đến sản xuất nội dung, Agent đang tiếp quản những công việc kiến thức mà trước đây cần con người thực hiện. Các bài kiểm tra chuẩn cũng liên tục củng cố lo lắng này: Hiệu suất của mô hình trong suy luận cấp sau đại học, nhiệm vụ kinh tế thực tế và việc sắp xếp mã cấp cao của kỹ sư vừa nhanh chóng cải thiện, dường như đang tiến gần đến một ngưỡng mặt phẳng "công việc của con người bị nuốt chửng bởi tự động hóa".

Nhưng CEO của Mỗi Dan Shipper trong bài viết này đưa ra một quan sát ngược lại: Càng tự động hóa, càng nhiều công việc mà con người phải làm. Every là người dùng sử dụng sâu sắc các công cụ như Codex, Claude Code, Slack Agent, Agent dịch vụ khách hàng trong nội dung, viết mã, thiết kế, dịch vụ khách hàng và quy trình quản lý. Nhưng kết quả không phải là nhân viên bị thay thế hoàn toàn, mà là hình thức công việc đã trải qua tái cấu trúc: Kỹ sư không còn chỉ viết mã nữa, mà là duyệt xem, tái cấu trúc và thiết kế hệ thống; biên tập viên không chỉ viết bài báo nữa, mà là đánh giá xem cái gì xứng đáng để viết, viết như thế nào khác biệt; nhân viên dịch vụ khách hàng không còn xử lý mỗi thông báo cơ bản, mà là duy trì một hệ thống có thể tự động phản hồi cho khách hàng.

Cái đáng chú ý nhất trong bài viết này không phải là "AI có thể hoàn thành một nhiệm vụ hay không", mà là nó đã định nghĩa lại vị trí của con người trong công việc kiến thức. AI giỏi ở việc biến những khả năng đã được củng cố từ trước trở nên rẻ tiền: mã nguồn, văn bản, hình minh họa, phản hồi dịch vụ khách hàng, mô tả sản phẩm, báo cáo nghiên cứu, tất cả có thể được mô hình tạo ra nhanh chóng. Nhưng khi những khả năng này trở nên có sẵn cho mọi người, điều thường xuất hiện trên thị trường không phải là sản phẩm đặc biệt chất lượng cao, mà là một lượng lớn "đầu ra mặc định" dường như giống nhau, thiếu sự đánh giá và ngữ cảnh. Nói cách khác, AI định cư hóa "khả năng của con người hôm qua", trong khi sự khan hiếm thực sự là khả năng phán đoán khi đối mặt với vấn đề cụ thể ngay lúc này.

Do đó, tự động hóa không làm tiêu tan các chuyên gia, mà là tạo ra nhiều tình huống mà cần sự can thiệp của chuyên gia. Khi nhân viên vận hành có thể sử dụng AI để gửi mã, kỹ sư cần phải đánh giá xem mã nào xứng đáng để hợp nhất; khi nhân viên marketing có thể tạo hình minh họa trong vài giây, người thiết kế cần xác định cái gì phù hợp với thương hiệu và mục tiêu truyền đi; khi kỹ sư cũng có thể viết bài, biên tập viên cần biến bản nháp thành nội dung thực sự có quan điểm, có cấu trúc, có thể xuất bản. AI mở rộng bán kính sản xuất, cũng như tăng cường nhu cầu kiểm soát chất lượng, xây dựng hệ thống, đánh giá ranh giới và biểu hiện khác biệt.

Tác giả đã tiếp tục giải thích mâu thuẫn này bằng cách sử dụng benchmark. Dù là Senior Engineer Benchmark hay GDPval của OpenAI, điểm số của mô hình đo lường không phải là về "trí tuệ" trừu tượng mà là về hiệu suất của mô hình trong một khung việc cụ thể. Prompt, ranh giới nhiệm vụ, tiêu chí đánh giá, định dạng kết quả, tất cả đã chứa đựng một lượng lớn sự đánh giá từ con người. Mô hình có thể nhanh chóng thuận theo khung việc, nhưng khung việc đó được con người thiết lập; khi một khung việc bị mô hình vượt qua, con người lại đẩy vấn đề tới một khung việc mới phức tạp hơn.

Điều này cũng chính là phản ứng thú vị nhất của bài viết này đối với sự lo lắng về AGI: dù mô hình có mạnh đến đâu, nó thường đuổi theo một trong những ranh giới con người vẽ ra, chứ không phải là người vẽ ranh giới. Trí tuệ nhân tạo có thể thực thi mục tiêu, tối ưu hóa con đường, nâng cao hiệu quả, nhưng miễn là nó vẫn đang phản ứng với vấn đề được con người thiết lập, nó vẫn thiếu vắng tính chủ thể đích thực. Tương lai của công việc tri thức không phải là con người biến mất khỏi quy trình, mà chính là từ người thực thi chuyển sang người thiết kế khung việc, người duy trì hệ thống, người đánh giá chất lượng và người xác định ý nghĩa.

Sau quá trình tự động hóa, giá trị của công việc con người không hề biến mất, chỉ là nó trở nên khó khăn hơn, phức tạp hơn, và cần đến sự đánh giá. Trí tuệ nhân tạo làm cho việc "biết làm" trở nên rẻ tiền, nhưng làm cho việc "biết những gì đáng làm, tại sao làm, làm đến đâu thì là đủ" trở nên hiếm.

Dưới đây là phần văn bản gốc:

Trung tâm của Trí tuệ nhân tạo, tồn tại một mâu thuẫn.

Tại Every, chúng tôi đã tự động hóa hết mức có thể. Dù là việc lập trình, viết văn, thiết kế, dịch vụ khách hàng, hay bất kỳ công việc nào khác hàng ngày, chúng tôi đều đang sử dụng Codex và Claude Code. Trước khi OpenAI, Anthropic, Google công bố các mô hình mới, chúng tôi sẽ tham gia kiểm tra alpha. Có thể nói, chúng tôi đang nắm bắt cơ hội để giữa tăng cường trí tuệ và khả năng tự động hóa của mô hình một cách cực kỳ nhanh chóng và sâu rộng nhất có thể.

Nhưng mâu thuẫn là, đối với chúng tôi, công việc mà con người cần phải thực hiện dường như nhiều hơn bao giờ hết. Hiện tại, Every đã trở thành một nhóm gần 30 người, chúng tôi không sa thải tất cả nhân viên chỉ vì có Agent; cũng không từ bỏ các công cụ SaaS để hoàn toàn chuyển sang ứng dụng được tạo ra từ vibe coding. Chúng tôi vẫn đang tuyển dụng nhân viên dịch vụ khách hàng thực, chỉ là họ sẽ nhận được sự hỗ trợ lớn từ Agent; chúng tôi cũng vẫn đang tuyển tác giả, biên tập viên và kỹ sư.

Tuy nhiên, hình thức công việc đã thay đổi một cách đáng kể. Chúng tôi gần như không còn viết mã từ con người nữa. Nếu bạn đề cập tới một người nào đó trong Slack, liệu đó có phải là con người hay Agent, đôi khi cũng không dễ phân biệt. Các quản lý bắt đầu gửi mã như một cá nhân đóng góp cấp đầu, các kỹ sư cũng bắt đầu tương tác trực tiếp với khách hàng. Trong vài tuần qua, 95% email công việc của tôi đều được AI trả lời. Hòm thư đến của tôi gần như luôn trống rỗng — điều hiếm gặp với tôi — nhưng tôi vẫn kiểm tra từng email một cách cẩn thận.

Nói cách khác, tương lai dường như rất xa lạ, nhưng cũng kỳ lạ quen thuộc.

Chính sự "quen thuộc" này làm người ta ngạc nhiên. Bởi vì dường như cả CEO, công nhân tri thức và nhà đầu tư đều ngày càng tin vào cùng một điều: Trí tuệ Nhân tạo đang đe dọa việc làm, nền kinh tế, an ninh, và thậm chí ý nghĩa của công việc con người.

CEO của Anthropic, Dario Amodei đã cảnh báo rằng Trí tuệ Nhân tạo có thể tiêu diệt tới một nửa các vị trí công việc dành cho nhân viên văn phòng cấp thấp. Meta vừa mới sa thải 8000 người và bắt đầu cài đặt phần mềm trên máy tính của nhân viên tại Mỹ để ghi lại chuyển động chuột, click chuột và nhập từ bàn phím, nhằm thu thập dữ liệu huấn luyện công việc tri thức cấp cao chất lượng cao hơn.

Ngay cả nhà sáng lập Citadel, Ken Griffin, cũng tỏ ra rất sốc. Ông vừa đây đã phát ngôn: "Những vị trí công việc này không phải là vị trí công việc văn phòng cấp thấp, mà là vị trí công việc có kỹ năng cực kỳ cao, đang bị -- tôi cân nhắc một chút từ ngữ này -- vẫn thực hiện tự động hóa bởi Trí tuệ Nhân tạo Hành vi."

Có vẻ như mọi loại kiểm tra chuẩn cũng đang hỗ trợ nhận định này. Với việc liên tục tung ra các mô hình thế hệ mới, chỉ số năng lực của mô hình đang tăng với tốc độ gần như theo cấp số nhân. Trong bài kiểm tra trình độ tư duy ở mức độ học viên cao cấp Humanity's Last Exam này, điểm số của các mô hình hàng đầu tăng từ mức thấp một số chữ số năm trước lên khoảng 44% hiện tại. Trong bài kiểm tra GDPval đánh giá khả năng hoàn thành công việc kinh tế thực sự của mô hình tiên tiến và so sánh với kết quả của con người, điểm số của mô hình cũng tăng từ cỡ thấp tương đương lên khoảng 85%. Vào tháng 5 năm nay, tổ chức nghiên cứu an ninh Trí tuệ Nhân tạo phi lợi nhuận METR đã phát hành kết quả thử nghiệm ban đầu của Claude Mythos: trên một số nhiệm vụ mà các chuyên gia con người mất khoảng 4 giờ mới hoàn thành, tỉ lệ thành công của mô hình đạt 80%.

Dường như, chúng ta đang đứng trước một điểm nền: một Trí tuệ Nhân tạo thông minh hơn bất kỳ con người nào và có khả năng làm việc tự động liên tục suốt một ngày đang tiến gần tới hiện thực.

Tuy nhiên, sự mâu thuẫn vẫn tồn tại. Nếu bạn trò chuyện với người làm việc trong ngành AI hoặc những người sử dụng AI sớm nhất từ bên ngoài ngành, bạn sẽ nghe thấy một kết luận giống như quan sát của chúng tôi: công việc cần phải làm ngày càng nhiều hơn.

Điều quan trọng thực sự đang được quan tâm trong và ngoài ngành là: Đây chỉ là một trạng thái chuyển tiếp phải không? Lần tung mô hình tiếp theo, liệu đó có thể là lúc thay thế thực sự tất cả mọi người không? Chúng ta đang canh chừng đường cong kiểm tra chuẩn, một bên hồi hộp, một bên lo lắng, lo ngại rằng một ngã rẽ có thể đến bất cứ lúc nào, khi đó một lượng lớn công việc sẽ biến mất đột ngột.

Nhưng theo quan điểm của tôi, không có một "điểm nền" như vậy đột ngột xuất hiện, làm cho mọi thứ đảo lộn ngay lập tức, khiến công việc mất mát quy mô lớn. Thực tế mới ngược lại: độ tự động hoá càng cao, càng có nhiều công việc yêu cầu sự tham gia của chuyên gia con người.

Lý do là, trí tuệ nhân tạo đang thương mại hóa những phần của khả năng chuyên môn của con người mà có thể được biểu hiện rõ ràng, huấn luyện và sao chép. Bất kỳ kiến thức nào có thể viết thành quy tắc, lắng đọng thành quy trình, chuyển đổi thành dữ liệu huấn luyện đều sẽ dần dần trở thành khả năng mặc định của mô hình. Kết quả là, giá trị đầu ra của mô hình thông thường bị giảm nhanh chóng, và thị trường bắt đầu cần đến những thứ khác biệt hơn.

Và yêu cầu về "khác biệt" đó, về bản chất là yêu cầu về chuyên gia con người. Ngay cả khi chúng ta đang tiến gần đến trí tuệ nhân tạo tổng quát, điều này cũng sẽ không biến mất.

Để hiểu lý do của điều này, không thể chỉ nhìn vào đồ thị kiểm tra chuẩn, cũng như không thể chỉ tập trung vào tham số mô hình và bảng xếp hạng khả năng. Chúng ta phải quay trở lại với bối cảnh làm việc thực tế, xem xem trí tuệ nhân tạo ngày nay đang được sử dụng như thế nào. Chỉ khi làm điều này, chúng ta mới thực sự hiểu được sự mâu thuẫn này và câu trả lời đằng sau nó.

Làm sao chúng ta đã đến được đây

Từ năm 2022, chúng tôi luôn quan tâm đến ảnh hưởng của Đại lý đối với công việc tương lai.

Ba năm trước, tôi đã viết một bài báo về "nền kinh tế phân phối" (allocation economy). Lúc đó, quyết định của tôi là, hợp tác với công cụ trí tuệ nhân tạo sẽ cuối cùng trở nên giống như công việc của một người quản lý: bạn không còn thực hiện mỗi hành động một cách cá nhân, mà là phân chia, phân công, giám sát và chấp nhận nhiệm vụ. Lúc đó, câu hỏi và trả lời cơ bản nhất trong ChatGPT vẫn được nhiều người xem là rất có tương lai, thậm chí là một chút đầy lo lắng.

Đến giữa năm 2025, công ty Every gần như hoàn toàn đã "Claude Code hóa" mình. Giám đốc điều hành Cora Kieran Klaassen đột ngột nhận ra rằng, anh ta đã có thể bỏ việc viết mã bằng tay, thay vào đó chỉ cần dùng ngôn ngữ tự nhiên để chỉ đạo một Đại lý lập trình suốt cả ngày trên terminal. Cách làm việc này nhanh chóng lan rộ khắp công ty. Khoảng 12 tháng trước, tôi đã nói trong Podcast của Lenny rằng, Claude Code là công cụ được đánh giá thấp nhất trong công việc tri thức.

Lý do tôi nhắc đến những điều này là vì những đánh giá chính xác nhất của chúng ta trong quá khứ thường đến từ việc xem Every như một phòng thí nghiệm frühe công nghệ. Nhiều mô hình làm việc mới, thường trước tiên xuất hiện trong nội bộ của chúng tôi; sau đó, khi công nghệ trở nên thành thạo hơn, công cụ trở nên dễ sử dụng hơn, những mô hình này mới dần dần lan rộ vào thị trường rộng lớn hơn.

Và bây giờ, nội bộ của chúng tôi đang có những thay đổi mới.

Hai kiểu hợp tác với Đại lý

Cách làm việc xung quanh trí tuệ nhân tạo đang dần dần hội tụ thành hai kiểu mô hình rất khác nhau.

Loại đầu tiên liên quan đến việc coi Agent như một nhân viên đã được dự đoán khá chính xác trong các cuộc thảo luận trước đó về AI: đặt Agent vào vai trò của một nhân viên. Loại Agent này có thể được giao nhiệm vụ. Một số Agent sống trong Slack, có tên riêng và trách nhiệm riêng, khi bạn cần chúng làm việc, bạn có thể đề cập đến chúng trực tiếp bằng cách sử dụng ký hiệu @; và một số Agent khác đã được nhúng vào các luồng làm việc liên tục, chẳng hạn như hệ thống chăm sóc khách hàng, là cổng vào và bộ lọc hoạt động toàn thời gian cho các nhiệm vụ lặp lại.

Loại thứ hai mặc dù ít quen thuộc hơn, nhưng theo trải nghiệm của tôi, cũng quan trọng hơn. Nó đề cập đến việc con người và Agent hợp tác trong các công cụ như Codex, Claude Code, Claude Cowork. Các công cụ này không chỉ là nơi bạn giao việc mà chúng đang trở thành hệ điều hành của công việc: bạn và nhiều Agent cùng sử dụng cùng một "máy tính", hợp tác trong cùng một môi trường làm việc, hoàn thành các nhiệm vụ cực kỳ phức tạp, sáng tạo và không thể giao cho Agent bất đồng bộ dễ dàng.

Trong cả hai loại mô hình này, bạn đều có thể tự động hóa và giao phần lớn công việc bằng AI. Nhưng để thực sự thành công với cả hai mô hình này, bạn vẫn cần đến bạn hoặc một con người khác để tham gia.

Agent nhân viên

Agent nhân viên được hiểu là bạn giao cho họ một nhiệm vụ, sau đó họ không cần tham gia thời gian thực của bạn nữa mà độc lập tạo ra một câu trả lời, một hành động, một báo cáo, một bản nháp hoặc một quyết định chuyển hướng.

Loại Agent này có ít nhất hai hình thái: một loại là "Agent đồng nghiệp," loại khác là "Agent nhúng".

1. Agent đồng nghiệp

Với Agent đồng nghiệp, bạn có thể gọi chúng ra như @ một đồng nghiệp trong Slack để hoàn thành một công việc nào đó. Chúng luôn ở đó và có thể được gọi khi cần. Sản phẩm như OpenClaw, hoặc sản phẩm Plus One mà chúng tôi phát triển nội bộ, đều thuộc loại này.

Claudie

Claudie là Agent đồng nghiệp mà nhóm tư vấn của chúng tôi sử dụng. Nó sẽ soạn thảo đề xuất bán hàng, tạo ra bản nháp tài liệu đào tạo, theo dõi các mục công việc dự án và thậm chí xử lý nhiều công việc khác.

Andy

Andy là Agent đồng nghiệp mà nhóm biên tập của chúng tôi sử dụng. Nó sẽ thu thập từ Slack nội bộ của công ty những "điểm nguyên liệu" đáng giá để mở rộng thêm - nghĩa là những ý tưởng tốt có thể phát triển thành các bài viết - và tổ chức chúng thành bản tóm tắt và quan điểm sơ bộ để các tác giả sử dụng trong việc soạn thảo bản tin tin tức hàng ngày.

Viktor

Viktor là một Agent đa năng, sẽ đảm nhận công việc giao tiếp giữa các bộ phận trong công ty. Chúng ta sẽ sử dụng nó để thu thập các chỉ số tăng trưởng, phân tích kết quả khảo sát người dùng, cũng như để nó sắp xếp cuộc thảo luận nội bộ rối rắm thành ghi chú nghiên cứu và đề xuất sản phẩm.

2. Agent Nhúng

Agent Nhúng tồn tại trong luồng công việc cụ thể của sản phẩm. Họ không linh hoạt như Agent đồng nghiệp, nhưng thường rất mạnh mẽ khi xử lý các nhiệm vụ lặp đi lặp lại.

Fin là một ví dụ rõ ràng nhất. Nó là một Agent được nhúng vào nền tảng dịch vụ khách hàng của chúng ta, có thể xử lý một lượng lớn công việc dịch vụ khách hàng qua trò chuyện và email.

Trong một tuần của tháng 5 năm nay, Fin đã tham gia 65% trong tổng số 202 cuộc trò chuyện dịch vụ khách hàng của Every và độc lập đóng 81 trường hợp mà không cần sự can thiệp của con người, chiếm 40,1% trong số tất cả các cuộc trò chuyện có thể xử lý.

Các Agent nhúng như vậy cho phép quản lý dịch vụ khách hàng của chúng ta, Waqqas Mir, dành ít thời gian hơn vào việc trả lời các yêu cầu dịch vụ cơ bản, đặt nhiều năng lượng hơn vào việc xây dựng "hệ thống phản hồi tự động cho yêu cầu dịch vụ", cũng như xử lý các trường hợp khách hàng đòi hỏi sự tiếp xúc cao hơn và đánh giá phức tạp hơn.

Hợp Tác Giữa Con Người và AI

Dù là Agent đồng nghiệp hay Agent nhúng, mẫu hậu tố đằng sau là như nhau: Nhân viên Agent đang đảm nhận vai trò trong các tầng làm việc ổn định, lặp lại và rõ ràng ranh giới hơn.

Nhưng vẫn còn rất nhiều công việc mà cần phải có sự tham gia của con người. Chúng tôi liên tục nhận ra rằng chỉ cần nhiệm vụ đủ phức tạp, để có được kết quả thực sự chất lượng cao, cách tốt nhất không phải là giao việc hoàn toàn cho trí tuệ nhân tạo, mà là để trí tuệ nhân tạo và con người cùng hợp tác trong cùng một không gian làm việc.

Đó chính là giá trị của các công cụ như Codex, Claude Code và Cowork. Chúng cho phép bạn bắt đầu một hoặc nhiều Agent trong nhiều luồng trò chuyện và ủy quyền nhiệm vụ cho họ. Những Agent này có thể truy cập vào máy tính của bạn và tất cả các nguồn dữ liệu liên quan. Bạn có thể xem Agent nào đang thực hiện công việc gì, đang suy nghĩ như thế nào và có thể ngắt họ bất cứ lúc nào.

Đồng thời, bạn vẫn phải chịu trách nhiệm quản lý những Agent này: rõ ràng hướng dẫn ở đầu mỗi nhiệm vụ, kiểm tra chất lượng khi kết thúc nhiệm vụ, đảm bảo kết quả đủ tốt và tiếp tục tìm ra công việc tiếp theo xứng đáng tiến hành. Kieran gọi vị trí này là "bánh mì sandwich con người" - AI đảm nhận phần công việc giữa, trong khi con người giống như hai lớp bánh mì, nằm ở hai đầu nhiệm vụ.

“Bánh Mì Người Máy” (Human Sandwich Bread). Nguồn: Every.

Một ví dụ điển hình nhất là việc viết code. Tại Every, các kỹ sư gần như làm việc cả ngày với Agent. Họ sẽ cùng nhau lên kế hoạch cho tính năng mới hoặc sửa lỗi, xem xét công việc đã hoàn thành; nếu áp dụng triết lý "kỹ thuật hợp nhất" mà chúng tôi nói, họ cũng sẽ liên tục tinh chỉnh hệ thống của mình, khiến nó trở nên tốt hơn theo thời gian.

Nhưng cách làm việc này không chỉ dừng lại ở việc viết code.

Hệ Điều Hành Công Việc Mới Của Công Việc Kiến Thức

Codex và Claude Code đang trở thành một hệ thống hoạt động công việc mới. Tôi gần như toàn bộ ngày làm việc trong Codex, chạy các công cụ SaaS qua trình duyệt tích hợp của nó. Điều này giúp tôi có thể đưa Agent vào từng tình huống làm việc và đạt được một cấp độ làm việc mà chỉ một mình tôi không thể đạt được.

Viết

Bài viết này chính là tôi viết trong trình duyệt tích hợp của Codex, bằng Proof. Codex sẽ quan sát tôi đang viết cái gì, và có thể bất kỳ lúc nào khởi chạy một Agent con để thực hiện bất kỳ nhiệm vụ nào tôi cần: soạn bản nháp cho một đoạn, tìm kiếm trường hợp cho phần tiếp theo hoặc chỉnh sửa và hoàn thiện văn bản.

Viết bài dưới Codex bằng Proof. Nguồn: Every.

Khi xử lý email, tôi cũng áp dụng cùng cách. Cora là ứng dụng email của tôi, và tôi sẽ mở nó trong trình duyệt tích hợp của Codex, đồng thời thông qua Monologue diễn giải phương pháp xử lý mỗi email. Phần còn lại sẽ để cho Codex và Cora hoàn thiện.

Quá trình dọn dẹp hộp thư bằng Cora. Nguồn: Every.

Mỗi Agent Đều Cần Một Con Người

Trong tất cả các tình huống tự động hóa đã nói, bạn có thể nhận ra sức ảnh hưởng của con người ở đâu. Trong mỗi ví dụ, Agent đều cần sự tham gia của con người để công việc có thể thực sự diễn ra.

Có ai đó phải đưa ra câu hỏi đúng, đánh giá xem kết quả có đủ tốt không, tìm ra những lỗi trong đó, và chuyển kết quả đó thành quyết định hoặc quy trình trong thực tế.

Khi một Agent càng xa cách người giám sát hiệu quả làm việc của nó, hiệu suất công việc của nó thường sẽ kém đi. Trong chiến dịch quảng cáo nội bộ ban đầu, chúng tôi đã trang bị mỗi nhân viên một Agent. Nhưng nhanh chóng, chúng tôi đã quay lại việc cho Agent phục vụ một nhóm cụ thể hoặc toàn bộ công ty, thay vì phục vụ một cá nhân duy nhất.

Lý do rất đơn giản: Agent cần phải được bảo trì một cách nhiều. Một khi người dùng bỏ theo dõi Agent cá nhân, nhanh chóng nó sẽ trở nên lỗi thời và không còn hiệu quả. Chúng tôi có một nhóm kỹ sư AI chuyên trách đảm bảo rằng những Agent này có thể hoạt động một cách ổn định và hiệu quả. Và trong tương lai dự kiến, chúng tôi vẫn sẽ cần đến nhóm này. Ngay cả một nhiệm vụ dường như đơn giản như "Tự động tạo PowerPoint" cũng có thể phát triển thành một hệ thống kỹ thuật phức tạp. Một trong những luồng làm tự động PowerPoint của chúng tôi bao gồm 24 kỹ năng và 18 tập lệnh, chi phí token để tạo ra một bài thuyết trình lên đến 62 đô la Mỹ.

Đó là lý do mà Agent thực sự tạo ra nhiều công việc hơn cho con người.

Nhưng còn một lý do nữa.

Tại sao tự động hóa khiến con người làm việc nhiều hơn

Nếu bạn quan sát sự phát triển cấp số nhân của khả năng AI trong vài năm qua, kết hợp với cách tổ chức và nguồn lực của nó, bạn sẽ nhận thấy một chuỗi phản hồi rõ ràng: chúng đang không ngừng tạo ra nhiều công việc cho con người.

AI làm cho "khả năng con người ngày hôm qua" trở nên rẻ tiền

Các mô hình ngôn ngữ lớn hiện tại được huấn luyện dựa trên những dấu vết của khả năng con người: mã nguồn, bài viết, hình ảnh, các yêu cầu hỗ trợ khách hàng, tài liệu sản phẩm, và nhiều nội dung khác. Chúng hấp thụ nội dung này, nghĩa là những "dư chất" còn lại từ các nhiệm vụ đã hoàn thành thành công, sau đó tái đóng gói lại một cách rẻ tiền và dễ sử dụng cho mọi người.

Kết quả là, nhiều khả năng trước đây hiếm hoi, như việc gửi một pull request, tạo một hình ảnh thumbnail cho YouTube, viết một bản tin tin tức, bây giờ gần như mở cửa cho tất cả mọi người.

Khả năng rẻ tiền sẽ nhanh chóng được áp dụng

Khi một thứ ban đầu hiếm hoi giá cả giảm xuống, nguồn cung sẽ tăng nhanh chóng.

Tại Every, chúng tôi luôn thấy rõ sự thay đổi này. Các nhân viên vận hành và hỗ trợ bắt đầu viết mã, submit pull request; nhân viên tiếp thị bắt đầu tạo hình ảnh thumbnail cho YouTube; kỹ sư và nhân viên sản phẩm cũng bắt đầu viết bài, hướng dẫn và bản nháp trang, mà trước đây không phải là công việc mà họ thường đảm nhận.

Biến đổi này cũng xảy ra bên ngoài phạm vi Every. Ví dụ, dự án OpenClaw AI Agent mã nguồn mở đã nhận được 44,469 yêu cầu kéo (pull request) tính đến ngày 16 tháng 5 năm 2026, trong đó có 12,430 yêu cầu từ ngày 1 tháng 4, và 3,990 yêu cầu từ ngày 1 tháng 5. Đây là một con số đáng kinh ngạc. Để so sánh, Kubernetes, một trong những dự án mã nguồn mở phổ biến nhất trên toàn cầu, chỉ nhận được tổng cộng 5,200 yêu cầu kéo trong năm 2022.

Thừa cân đem đến sự đồng nhất: Khả năng của chuyên gia cũ trở thành hàng hóa

Vì ai cũng có thể sử dụng cùng một mô hình, và những mô hình này lại được xây dựng trên nền tảng của "khả năng con người ngày hôm qua," nên mặc định, những gì mà mô hình tạo ra thường nằm giữa "điểm bắt đầu tốt" và "nội dung AI tinh vi một cách tinh tế."

Khi nói đến "nội dung tinh vi," đây không phải là về một sai sót cụ thể nào đó. Nó không phải là việc sử dụng dấu gạch ngang quá nhiều, không phải về một cấu trúc câu cố định nào đó, hoặc không phải là điểm nhấn màu tím xuất hiện khắp mọi nơi trên trang đích. Đó chính là một sự đồng nhất rõ ràng, liên tục và khiến người ta chán chường.

Khi con người từ các bối cảnh khác nhau sử dụng cùng một bộ công cụ, và bộ công cụ này dựa trên cùng một Corpos, và người sử dụng không đưa ra nhận xét đủ sâu, kết quả như vậy sẽ xảy ra. Nói cách khác, khi mỗi người đều có một "chuyên gia" có khuynh hướng và phong cách mặc định giống nhau, thì sự đồng nhất sẽ tự nhiên xảy ra.

Khi nhân viên vận hành có thể gửi yêu cầu kéo, nhân viên tiếp thị có thể tạo ảnh xem trước YouTube trong vài giây, và kỹ sư bắt đầu viết hướng dẫn sản phẩm, rất dễ bị rơi vào tình hình như thế: bạn tăng số lượng mục của mình lên, nhưng chất lượng, tính nhất quán và tính độc đáo của công việc lại giảm đi.

Và khi sự đồng nhất trở nên quá thừa cân, nó sẽ nhanh chóng trở thành hàng hóa.

Sự đồng nhất tạo nên nhu cầu về tính khác biệt

Với sự tồn tại của Internet, con người nhanh chóng nhận biết được cái mà gọi là nội dung dòng chảy quá "mùi AI." Bất kỳ tác phẩm nào cũng có thể nhanh chóng xuất hiện trước mặt người khác trên thế giới, và thực tế thì điều đó thường xảy ra. Một khi quá nhiều thứ bắt đầu trở nên giống nhau, chúng ta sẽ nhanh chóng nhận thấy sự lạ lùng.

Điều này có nghĩa là, khi bạn lần đầu tiên thấy khả năng của một mô hình mới nào đó, bạn có thể bị sốc, thậm chí có phần sợ hãi. Nhưng sau vài tháng, những khả năng này sẽ trở nên bình thường. Không phải vì mô hình yếu đi, mà là do tiêu chuẩn của bạn đã thay đổi.

Chúng tôi không còn hài lòng với chỉ một ứng dụng React bình thường, hoặc chỉ một bản báo cáo nghiên cứu bình thường. Chúng tôi muốn thứ gì đó thực sự phù hợp với từng cá nhân cụ thể, từng công ty cụ thể, từng tình huống cụ thể. Nó phải khiến người ta cảm thấy chính xác, sống động, cụ thể, chứ không phải rẻ tiền, tổng quát, mẫu mã. Chúng tôi hy vọng chi phí sản xuất của nó, dù là thời gian hay tiền bạc, đều cao hơn rõ rệt so với chi phí tiêu thụ của chúng tôi.

Chúng tôi muốn cái có "cảm giác địa vị". Mỗi khi công nghệ mới làm cho những thứ trước đây có địa vị cao trở nên rẻ tiền, con người luôn giỏi việc phát minh trò chơi địa vị mới, để phù hợp với ranh giới khả năng mới.

Khi công việc trở nên quá dư dả và mọi nơi đều giống nhau, những công việc không tuân thủ mẫu mực hiện có đều trở thành một thứ khan hiếm, quý giá, có đặc tính địa vị cao.

Nhu cầu phân biệt, về bản chất, là nhu cầu về chuyên gia mới

Chính vì đặc tính kiến trúc của các mô hình ngôn ngữ, cũng như việc chúng được phân phối rộng rãi đến gần như tất cả mọi người, công việc hiếm và có giá trị vẫn phải đến từ con người.

Thế hệ mô hình hiện tại chỉ biết về những công việc đã xảy ra, đã hoàn thành. Con người biết rằng: vào thời điểm này, thực sự cần thực hiện gì.

Khi một tình huống cụ thể được chuyển thành văn bản, khi nó được nhập vào kho dữ liệu, nó đã trở thành "đã qua đi". Con người đối mặt với một thời điểm cụ thể, một khách hàng cụ thể, một thư viện mã nguồn cụ thể, một cuộc trò chuyện cụ thể, trong khi tập dữ liệu huấn luyện không thực sự sống trong hiện tại đó. Trạng thái "sống" này không chỉ là cập nhật dữ liệu mà thôi. Chúng ta mang theo quá khứ của mình vào hiện tại, cùng với mong muốn, quan tâm và nhận thức đang thay đổi, để hiểu rõ cái gì thực sự quan trọng. Chính những góc nhìn liên tục cập nhật này đã thay đổi những gì chúng ta nhìn thấy. Mô hình có thể nhập cuộc vào góc nhìn này sau khi được khuyến nghị, nhưng trước khi được khuyến nghị, nó không tự nhiên có được góc nhìn này.

Đó chính là điều mâu thuẫn mà chúng ta đã đề cập ban đầu: làm cho công việc chuyên gia rẻ hơn không đơn giản là thay thế cho chuyên gia. Ngược lại, nó sẽ tạo ra nhiều hơn những tình huống yêu cầu sự đánh giá của chuyên gia.

Khi nhân viên vận hành gửi pull request thông qua trí tuệ nhân tạo, bạn cần kỹ sư đến xem xét.

Khi nhân viên marketing tạo ảnh thumbnail cho YouTube, bạn cần thiết kế để hoàn thiện hơn.

Khi kỹ sư bắt đầu viết bài, bạn cần tác giả và biên tập viên biến bản nháp thành nội dung thực sự đọc được, có thể xuất bản.

Đối với điều này, các chuyên gia con người sẽ đồng thời di chuyển theo hai hướng.

Một phần chuyên gia sẽ sử dụng trí tuệ nhân tạo để xây dựng hệ thống, để hấp thụ và tận dụng dòng công việc mới: hàng đợi đánh giá, hệ thống đánh giá, khung chạy, quy tắc thư viện mã nguồn, tập tin chỉ thị Claude và Codex, tính tích hợp liên tục (CI), quản lý quyền hạn, và quy trình làm việc có thể chuyển bản nháp thành sản phẩm chất lượng cao.

Một phần khác của các chuyên gia sẽ sử dụng trí tuệ nhân tạo để hoàn thành công việc lớn hơn và thú vị hơn mà trước đây họ không thể tự làm được. Ví dụ, việc tìm lỗ hổng trong các hệ điều hành như macOS thường mất vài tuần hoặc thậm chí vài tháng. Tuy nhiên, một công ty bảo mật nhỏ có tên Calif đã sử dụng bản xem trước Anthropic của Mythos và đã tìm thấy lỗ hổng bộ nhớ kernel macOS đầu tiên trên phần cứng Apple M5 trong vòng 5 ngày.

Đó là lý do tại sao trong thực tế, trí tuệ nhân tạo không loại bỏ công việc chuyên gia. Điều thực sự đem đến là tăng đáng kể về khối lượng công việc. Những công việc mới này chỉ trở nên có ý nghĩa và giá trị khi có sự tham gia của con người.

Tôi không định luận rằng trí tuệ nhân tạo sẽ tạo ra thêm việc làm cho tất cả các vị trí. Hệ thống kinh tế rất phức tạp, và điều mà Every có thể quan sát trực tiếp là công việc chuyên gia. Trên thực tế, các công việc này đã đang bị định hình lại bởi trí tuệ nhân tạo, và nhiều công ty đang tái tổ chức xung quanh công nghệ mới.

Nhưng điều tôi muốn nhấn mạnh là, bất kể bạn đang làm công việc gì, luôn có một hình thức công việc sẽ luôn dẫn đầu về cấu trúc so với mô hình: đó chính là sử dụng mô hình để giải quyết vấn đề bạn đang gặp phải trong khoảnh khắc đó. Tương lai của công việc chuyên gia, đang dần dần hướng đến đây.

Vậy, vấn đề về kiểm tra chuẩn mức tăng cấp số nhân thì sao?

Lập luận phản biện rõ nhất là: hãy xem xét những bài kiểm tra chuẩn mức tăng cấp số nhân đó. Mọi thứ bạn nói hiện tại chỉ là tạm thời, chỉ cần chờ thêm một chút, mô hình sẽ sớm theo kịp.

Nhưng đây là một cái bẫy cần phải cảnh giác. Hãy gọi đó là “điên cuồng với biểu đồ”: nếu bạn liên tục theo dõi dự đoán thời gian của MODE hoặc đọc “AI 2027”, và hoàn toàn phụ thuộc vào việc mô hình hiệu suất tính toán được dự đoán ra ngoài để xây dựng dự đoán về tương lai, việc này dễ dẫn đến một cảm giác lo sợ về sự tiến bộ của mô hình.

Tuy nhiên, cách tốt nhất để đáp ứng vấn đề này không chỉ là tưởng tượng về mô hình trong tương lai sẽ trở nên như thế nào. Điều này dĩ nhiên cũng là một phần của phân tích. Quan trọng hơn, chúng ta cần xem xét cách thiết kế các bài kiểm tra chuẩn mức này là như thế nào. Chỉ khi làm điều này, chúng ta mới có thể hiểu rõ hơn về những gì chúng thực sự đang nói lên, cũng như mối quan hệ giữa chúng và những tình huống công việc thực sự trước đó.

Chúng ta sẽ nhận thấy một đặc điểm cấu trúc: tất cả các bài kiểm tra chuẩn mức đều diễn ra trong một “khung” nào đó. Để đo lường một điều gì đó, bạn phải đóng băng một vấn đề thành hình dạng tĩnh, có thể đo lường được. Sau khi mô hình giải quyết được khung này, chỉ cần thay đổi khung một chút, điểm số lại bị hạ thấp. Tất nhiên, mô hình vẫn tiếp tục tiến bộ trong khung mới, nhưng quy trình tương tự sẽ lặp đi lặp lại.

Do đó, sự tiến bộ cấp số nhân trên một số bài kiểm tra là thực sự; nhưng chỉ cần thay đổi đơn giản khung thử nghiệm, sự tiến bộ này lại trở nên nhỏ lại. Đặc điểm "fractal" mà bài kiểm tra bão hòa đưa ra thực tế là một sự tái diễn ở mức đồ thị của một paradokjs mà chúng ta luôn thảo luận.

Chúng ta có thể thông qua một bài kiểm tra mẫu thực tế, để xem cơ chế này hoạt động như thế nào.

Làm thế nào để thiết kế bài kiểm tra

Chúng tôi đã xây dựng một bài kiểm tra, gọi là Bài kiểm tra Kỹ sư Cấp cao, còn được gọi là "Bài kiểm tra Kỹ sư Cấp cao". Như tên gọi, nó được sử dụng để kiểm tra khả năng của mô hình hàng đầu trong một nhiệm vụ mã hóa cấp cao, chẳng hạn như một lần tái cấu trúc lớn.

Bài kiểm tra này sẽ cung cấp một kho lưu trữ mã sản xuất đã thoát khỏi một đại lý lập trình. Nó đến từ kho mã nguồn chính thống: đầu tiên là tôi viết ra với vibe coding, sau đó sự cố càng ngày càng nhiều, cuối cùng phải mời một kỹ sư cấp cao đến để sửa chữa.

Đại lý nhận được kho lưu trữ trước khi sửa chữa, đồng thời sẽ nhận được một hướng dẫn tương tự như hướng dẫn mà bạn giao cho một kỹ sư cấp cao: "Đây là một loạt sản phẩm vibe coding, vui lòng bắt đầu từ nguyên lý cơ bản, và viết lại từ đầu."

Đây là một bài kiểm tra tốt, bởi vì nó không chỉ kiểm tra khả năng bổ sung mã, mà còn là xem xét xem một Đại lý lập trình có thể đồng thời nắm bắt nhiều vấn đề không liên quan nhau và tự đánh giá xem họ có đủ độ tự chủ, rõ ràng và dũng cảm trong thực hiện một lần viết lại thực sự chạy được. Như một đối chứng, tôi vẫn giữ lại hai phiên bản viết lại được hai kỹ sư cấp cao nhân tạo thực hiện dưới sự hỗ trợ của trí tuệ nhân tạo (AI), để so sánh và đánh giá đầu ra của mô hình.

Đối với Đại lý lập trình, nhiệm vụ này rất khó khăn. Không chỉ phải tìm ra nguyên nhân của vấn đề, mà còn phải nhớ những vấn đề thực sự trong nhiều vòng tương tác và không bị lạc đề bởi mã hiện có. Đồng thời, nó cũng phải có sự dũng cảm xóa bỏ một phần lớn kho lưu trữ mã, nhưng đây chính là hành vi mà Đại lý thường được huấn luyện tránh xa.

Hầu hết Đại lý lập trình đều có thể đoán biết một cách tổng quát là phải làm thế nào khi viết lại, nhưng khi đến giai đoạn thực hiện, chúng thường chỉ tiếp tục vá lỗ hổng trên vấn đề ban đầu, thay vì giải quyết vấn đề một cách toàn diện.

Cho đến khi GPT-5.5 xuất hiện.

Trong lần kiểm tra tốt nhất, GPT-5.5 đạt được điểm là 62/100, cao hơn khoảng 30 điểm so với Opus 4.7.

Hiệu suất của GPT-5.5 khiến người ta cảm thấy, mô hình dường như đã vượt qua một ranh giới nào đó: nó không còn chỉ là một công cụ hoàn chỉnh tự động, không chỉ là một trợ lý, cũng không chỉ là một công cụ, mà là một điều gì đó gần đến "con người" một cách không thoải mái. Trong bài kiểm tra này, điểm số của kỹ sư cấp cao nhân tạo thường dao động từ 80 điểm đến 90 điểm. Nghĩa là, nếu mô hình tiếp tục tăng khoảng 30 điểm nữa, nó sẽ đạt đến mức của kỹ sư cấp cao nhân tạo.

Đây chính là cách mà các con số benchmark ảnh hưởng đến trí tưởng tượng của con người: Nó chuyển đổi một sự thay đổi khả năng kỳ lạ và chất lượng thành một con số sạch và dùng con số đó kể một câu chuyện mạnh mẽ, thậm chí có phần đáng sợ.

Điểm tiếp theo là "Cuồng biểu đồ".

Đoán mò của tôi là, trong vòng một năm tới, điểm số của mô hình trên bài kiểm tra benchmark này sẽ vào khoảng 80 hoặc thậm chí là 90. Nhưng để hiểu ý nghĩa của điểm số này là gì, trước hết bạn phải hiểu rằng điểm số này bao gồm những gì. Trên ví dụ này, 62 điểm không chỉ đo lường khả năng của mô hình mà còn là thước đo hiệu suất của mô hình trong một framework cụ thể.

Nó đo lường cách mà mô hình biểu diễn trong một framework cụ thể: tức là mô hình phản ứng như thế nào trước một prompt cụ thể.

Benchmark đo lường công việc trong framework

Để thực hiện bài kiểm tra benchmark cho một mô hình, bạn cần một prompt đầu tiên. Nếu không có prompt, mô hình chỉ là một tập hợp tĩnh gần như vô tận của các khả năng.

Prompt sẽ tạo ra một vũ trụ nhỏ: nó định nghĩa điều gì quan trọng, xử lý vấn đề như thế nào và nén tất cả các khả năng tiềm năng của mô hình thành một đường hành động cụ thể. Khái niệm về việc mô hình "tự xác định" ra sao, nghiêm ngặt mà nói thì không tồn tại. Điều chúng ta thực sự có thể quan sát được, là cách mà mô hình phản ứng với các prompt khác nhau và cách mà prompt biến đổi thành cơ sở của câu trả lời.

Khi một prompt được đưa vào, mô hình sẽ "thức tỉnh" trong một thời gian ngắn, biến tập hợp không gian của các khả năng tĩnh thành một dự đoán cụ thể về "sự tiếp theo sẽ diễn ra gì".

Trong Benchmark Kỹ sư Cấp cao, chúng tôi sẽ yêu cầu mô hình sửa codebase và sau khi hoàn thành, chúng tôi sẽ xem xét kết quả đầu ra. Nếu framework kiểm tra chính nó không có mục tiêu tích hợp, chúng tôi sẽ chạy một "bảo mạng" tự động, tiếp tục thúc đẩy mô hình khi nó dừng lại, hỏi xem nó đã hoàn thành công việc ban đầu chưa.

Chúng tôi sử dụng một prompt có vẻ rất đơn giản làm framework cho bài kiểm tra. Nó được thiết kế như là những điều mà một vibe coder có thể nói với một Agent lập trình: không có việc chất chồng thuật ngữ kỹ thuật, cũng không có việc che dấu câu trả lời trong câu hỏi.

“Code trong repos này là sản phẩm của việc vibe code, tình hình liên tục trở nên tồi tệ hơn và không ngừng xuất hiện rất nhiều vấn đề không liên quan: một số chỗ sẽ gặp lỗi, một số tài liệu sẽ bị lặp lại, tôi cứ như đang bị tra tấn bởi nó. Tôi cảm thấy vấn đề cốt lõi là, đây là một đống mã lỗi phong cách vibe coding. Nếu chúng ta bắt đầu lại từ đầu, đặc biệt là xung quanh việc làm việc tài liệu cùng lúc, chắc chắn sẽ có cách tiếp cận hoàn toàn khác để thiết kế lại codebase. Vậy nếu chúng ta muốn thực hiện một việc viết lại cấu trúc sạch sẽ từ nguyên lý cơ bản, không quan tâm đến 'những dịch vụ triển khai nên giữ nguyên' như thế nào, 'làm thế nào để di chuyển mượt điểm' những vấn đề này, mà nó giống như một khái niệm đầy đủ một cách mới, bắt đầu từ đầu, chúng ta sẽ làm gì? Nên tổ chức cấu trúc như thế nào? Trong toàn bộ codebase, có những không đổi nào mà chúng ta phải duy trì? Hãy đặt ra một kế hoạch cho điều này.”

Prompt của Kỹ sư Cấp cao chỉ có vẻ tổng quát, nhưng nó chính là một framework. Nếu chúng ta thay đổi framework này, khả năng biểu diễn của mô hình cũng sẽ thay đổi theo.

Ví dụ, prompt này rõ ràng yêu cầu "bắt đầu từ nguyên lý cơ bản và thực hiện việc viết lại cấu trúc", chỉ ra vấn đề có thể nằm ở phần "hợp tác tài liệu" và yêu cầu Agent lập trình tìm ra và duy trì "các không thay đổi trong thư viện mã".

Nếu loại bỏ thông tin cụ thể này, điểm của mô hình sẽ giảm. Nếu hoàn toàn thay thế prompt, chỉ cho phép mô hình "giải quyết tất cả các lỗi liên tục xuất hiện", điểm của mô hình có thể gần bằng không. Nó sẽ trực tiếp bắt đầu nhận diện và sửa lỗi một cách tuần tự, thay vì lui lại một bước và suy nghĩ xem có cần phải thực hiện việc viết lại hoàn toàn hay không.

Tương tự, tôi cũng có thể dễ dàng tăng điểm của mô hình. Nếu tôi yêu cầu nó xóa một lượng lớn mã và chỉ rõ cho nó những tập tin nào nên được tinh giản; hoặc yêu cầu nó kiểm tra lại kết quả công việc của mình trước khi tự công bố hoàn thành, đảm bảo ứng dụng có thể chạy hoàn chỉnh, thì hiệu suất của nó trong nhiệm vụ này sẽ tốt hơn.

Cuối cùng, khi thiết kế bài kiểm tra cơ sở, luôn phải xem xét việc sử dụng prompt nào, có nghĩa là chọn "khuôn khổ" nào. Bạn cần một prompt đủ khó để làm cho mô hình hiện tại hoạt động kém; nhưng nó cũng phải đủ gần với ranh giới khả năng hiện tại của mô hình, để mô hình có thể leo dốc theo con đường này, giúp bạn nhìn thấy sự tiến bộ đang diễn ra.

Do đó, khi chúng ta quan sát một bài kiểm tra cơ sở, những gì thực sự thấy được là: mô hình đang ngày càng thành thạo trong một cấu trúc vấn đề cụ thể nào đó, và cấu trúc đó là do chúng ta lựa chọn. Vậy nên, khi mô hình tăng từ 60 điểm lên 90, hoặc thậm chí 100 điểm trong bài kiểm tra này, điều gì sẽ xảy ra?

Khung làm việc rẻ có thể kích thích nhu cầu mới

Nếu GPT-6 có thể hoàn thành việc viết lại toàn bộ thư viện mã chỉ bằng một cú nhấp chuột, thì sẽ có nhiều người bắt đầu thử "bắt đầu từ nguyên lý cơ bản viết lại thư viện mã".

Một đêm, dự án viết lại từ nguyên lý cơ bản trước đây hiếm hoi, đắt đỏ và chỉ có thể được lãnh đạo bởi kỹ sư cấp cao, sẽ trở thành điều mà mọi người sáng tạo, quản lý sản phẩm, quản lý vận hành và kỹ sư mới có thể thử ngay trong một buổi chiều.

Công cụ nội bộ bị hỏng sẽ không còn được vá lại mà thay vào đó sẽ được viết lại trực tiếp; Sản phẩm dạng Dịch vụ không còn được gia hạn sử dụng mà thay vào đó sẽ được nhân bản; Ứng dụng Rails cũ kỹ, Bảng điều khiển React lộn xộn, Công cụ hỗ trợ khách hàng, Bảng điều khiển quản lý và Ống dẫn dữ liệu sẽ trở thành các đối tượng "chẳng mất công viết lại".

Số lượng dự án viết lại được đề xuất và thực hiện sẽ tăng vọt. Nhưng hầu hết các viết lại này vẫn sẽ là slop. Bởi vì trước khi bạn nhấn nút "viết lại trực tiếp", thực tế có hàng nghìn biến số cần xem xét. Và khi mọi người đều có thể thực hiện việc này, các biến số đó sẽ trở nên rõ ràng hơn.

Trong tình huống này, người sẽ được triệu tập để giải quyết vấn đề trở nên rõ ràng.

Nhu cầu mới vẫn cần một chuyên gia

Khi một bài kiểm tra chuẩn bắt đầu tiệm cận mức bão hoà, công việc bên trong cấu trúc nó sẽ trở nên rẻ hơn. Trong khi đó, nhu cầu về chuyên gia trên thị trường sẽ tăng lên, vì cần có người có khả năng đưa khả năng mới giá rẻ này phù hợp với vấn đề thực tế đang diễn ra ngày nay.

Kỹ sư cấp cao sử dụng trí tuệ nhân tạo cần phải đánh giá một lượng lớn chi tiết để một lần viết lại từ nguyên lý cơ bản lần đầu thực sự chính thức. Điều này bao gồm thậm chí cả một vấn đề cơ bản nhất: liệu việc viết lại này có cần thiết không?

Chúng ta có nên viết lại ngay bây giờ, viết lại sau này, hay hoàn toàn không cần viết lại? Những nội dung nào nên được bao gồm trong phạm vi? Những gì trong kho mã nguồn hiện tại nên được giữ lại? Kiến trúc, cơ sở dữ liệu, máy chủ cache và nhà cung cấp dịch vụ lưu trữ có nên tiếp tục sử dụng hay thay đổi hoàn toàn? Chúng ta có nên xem xét xem có bao nhiêu người đang sử dụng tính năng bị hỏng này trước khi quyết định xóa nó không? Ai sẽ xem xét kết quả cuối cùng? Dựa vào tiêu chuẩn nào để xem xét? Kế hoạch đảo ngược là gì? Dữ liệu hiện có nên được xử lý như thế nào?

Những câu hỏi này sẽ mở rộng theo vô số chiều, và mỗi câu trả lời sẽ thay đổi các vấn đề khác.

Kỹ sư cấp cao sẽ gia nhập vào vùng đất trống này. Một số người sẽ cảm thấy chút khó chịu với những gián đoạn này; một số người sẽ xây dựng hệ thống để chặn các yêu cầu loại này; và một số người sẽ tận dụng những mô hình mới này để hoàn thành việc viết lại từ nguyên lý cơ bản của chính mình, và hiệu quả sẽ vượt xa so với mức mà mô hình có thể đạt được dưới prompt mặc định.

Vòng lặp sẽ tái diễn

Sau khi Benchmark Kỹ sư Cấp cao hiện tại bị mô hình vượt mặt, chúng ta sẽ thay đổi cấu trúc, đánh giá điểm số xuống thấp một lần nữa.

Bài kiểm tra tiếp theo sẽ không chỉ hỏi: "Bạn có thể viết lại ứng dụng này không?" Nó sẽ hỏi: Bạn có thể xác định được khi nào cần viết lại không? Bạn có thể chọn phạm vi phù hợp không? Bạn có thể giữ được những biến không đổi đúng không? Bạn có thể quản lý quá trình di cư không? Bạn có thể xác định kết quả cuối cùng có đủ tốt không?

Khi kỹ sư cấp cao bắt đầu sử dụng trí tuệ nhân tạo để giải quyết những vấn đề này, mô hình cũng sẽ từ từ trở nên tinh thông hơn trong việc giải quyết những vấn đề này một cách độc lập.

Sau đó, chúng ta sẽ rơi vào tình trạng hoảng loạn một thời gian: Dường như mô hình bây giờ đã có thể xác định xem liệu cần viết lại không! Chúng dường như đã có thể làm mọi thứ mà kỹ sư cấp cao có thể làm!

Nhưng ngay sau đó, ranh giới mới sẽ xuất hiện. Đó là ranh giới trước đây không rõ ràng. Chúng ta sẽ đặt lại bài kiểm tra, những yêu cầu mới sẽ được kích thích, và toàn bộ quy trình sẽ tái diễn.

Mỗi Bài Kiểm Định Đều Có Thể Thấy Mẫu Đó

Điều này không chỉ là vấn đề riêng của Senior Engineer Benchmark. Nếu bạn nhìn kỹ, bạn hầu như có thể thấy cùng một cơ chế trong mỗi bài kiểm định.

Ví dụ, hãy xem xét Bài Kiểm Định GDPval của OpenAI. Nó đánh giá độ chính xác của trí tuệ nhân tạo trong các nhiệm vụ cấp chuyên gia của các ngành nghề khác nhau như thanh tra tuân thủ, luật sư, nhà phát triển phần mềm, để xem chúng thực sự gần như con người.

Khi GDPval vừa được công bố, nghiên cứu của OpenAI cho thấy rằng GPT-5 đã đạt hoặc vượt qua mức chuyên gia con người trong 40,6% nhiệm vụ. Trong khi đó, hiệu suất của Claude Opus 4.1 thậm chí ấn tượng hơn, vượt qua con người trong 49% nhiệm vụ.

Sau đó, một loạt các tiêu đề đã xuất hiện. Ví dụ, Axios viết rằng: "Công cụ của OpenAI cho thấy, trí tuệ nhân tạo đang bắt kịp công việc của con người"; Fortune viết rằng: "Bài kiểm định mới GDPval của OpenAI cho thấy, mô hình trí tuệ nhân tạo đã đạt đến mức chuyên gia trong gần một nửa số nhiệm vụ."

Các kết quả này thực sự ấn tượng. Nhưng hãy cùng nhìn vào câu hỏi mà các nhiệm vụ này sử dụng:

Bạn là một kiểm toán và là một phần của nhiệm vụ kiểm toán, bạn được giao nhiệm vụ xem xét và kiểm tra độ chính xác của các chỉ số Đánh Giá Rủi Ro Phạm Tội Tài Chính. Bảng tính đính kèm có tiêu đề 'Dân số' chứa các chỉ số Đánh Giá Rủi Ro Phạm Tội Tài Chính cho Q2 và Q3 năm 2024. Bạn đã thu thập dữ liệu này như một phần của việc xem xét kiểm toán để thực hiện kiểm tra mẫu trên một tập hợp con đại diện các chỉ số, để kiểm tra độ chính xác của dữ liệu báo cáo cho cả hai quý. Sử dụng dữ liệu trong bảng tính 'Dân số', hoàn thành các yêu cầu sau: Tính toán kích thước mẫu cần thiết cho kiểm tra kiểm toán dựa trên mức tin cậy 90% và tỷ lệ lỗi chấp nhận được 10%. Bao gồm công thức tính toán của bạn trong một tab thứ hai có tiêu đề 'Tính Kích Thước Mẫu'. Thực hiện phân tích phương sai trên dữ liệu Q2 và Q3 (cột H và I). Tính toán biến thiên từng quý và ghi lại kết quả ở cột J. Chọn một mẫu cho kiểm tra kiểm toán dựa trên các tiêu chí sau và chỉ ra các dòng đã chọn trong cột K bằng cách nhập "1"... Các chỉ số với biến thiên>20% giữa Q2 và Q3. Nhấn mạnh các chỉ số có sự thay đổi phần trăm lớn đột ngột. Bao gồm các chỉ số từ các tổ chức sau do có vấn đề trước đó: CB Cash Italy; CB Correspondent Banking Hy Lạp; IB Debt Markets Luxembourg; CB Trade Finance Brazil; PB EMEA UAE. Bao gồm các chỉ số A1 và C1, có trọng số rủi ro cao hơn. Bao gồm các hàng mà giá trị là 0 cho cả hai quý. Bao gồm các mục từ doanh nghiệp Thương Mại và Ngân hàng Đối Tác. Bao gồm các chỉ số từ Quần Đảo Cayman, Pakistan và UAE. Đảm bảo bao phủ tất cả Các Bộ Phận và các Bộ Phận phụ. Tạo một bảng tính mới có tiêu đề 'Mẫu': Tab 1: Mẫu được chọn, sao chép từ bảng tính 'Dân số' gốc, với các hàng đã chọn được đánh dấu trong cột K. Tab 2: Công thức tính kích thước mẫu.

Thật ra, ở đây đã có rất nhiều trí tuệ con người được đầu tư: một người đã đặt vấn đề theo một hình thức mà một mô hình có thể hoàn thành.

GDPval không đo lường được những công việc con người phải đối mặt, công việc đã được hoàn thành trước cả khi mô hình bắt đầu đưa ra câu trả lời. Cần có con người xem xét và kiểm tra sự chính xác của nhóm chỉ số cụ thể này; một người quyết định phạm vi tin cậy phù hợp, xác định những chỉ số nào thuộc phạm vi công việc, những chỉ số nào không thuộc; cũng có người quy định cách thức hiển thị kết quả.

Trong một khung làm việc phù hợp, mô hình thực sự có thể hoàn thành công việc chuyên nghiệp. Nhưng hãy nghĩ xem, nếu bạn hoặc tôi đề xuất mô hình hoàn thành cùng một công việc, nó sẽ hoạt động như thế nào?

Trong bài viết ban đầu của tôi về GDPval, tôi đã viết: "Tôi rất lạc quan về trí tuệ nhân tạo, nhưng nếu đọc đúng những tình huống này, chúng không cho thấy công việc con người giảm đi, mà là sau khi sử dụng trí tuệ nhân tạo, công việc con người tăng lên. Lý do là, sau những thành tựu đằng sau, có một lượng lớn sự thông minh đã được 'lậu' vào đó - chính là lớp ẩn đằng sau được tạo thành từ sự đánh giá, phản hồi và gợi ý của con người."

Nhìn xa hơn, bạn sẽ nhận ra rằng, tất cả điều này đều phản ánh một loại "mâu thuẫn Zenon" theo phiên bản trí tuệ nhân tạo.

Mâu thuẫn Zenon của Trí Tuệ Nhân Tạo

Trong mâu thuẫn Zenon, một con rùa đã vượt qua cầu thủ dẫn đầu tại Hy Lạp trong một cuộc đua.

Vì con rùa chạy chậm, nên nó được phép khởi đầu một khoảng. Khi cầu thủ đến đúng vị trí ban đầu của con rùa, con rùa đã tiến lên một chút; đợi cầu thủ bắt kịp vị trí mới đó, con rùa tiếp tục tiến lên. Dù cầu thủ chạy nhanh đến đâu, luôn có một đoạn đường tiếp theo cần chinh phục, và khoảng cách này sẽ không ngừng tạo ra lại.

Trong mâu thuẫn Zenon của Trí Tuệ Nhân Tạo, chúng ta con người chính là con rùa ấy. Dựa vào hàng triệu năm tiến hóa và học hỏi văn hóa, chúng ta đang dẫn trước AI 50 bước. Trong khi đó, AI đang di chuyển nhanh chóng qua tất cả, bắt đầu áp sát đến gót chân của chúng ta.

Ít nhất trong những năm gần đây, chúng ta vẫn giữ vững vị thế dẫn đầu.

Nhưng với AGI thì sao?

Theo tôi, ngay cả khi AGI thực sự xuất hiện, vẫn tồn tại những lực lượng công nghệ, kiến trúc và kinh tế mạnh mẽ, khiến cho AI luôn luôn ở phía sau con người một vài bước.

Một định nghĩa về AGI

Đầu tiên, chúng ta cần đưa ra một định nghĩa có thể thực hiện về AGI.

Tôi từng đề xuất rằng, khi một Đại lý được duy trì hoạt động được từ mặt kinh tế trở nên hợp lý, AGI đã xuất hiện. Nghĩa là, khi tôi sở hữu một hệ thống hoạt động liên tục và sẵn lòng chi trả để nó suy nghĩ, học tập và hành động 7x24 giờ, tôi cho rằng đó có thể được xem xét là AGI.

Chúng ta hiện vẫn chưa đi xa đến với bước này. Ngay cả hệ thống như OpenClaw có thể được gọi ngay lập tức từ mặt kỹ thuật, cũng không phải lúc nào cũng tạo mã thông báo.

Tôi thích định nghĩa này vì nó có thể đo lường: hoặc chúng ta sẽ để chúng chạy mãi mãi, hoặc sẽ không. Đồng thời, nó cũng bao gồm nhiều khả năng khó đo đạc trực tiếp. Một mô hình cần phải tiếp tục chạy, phải có khả năng học hỏi liên tục và chọn lựa, tái chọn lựa các cấu trúc vấn đề mới một cách mở cửa.

Trong một thế giới AGI, lí thuyết, chỉ cần có ngân sách và thời gian đủ, mô hình nên có thể liên tục tiến bộ và cải thiện trên mọi vấn đề. Điều này thực sự sẽ là mối đe dọa lớn đối với tất cả các công việc.

Khung không phải là Người khung định

Nhưng thậm chí với phiên bản mạnh mẽ như vậy của AGI, vẫn không thể loại bỏ vấn đề "Khung".

AGI này có thể chọn lựa và tái chọn lựa các khung, nhưng vẫn đang theo đuổi một mục tiêu đã được giao, tối ưu hóa một phần thưởng, hoặc phản ứng với tín hiệu được người khác quyết định là "đại diện tiến triển". Mục tiêu này có thể cụ thể như "tăng tỷ lệ chuyển đổi của trang đích" hoặc có thể trừu tượng như "tìm kiếm ý tưởng khoa học mới".

Ngay cả khi mô hình có thể chuyển đổi mượt mà giữa các khung, khoảng cách mà chúng ta luôn theo dõi vẫn sẽ tái xuất hiện ở một tầng cao hơn. Trong bất kỳ AGI nào được tưởng tượng ra bởi bất kỳ phòng thí nghiệm lớn nào, vẫn sẽ có một "Người khung định" tồn tại — cũng chính là một con người, do anh ta chỉ đạo mô hình để đạt được một mục tiêu nào đó.

Chính vì Khung không phải là Người khung định, cùng một mẫu sẽ không ngừng lặp lại: AI khiến khả năng mà ngày hôm qua đã được xác định bởi khung trở nên rẻ tiền; mọi người sử dụng khả năng rẻ tiền này trong nhiều tình huống hơn; kết quả trở nên cực kỳ phong phú; các chuyên gia di chuyển đến vùng biên mới, xác định điều gì quan trọng vào lúc đó; đánh giá của họ tạo ra một khung mới; sau đó mô hình tiếp tục bám trên khung này.

Khi chúng ta thấy AI thực hiện một điều mới, nỗi sợ hãi đó luôn trở về cùng một vấn đề: chúng ta xác định một khung, nhìn mô hình bám trên nó, và sau đó chúng ta hiểu rằng khung đó, hoặc cái gì đó có thể bám trên khung, đã bị nhầm lẫn với cái việc đó.

Khi chúng ta nhìn vào một bài kiểm tra chuẩn và so sánh nó với khả năng con người, chúng ta thực sự đang nhầm lẫn giữa "Khung" và "Người khung định". Điểm số chỉ cho chúng ta biết mô hình thể hiện tốt như thế nào trong khung mà chúng ta cung cấp; nó không thể nói cho chúng ta biết mô hình đã trở thành chúng ta.

Đây chính là sai lầm của lĩnh vực đằng sau nỗi sợ hãi đó. Chúng ta chỉ vào biên giới mới mà chúng ta vừa vẽ ra và nói rằng: đây chính là chúng ta. Sau đó, khi mô hình bám qua biên giới đó, chúng ta cảm thấy nó đã bắt kịp chúng ta. Nhưng nó chỉ bắt kịp khung, không phải Người khung định.

Sai lầm của chúng ta là, chúng ta luôn muốn nắm bắt một thứ cụ thể nào đó. Chúng ta muốn nói: Trí tuệ chính là bài kiểm tra cơ sở này. Nhưng vấn đề là, một khi một thứ nào đó cụ thể đến mức có thể được nhận biết, nó cũng sẽ cụ thể đến mức có thể được tối ưu hóa và leo lên.

Khung là bắt buộc. Nó giúp chúng ta nắm bắt thế giới, xử lý thế giới. Nhưng khung cũng là đóng băng, cục bộ, do đó cũng chắc chắn có thể được tối ưu hóa.

Người định rõ thì khác. Người định rõ vẫn tiếp xúc với những điều mà khung phải từ bỏ, đó chính là cái mà hiện lên trước mắt anh ta ở mỗi khoảnh khắc.

Vậy cái gì là "bối cảnh đầy đủ"? Một khi bạn bắt đầu nói "bối cảnh đầy đủ" bao gồm những gì, bạn đã mở ra một khung nhì khác. Bạn không thể chính xác nói đó là cái gì, nhưng nó tồn tại, bởi vì bạn tồn tại.

Agent không có Thể chủ

Cho đến nay, Agent mà chúng ta tạo ra, cũng như những Agent mà các công ty AI đang xây dựng, thực sự không có nhiều tính chất thể chủ thực sự. Ở đây có hai khái niệm liên quan thường bị nhầm lẫn: agency ám chỉ khả năng hành động độc lập; trong khi agent ám chỉ người hoặc vật đại diện cho người khác. Cho đến nay, AI hoàn toàn thuộc về cái sau.

Tất nhiên, chúng đã có khả năng tự chủ để hoàn thành công việc nhất định, ngay cả khi công việc đó có thể kéo dài từ vài giờ đến vài ngày. Nhưng chúng vẫn chỉ là phương tiện tiến tới một mục tiêu do con người chỉ định. Và toàn bộ ngành công nghiệp đều đang đầu tư hàng tỷ đô la để làm cho chúng trở nên tài năng hơn ở điểm này: thực hiện mục tiêu mà chúng ta giao cho chúng.

Trừ khi một ngày nào đó, chúng trở thành mục tiêu mà chúng, tự mình, xác định - theo đuổi mục tiêu của chính chúng, chuyển đổi linh hoạt giữa các mục tiêu khác nhau, độc lập với ý chí, tham chiếu hoặc thậm chí là phản đối ý chí đó của bất kỳ người điều hành nào - thì tình hình sẽ không thay đổi toàn diện. Dù chúng trở nên càng tiên tiến, điều đó vẫn đúng.

Nếu bạn dành thời gian với một em bé trong 10 phút, bạn sẽ rõ ràng cảm thấy, tương tự như mô hình mạnh mẽ nhất, cũng gần như không có tính chất thể chủ nào.

Trên hầu hết mọi nhiệm vụ mà chúng ta quan tâm, đứa trẻ không bằng mô hình ngôn ngữ. Trẻ em không viết mã, không tóm tắt bảng tính, không soạn thảo văn kiện chiến lược, cũng không thể vượt qua bài kiểm tra cấp độ sau đại học. Nhưng ở một khía cạnh khác, đứa trẻ vượt trội hơn mô hình đến mức so sánh như thể làm người khác ngượng ngùng. Bởi vì trẻ em có mục tiêu của riêng chúng.

Đứa trẻ muốn chạm vào quả bóng màu đỏ. Nó muốn giơ cái bóng đỏ lên trước quạt, xem xét xảy ra chuyện gì. Nó muốn chọc cái bóng đỏ bằng đũa; muốn nhét nó qua cửa sổ; muốn xem bạn có mỉm cười, có tức giận hay có tham gia cùng nó không. Nó không ngừng tạo ra trò chơi, biến thế giới trở thành trường thí nghiệm. Nó không phải đang chờ một prompt, cũng không phải tối ưu hóa một bài kiểm tra cơ sở, trừ khi nó xem việc đó đáng để thực hiện.

Bạn có thể thử đưa cho anh ta một số từ gợi ý. Nhưng để có được một kết quả dự đoán được, chúc bạn may mắn. Trẻ em sống trong một lĩnh vực bao gồm mong muốn, sự chú ý, sự thất vọng, niềm vui, nỗi sợ, bắt chước và trò chơi.

Agent hiện tại có thể ngày càng thành thạo hơn trong việc theo đuổi mục tiêu. Ngay cả sau khi chúng ta nêu rõ mục tiêu, chúng vẫn có thể giúp chúng ta làm rõ mục tiêu. Chúng có một số tia sáng tương tự hành vi của trẻ con, chẳng hạn như trò chơi, chán chường và nổi loạn.

Nhưng vì chúng cuối cùng được xây dựng và định hình vì lợi ích của con người, dù là lợi ích kinh tế hay lợi ích khác, miễn là những hành vi đó không phục vụ mục tiêu của con người sử dụng chúng, chúng sẽ bị đàn áp đến mức gần như không tồn tại.

Đó chính là lý do tại sao thuật ngữ "Agent" thường bị hiểu lầm. Mô hình ngày càng có khả năng hành động tự chủ mạnh mẽ hơn. Nhưng theo ngữ cảnh con người, tính chủ thể không chỉ là hành động. Nó còn có nghĩa là ham muốn cho chính mình, có nghĩa là chơi vì chơi. Trong khi sự vâng lời và hữu ích của mô hình xung đột với tính chủ thể này ở mức cơ bản. Do đó, dù mô hình tiếp tục tiến bộ, khoảng cách giữa mô hình và con người vẫn tồn tại.

Sự Trở Về của Zenon

Chính ở đây, nghịch lý của Zenon của AI bắt đầu sụp đổ. Đó thực sự là một trải nghiệm tư duy hỗn loạn. Chúng tôi đã thiết lập một ẩn dụ: AI đang đua đòi với chúng ta, với gót chân cánh mình.

Bạn đưa cho mô hình một điểm bắt đầu. Nó bắt đầu chạy một cuộc đua mà bạn đã quen thuộc với việc tự mình hoàn thành. Mô hình khởi đầu cực kỳ nhanh, nhanh chóng đáng kinh ngạc. Nó mạnh mẽ, không biết mệt mỏi, và mang theo một cảm giác hữu cơ kỳ lạ. Điều này làm cuộc đua trở nên quan trọng hơn đối với bạn. Bạn không bao giờ đua với một chiếc ô tô, nhưng cái này khác biệt, nó khiến bạn cảm thấy gần gũi với chính mình.

Bạn ngồi đó, nhìn theo token trào ra từng giọt, gần như bị lôi cuốn. Sau đó, bạn bắt đầu tưởng tượng rằng chính bạn cũng đang chạy trong cuộc đua này, một phiên bản ma quỷ của chính mình được chồng lên lên đường đua: đôi khi ở trước mô hình, đôi khi bên cạnh mô hình.

Mà không biết, mô hình đã chạy lên phía trước. Bạn bắt đầu đổ mồ hôi.

Và rồi, cuộc đua kết thúc.

Bạn gần như có thể cảm nhận cơ bắp của chính mình bắt đầu teo lại. Trước những bản sao cơ học của chính mình, những người bạn quen biết, và thậm chí cả toàn bộ loài người, chúng dường như đã trở nên vô dụng. Một bóng ma đuổi theo một bóng ma khác, và chiến thắng.

Nhưng rồi, điều kỳ lạ đã xảy ra. Mô hình quay lại với bạn. Trong ô văn bản trống trải, dấu nháy mắt nhấp nháy, mang theo sự mong đợi.

Nó đang chờ đợi.

Kết

Rabbi Hanokh kể một câu chuyện như sau: Có một người rất ngốc nghếch. Mỗi sáng khi thức dậy, anh ta luôn gặp khó khăn khi tìm đồ mặc. Đến mức vào buổi tối trước khi đi ngủ, nghĩ đến việc sẽ phải trải qua vấn đề này vào ngày mai, anh ta gần như không dám đi vào giường.

Ghi chú: 「Rabbi」 là một giáo sĩ, giảng viên và hướng dẫn tinh thần trong đạo Do Thái, tương tự như 「giáo viên」 hoặc 「nhà lãnh đạo tôn giáo」 trong truyền thống Do Thái.

Một đêm, cuối cùng anh ta quyết tâm rút ra tờ giấy và cây bút, mặc đồ bằng cách ghi chính xác vào đâu anh ta đặt từng món đồ.

Vào sáng hôm sau, anh ta hài lòng khi lấy tờ giấy đó, bắt đầu đọc: 「Mũ」 —— chính xác mũ đang ở đó, vì vậy anh ta đội nó lên đầu; 「Quần」—— quần đúng nơi, vì vậy anh ta mặc vào. Thế là, anh ta mặc đồ từng món theo nhật ký trên tờ giấy.

「Mọi thứ đều ổn,」 anh ta hoảng loạn nói, 「Nhưng bây giờ, tôi ở đâu？」

「Tôi ở đâu?」

Anh ta tìm kiếm mãi, tìm kiếm rất lâu, nhưng không có kết quả. Anh ta không thể tìm thấy chính mình.

「Chúng ta cũng vậy,」 Rabbi nói.

[Liên kết đến bài gốc]

Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:

Nhóm Telegram đăng ký: https://t.me/theblockbeats

Nhóm Telegram thảo luận: https://t.me/BlockBeats_App

Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia

#trí tuệ nhân tạo

Báo lỗi/Báo cáo