BTC

$96,000

5.73%

ETH

$3,521.91

3.97%

HTX

$0.{5}2273

5.23%

SOL

$198.17

3.05%

BNB

$710

3.05%

简体中文

繁體中文

English

Tiếng Việt

한국어

日本語

ภาษาไทย

Türkçe

Ai là người sử dụng Claude Code thành thạo nhất? Câu trả lời có thể không phải là lập trình viên.

Đọc bài viết này mất 55 phút

400.000 phiên hội thoại cho thấy AI đã hạ thấp rào cản lập trình, đồng thời khuếch đại giá trị của việc đánh giá lĩnh vực.

Tiêu đề gốc: Lập trình tác nhân và lợi nhuận bền vững từ chuyên môn
Tác giả gốc: Anthropic
Biên dịch: Peggy

Lời tòa soạn: Báo cáo này dựa trên khoảng 400.000 phiên làm việc với Claude Code, thảo luận về cách các công cụ lập trình AI đang thay đổi mối quan hệ giữa con người và mã nguồn.

Phát hiện cốt lõi nhất của bài viết là: Trong lập trình tác nhân, con người chủ yếu quyết định "làm gì", còn Claude chịu trách nhiệm chính về "làm như thế nào". Người dùng đảm nhận phần lớn các quyết định lập kế hoạch, trong khi Claude đảm nhận phần lớn công việc thực thi. Nói cách khác, AI đang tiếp quản các khâu viết mã, sửa file, chạy lệnh, gỡ lỗi và các bước triển khai khác, nhưng việc thiết lập mục tiêu và đánh giá kết quả vẫn phụ thuộc vào con người.

Quan trọng hơn, hiệu quả sử dụng Claude Code không chỉ phụ thuộc vào việc người dùng có phải là lập trình viên hay không. Báo cáo cho thấy, trong các tác vụ tạo mã nguồn, tỷ lệ thành công của người dùng trong các lĩnh vực phi kỹ thuật như luật, tài chính, quản lý, nghiên cứu khoa học đã gần ngang bằng với các kỹ sư phần mềm. Yếu tố thực sự ảnh hưởng đến kết quả là liệu người dùng có hiểu vấn đề họ muốn giải quyết hay không.

Điều này có nghĩa là, lập trình AI hạ thấp rào cản triển khai, chứ không phải rào cản đánh giá. Trong tương lai, những người hiểu nghiệp vụ, hiểu bối cảnh, có thể đưa ra yêu cầu rõ ràng và đánh giá kết quả, có thể sẽ tận dụng AI tốt hơn những người chỉ biết viết mã. AI sẽ không tự động thay thế kiến thức chuyên ngành, mà ngược lại, nó sẽ khuếch đại giá trị của kiến thức chuyên ngành.

Dưới đây là nội dung gốc:

Phát hiện chính

Dựa trên các nghiên cứu hiện có, chúng tôi đề xuất một khuôn khổ để nghiên cứu lập trình tác nhân tương tác. Khuôn khổ này dựa trên phân tích bảo vệ quyền riêng tư của khoảng 400.000 phiên làm việc với Claude Code từ tháng 10 năm 2025 đến tháng 4 năm 2026, đánh giá cấu trúc nhiệm vụ, cách thức cộng tác giữa con người và AI, cũng như tỷ lệ thành công của nhiệm vụ.

Trong một phiên làm việc điển hình, con người chịu trách nhiệm về hầu hết các quyết định lập kế hoạch, tức là quyết định "cần làm gì"; Claude chịu trách nhiệm về hầu hết các quyết định thực thi, tức là quyết định "cách hoàn thành". Chuyên môn của người dùng trong một lĩnh vực càng cao, thì khối lượng công việc mà Claude hoàn thành khi được kích hoạt bởi mỗi lệnh càng lớn. Trong các tác vụ mã hóa, tỷ lệ thành công trung bình của các nhóm nghề nghiệp chính—tức là liệu nhiệm vụ có hoàn thành được điều người dùng muốn làm hay không, và có bằng chứng xác minh như vượt qua kiểm thử, gửi mã nguồn, v.v.—gần như ngang bằng với các kỹ sư phần mềm.

Khả năng chuyên môn của người dùng càng cao, phiên làm việc càng có khả năng kết thúc thành công. Tuy nhiên, khoảng cách giữa người dùng trung cấp và chuyên gia không quá lớn. Trong bảy tháng chúng tôi quan sát, tỷ lệ phiên làm việc dành cho gỡ lỗi đã giảm gần một nửa, và cách sử dụng cũng chuyển sang các phương pháp tác nhân đầu cuối hơn: triển khai và chạy mã, phân tích dữ liệu, và viết tài liệu phi mã nguồn.

Trong bảy tháng qua, giá trị của các nhiệm vụ điển hình đã tăng lên ở hầu hết các loại công việc. Chúng tôi ước tính giá trị nhiệm vụ bằng cách so sánh với thông tin đăng tuyển công việc tự do, và kết quả cho thấy mức tăng trung bình khoảng 25%.

Giới thiệu

Lập trình tác tử (agentic coding) đang phát triển nhanh chóng. Kể từ cuối năm 2025, tỷ lệ các hoạt động mã hóa tác tử trong các dự án GitHub đã tăng hơn gấp đôi, và người dùng Claude Code hiện trung bình sử dụng công cụ này 20 giờ mỗi tuần. Liệu những người không có kinh nghiệm lập trình chính thức có thể chỉ huy thành công một tác tử để hoàn thành các công việc kỹ thuật phức tạp hay không? Việc áp dụng nhanh chóng và khả năng ngày càng tăng của các công cụ này sẽ ảnh hưởng như thế nào đến công việc tri thức rộng lớn hơn? Hiện tại, chúng tôi chưa thể đưa ra câu trả lời đầy đủ, nhưng có thể thấy một số tín hiệu ban đầu từ dữ liệu sử dụng Claude Code.

Báo cáo này dựa trên phân tích bảo vệ quyền riêng tư của khoảng 235.000 người dùng và khoảng 400.000 phiên tương tác trong giai đoạn từ tháng 10 năm 2025 đến tháng 4 năm 2026, cung cấp bằng chứng về cách Claude Code thực sự được sử dụng. Nó tiếp nối các nghiên cứu trước đây của chúng tôi về các chỉ số tự chủ trong các phiên Claude Code và cách Claude Code thay đổi công việc nội bộ tại Anthropic. Bài viết này sẽ đề xuất một khuôn khổ để mô tả việc sử dụng các trợ lý lập trình AI tương tác: mọi người đang làm công việc gì, ai đang làm những công việc đó và công việc có thành công hay không. Chúng tôi tập trung vào những người dùng sử dụng Claude Code qua giao diện dòng lệnh (CLI), Claude.ai hoặc ứng dụng desktop Claude Code. Bằng cách theo dõi cách thức sử dụng lập trình tác tử thay đổi khi khả năng của mô hình tăng lên, chúng ta có thể hiểu rõ hơn về tác động của các công cụ này đối với thị trường lao động của các chuyên gia lập trình và người lao động tri thức.

Những gì đang xảy ra trên Claude Code có thể báo hiệu tương lai của công việc tri thức: các tác tử sẽ dần dần thâm nhập vào các công việc không liên quan đến mã hóa. Chúng tôi phát hiện ra rằng Claude đang xử lý các nhiệm vụ phức tạp và có giá trị hơn. Đồng thời, vẫn tồn tại một sự phân công lao động rõ ràng trong lập trình tác tử: con người quyết định xây dựng cái gì, còn tác tử quyết định xây dựng như thế nào.

Chúng tôi cũng thấy bằng chứng cho thấy yếu tố thực sự khuếch đại hiệu quả sử dụng công cụ là chuyên môn lĩnh vực, chứ không phải trình độ lập trình. Đặc biệt, các chuyên gia lĩnh vực dễ dàng thành công hơn và cũng dễ dàng phục hồi sau các lỗi và hiểu lầm. Tuy nhiên, khoảng cách giữa chuyên gia và người dùng trung cấp không lớn. Điều này cho thấy, chỉ cần có đủ trình độ thành thạo trong một lĩnh vực nhất định, người dùng gần như có thể sử dụng các công cụ này hiệu quả như một chuyên gia sâu.

Những phát hiện này cho phép chúng tôi có cái nhìn sơ bộ về những thay đổi có thể xảy ra trên thị trường lao động. Trong dữ liệu của chúng tôi, thành công phụ thuộc vào việc một người có hiểu vấn đề họ đang giải quyết hay không, chứ không phải liệu họ có được đào tạo về lập trình hay không. Nếu những mô hình này đúng trong toàn bộ hệ thống kinh tế, điều đó có nghĩa là các công cụ lập trình tác tử, mặc dù có thể đang hấp thụ một phần công việc thiên về triển khai, nhưng đồng thời cũng đang thưởng cho những người thực sự hiểu vấn đề họ giải quyết trong công việc. Các tác tử mã hóa không thay thế chuyên môn lĩnh vực. Ngược lại, người lao động càng mang nhiều hiểu biết đến cho tác tử, thì tác tử càng có thể hoàn thành được nhiều công việc chất lượng cao hơn.

Phân công lao động

Mọi người làm gì với Claude Code

Để hiểu cách mọi người sử dụng Claude Code, chúng tôi phân loại mỗi phiên làm việc vào một trong chín chế độ công việc, tức là một hoạt động duy nhất mô tả rõ nhất mục tiêu của phiên đó. Bốn chế độ liên quan trực tiếp đến việc viết hoặc bảo trì mã: xây dựng thứ mới, sửa thứ hỏng, kiểm thử mã, và điều phối các tác nhân khác hoặc đường ống tự động hóa. Một loại khác là vận hành phần mềm, bao gồm triển khai, cấu hình, chạy đường ống và giám sát hệ thống. Hai loại nữa thiên về việc tìm hiểu "nên làm gì": hiểu cách một hệ thống hiện tại hoạt động, và lên kế hoạch thay đổi trước khi bắt tay vào sửa. Hai loại cuối cùng không liên quan đến mã, hoặc mã chỉ là phần phụ trợ trong sản phẩm cuối: phân tích dữ liệu, và giao tiếp qua bài thuyết trình cùng các tài liệu dạng văn bản khác.

Khoảng 56% phiên làm việc bao gồm viết mã (25%), sửa mã (26%), hoặc kiểm thử và điều phối mã (5%). Vận hành phần mềm chiếm 17%, lập kế hoạch hoặc khám phá chiếm 14%, và phân tích hoặc viết văn bản chiếm 13% (xem Hình 1).

Hình 1: Chín chế độ công việc. Mỗi phiên tương tác được phân loại vào một chế độ công việc duy nhất mô tả rõ nhất mục tiêu của nó.

Đầu tiên, chúng tôi cho mô hình đọc nhật ký phiên và phân loại từng phiên dựa trên đó; sau đó, sử dụng công cụ phân tích bảo vệ quyền riêng tư, chúng tôi đối chiếu kết quả phân loại với dữ liệu từ xa được tự động ghi lại cho mỗi phiên, bao gồm việc có thêm hay xóa dòng mã hay không. Hai nguồn này có sự nhất quán cao. Ví dụ, trong các phiên được bộ phân loại của chúng tôi đánh dấu là tạo hoặc sửa mã, hơn 90% cũng cho thấy có thay đổi mã trong dữ liệu từ xa. Chi tiết xem phần phụ lục.

Ai đưa ra quyết định

Claude Code có mức độ tự chủ cao đến đâu? Đánh giá năng lực cho thấy giới hạn trên đã rất cao và vẫn đang tăng lên. Ví dụ, trong các bài kiểm tra như đánh giá khoảng thời gian của METR, các mô hình tiên tiến hiện có thể tự động hoàn thành các tác vụ phần mềm vốn mất hàng giờ nếu làm thủ công, và tự vượt qua các trở ngại trong quá trình thực hiện. Nhưng trong thực tế sử dụng, tình hình ra sao? Ở đây, chúng tôi tập trung vào mức độ hướng dẫn mà con người và Claude đảm nhận trong các phiên thực tế.

Chúng tôi nghiên cứu vấn đề này từ hai góc độ. Thứ nhất, chúng tôi xem xét mức độ mọi người giao quyết định cho Claude; thứ hai, chúng tôi quan sát lượng hành động họ giao cho Claude. Để hiểu sự phân chia quyết định trong một phiên, chúng tôi xây dựng một bộ phân loại quy kết quyết định bảo vệ quyền riêng tư dựa trên nội dung phiên. Chúng tôi yêu cầu bộ phân loại liệt kê tất cả các quyết định có ý nghĩa trong phiên, và chia chúng thành quyết định lập kế hoạch và quyết định thực thi. Quyết định lập kế hoạch bao gồm việc làm gì, chọn phương pháp nào, thế nào là hoàn thành; quyết định thực thi bao gồm sửa file nào, viết mã gì, dùng ngôn ngữ nào, và chạy lệnh nào. Sau đó, bộ phân loại quy kết mỗi quyết định cho Claude hoặc người dùng, và tạo ra hai con số cho mỗi phiên: tỷ lệ quyết định lập kế hoạch do người dùng đảm nhận, và tỷ lệ quyết định thực thi do người dùng đảm nhận.

Trung bình, con người đưa ra khoảng 70% quyết định lập kế hoạch, nhưng chỉ đưa ra 20% quyết định thực thi (xem Hình 2). Trong thực tế sử dụng, lập trình tác nhân hình thành sự phân công lao động rõ ràng: con người quyết định xây dựng cái gì, tác nhân quyết định xây dựng như thế nào.

Để hiểu mức độ ủy quyền hành động trong một phiên làm việc, chúng ta không xem xét nội dung, mà xem xét cấu trúc phiên. Phiên làm việc của Claude Code bao gồm các tương tác qua lại giữa Claude và người dùng: người dùng gửi prompt, Claude thực hiện hành động; sau đó người dùng gửi prompt tiếp theo, và cứ thế lặp lại. Trong một phiên điển hình, số lượt tương tác như vậy là khoảng bốn lượt. Trong dữ liệu lịch sử từ tháng 10 đến tháng 4 của chúng tôi, mỗi khi người dùng gửi một prompt, trung bình sẽ kích hoạt Claude thực hiện khoảng 10 hành động, đôi khi vượt quá 100 hành động. Trong mỗi lượt, Claude đọc tệp, chỉnh sửa mã, chạy lệnh và trung bình xuất ra 2400 từ.

Khối lượng công việc mà Claude hoàn thành giữa hai lần kiểm tra của người dùng phụ thuộc phần lớn vào ai đang đưa ra quyết định. Khi người dùng giữ quyền kiểm soát quá trình thực thi, tức là người dùng đưa ra hơn 80% quyết định thực thi, Claude thực hiện ít hành động hơn mỗi lượt, khoảng 8 hành động. Còn khi Claude nắm quyền kiểm soát lập kế hoạch, tức là Claude đưa ra hơn 80% quyết định lập kế hoạch, nó đảm nhận số lượng hành động cao nhất, khoảng 16 hành động.

Hình 2: Tỷ lệ đóng góp của Claude trong quyết định lập kế hoạch và thực thi. Biểu đồ này thể hiện sự phân bố tỷ lệ trong các phiên làm việc khác nhau, cho thấy quyết định lập kế hoạch (làm gì) và quyết định thực thi (làm như thế nào) được quy cho Claude thay vì người dùng. Trong phiên điển hình, người dùng đưa ra khoảng 70% quyết định lập kế hoạch, trong khi Claude đưa ra khoảng 80% quyết định thực thi.

Trình độ chuyên môn

Dựa trên mỗi bản ghi phiên làm việc, Claude sẽ đánh giá trình độ chuyên môn biểu kiến của người dùng trong nhiệm vụ đó theo thang năm cấp, từ người mới bắt đầu đến chuyên gia. Bộ phân loại trình độ chuyên môn tập trung vào ba tín hiệu: mức độ chính xác trong hướng dẫn của người dùng, những gì người dùng yêu cầu Claude xác minh, và liệu người dùng thường xuyên sửa Claude hơn hay Claude thường xuyên sửa người dùng hơn. Cần lưu ý rằng, trình độ chuyên môn ở đây là một khái niệm hoàn toàn khác với chức danh hoặc năng lực chung, và quan trọng là nó mang tính cụ thể theo từng nhiệm vụ. Một kỹ sư kỳ cựu lần đầu hỏi về Rust vẫn có thể là người mới bắt đầu trong nhiệm vụ Rust. Một kế toán viên chưa từng sử dụng Python, nếu có thể chỉ dẫn chính xác cho Claude biết một tập lệnh Python cụ thể phải thực thi những quy tắc đối chiếu nào, và có thể phát hiện ra các trường hợp biên mà nó xử lý sai trong quá trình khóa sổ cuối tháng, thì người đó là chuyên gia trong nhiệm vụ này.

Bảng dưới đây minh họa cách chúng tôi định nghĩa các cấp độ chuyên môn trong bộ phân loại, kèm theo các yêu cầu mẫu từ bộ dữ liệu phiên làm việc của tác nhân mã nguồn mở SWE-chat. Các cuộc hội thoại được phân loại là "Người mới" đưa ra những chỉ dẫn chung chung, không thể hiện kiến thức chuyên ngành cụ thể; trong khi các cuộc hội thoại được phân loại là "Chuyên gia" truyền tải sự hiểu biết sâu sắc về kho mã nguồn và môi trường kỹ thuật.

Bảng 1: Bộ phân loại cấp độ chuyên môn. Các ví dụ đã được viết lại, ẩn danh và nén từ các phiên làm việc thực tế, được gắn nhãn bởi bộ phân loại của chúng tôi. Nhiều ví dụ trong số này đến từ bộ dữ liệu phiên lập trình tác nhân công khai SWE-chat.

Chúng tôi đã định lượng mối quan hệ giữa cấp độ chuyên môn và khối lượng đầu ra cũng như hoạt động mà Claude tạo ra cho mỗi lời nhắc. Trong một phiên làm việc điển hình của người mới, mỗi lời nhắc kích hoạt Claude thực hiện khoảng 5 hành động và xuất ra khoảng 600 từ; trong khi ở phiên của chuyên gia, chuỗi hành động dài hơn gấp đôi, khoảng 12 hành động, và khối lượng đầu ra đạt khoảng 3200 từ, gấp năm lần (xem Hình 3). Khoảng cách giữa người mới và chuyên gia này xuất hiện ở mọi loại công việc và mọi mức giá trị nhiệm vụ.

Các chỉ số này bổ sung cho nghiên cứu trước đây của chúng tôi về tính tự chủ của Claude Code. Nghiên cứu trước đây theo dõi thời gian chạy của tác nhân và tần suất người dùng tự động phê duyệt hành động của nó. Ngược lại, các chỉ số quy kết quyết định của chúng tôi nắm bắt ai là người đưa ra quyết định thực chất trong toàn bộ phiên làm việc, trong khi khối lượng đầu ra và số lượng hành động trên mỗi lời nhắc đo lường mức độ hoạt động tự chủ mà Claude có thể thực hiện theo mỗi chỉ dẫn của con người.

Hình 3: Khi đối mặt với người dùng chuyên nghiệp hơn, Claude hoàn thành nhiều công việc hơn cho mỗi lời nhắc. Cấp độ chuyên môn càng cao, số lượng hành động (biểu đồ cột bên trái) và khối lượng văn bản đầu ra (biểu đồ cột bên phải) mà Claude tạo ra cho mỗi lời nhắc càng lớn. Hộp thể hiện khoảng tứ phân vị và được chia tại trung vị. Râu thể hiện từ phân vị thứ 5 đến phân vị thứ 95. Chấm trắng là giá trị trung bình hình học. Cả hai xu hướng tăng đều có ý nghĩa thống kê (p < 0,001), và sự khác biệt giữa các cấp độ chuyên môn liền kề cũng có ý nghĩa thống kê. Sau khi kiểm soát chế độ làm việc, giá trị nhiệm vụ, tháng, nghề nghiệp và dòng mô hình, đồng thời gộp lỗi tiêu chuẩn theo cụm người dùng, xu hướng này vẫn có ý nghĩa: mỗi khi cấp độ chuyên môn tăng lên một bậc, số lượng hành động tăng 9% và khối lượng đầu ra tăng 13%.

Ai đang sử dụng Claude Code và họ dùng nó để làm gì

Người dùng

Để hiểu ai đang thực hiện những công việc này, chúng tôi suy luận nghề nghiệp của từng người dùng dựa trên bản ghi phiên làm việc và ánh xạ chúng vào một trong 23 danh mục chính trong hệ thống Phân loại Nghề nghiệp Tiêu chuẩn (SOC) của Cục Thống kê Lao động Hoa Kỳ. Bộ phân loại được yêu cầu chỉ đưa ra phán đoán dựa trên các tín hiệu sau: bối cảnh dự án được tải khi bắt đầu phiên làm việc của tác nhân, tên và cấu trúc tệp, tài liệu hoặc sản phẩm mà người dùng tham chiếu, chẳng hạn như văn bản pháp lý, dữ liệu lâm sàng, báo cáo tài chính, tài liệu khóa học, v.v., cũng như từ vựng mà người dùng sử dụng. Bộ phân loại được yêu cầu rõ ràng không được coi việc "đang viết mã" là bằng chứng cho thấy người dùng làm nghề lập trình. Chỉ khi có tín hiệu rõ ràng cho thấy công việc phần mềm hoặc dữ liệu là nghề nghiệp của người dùng, phiên làm việc mới được xếp vào danh mục SOC liên quan đến mã hóa, cụ thể là "Nghề nghiệp Máy tính và Toán học". Nếu một luật sư xây dựng một tập lệnh để tự động kiểm tra xem một bộ hợp đồng có thiếu một số điều khoản nào không, thì ngay cả khi phiên làm việc này chủ yếu là viết phần mềm, nó vẫn được xếp vào nghề nghiệp pháp lý. Nếu không có bất kỳ tín hiệu nào về nghề nghiệp của người dùng, phiên làm việc đó sẽ không được phân loại.

Chúng tôi có thể suy luận nghề nghiệp trong khoảng 70% các phiên làm việc. Trong số các phiên có thể phân loại này, "Nghề nghiệp Máy tính và Toán học" là nhóm lớn nhất, điều này không có gì đáng ngạc nhiên vì danh mục này bao gồm hầu hết các công việc liên quan đến phần mềm. Tiếp theo là Vận hành Kinh doanh và Tài chính, Nghệ thuật Thiết kế và Truyền thông, Quản lý, cũng như Khoa học Đời sống, Khoa học Vật lý và Khoa học Xã hội. Trong mẫu của chúng tôi, các nhóm nghề nghiệp phi phần mềm phát triển nhanh nhất là Quản lý, Bán hàng và Nghề nghiệp Pháp lý.

Công việc

Từ tháng 10 năm 2025 đến tháng 4 năm 2026, cơ cấu công việc mà mọi người thực hiện bằng Claude Code đã thay đổi đáng kể. Thay đổi rõ rệt nhất là tỷ lệ các phiên làm việc dành để sửa mã bị hỏng đã giảm từ 33% xuống còn 19% (xem Hình 4). Thay vào đó, nhiều công việc xoay quanh mã hơn đã xuất hiện. Tỷ lệ vận hành phần mềm tăng từ 14% lên 21%. Viết lách và phân tích dữ liệu tăng khoảng gấp đôi, từ khoảng 10% lên khoảng 20%.

Giá trị của bản thân các nhiệm vụ cũng đang tăng lên. Chúng tôi ước tính giá trị kinh tế của mỗi phiên làm việc bằng cách ước tính chi phí của các công việc tương tự trên thị trường freelancer và hiệu chỉnh bằng bộ dữ liệu công việc thực tế công khai. Theo chỉ số này, giá trị ước tính trung bình của một phiên làm việc đã tăng 27% từ tháng 10 đến tháng 4. Sự gia tăng này xuất hiện ở nhiều loại công việc khác nhau. Giá trị của các nhiệm vụ xây dựng, vận hành và sửa chữa lần lượt tăng khoảng 43%, 34% và 32%. Những ước tính giá này khá thô sơ, vì vậy chúng tôi chủ yếu sử dụng chúng để so sánh xu hướng giữa các nhiệm vụ khác nhau theo thời gian, thay vì coi chúng là giá trị đô la có thể đọc trực tiếp. Chi tiết về cách xây dựng bộ ước tính giá trị nhiệm vụ được trình bày trong phần phụ lục.

Hình 4: Cơ cấu công việc và thay đổi giá trị của Claude Code từ tháng 10 năm 2025 đến tháng 4 năm 2026. Biểu đồ này thể hiện tỷ trọng của các loại hình công việc trong các phiên làm việc trong khoảng thời gian bảy tháng. Tỷ lệ các phiên sửa mã bị hỏng giảm từ 33% xuống còn 19%, trong khi tỷ lệ vận hành phần mềm, phân tích dữ liệu và viết tài liệu tăng lên.

Thành công phụ thuộc vào những gì người dùng mang lại

Ước tính giá trị nhiệm vụ là một cách để hiểu cách Claude Code giúp mọi người hoàn thành công việc. Một góc nhìn khác là quan sát có bao nhiêu phiên làm việc thành công và những đặc điểm nào của phiên có liên quan đến sự thành công. Trong tất cả các chỉ số thành công, chúng tôi đều thấy một mô hình rõ ràng: mức độ chuyên môn mà người dùng thể hiện trong phiên càng cao thì khả năng phiên đó thành công càng lớn. Phần lớn sự cải thiện tập trung ở nhóm có trình độ chuyên môn thấp, nghĩa là khoảng cách từ người mới bắt đầu đến người dùng trung cấp lớn hơn khoảng cách từ người dùng trung cấp đến người dùng chuyên gia.

Trước khi phân tích các đặc điểm của phiên thành công, chúng ta cần xác định chính xác cách đo lường thành công. Chúng tôi không thể quan sát kết quả thực tế của người dùng, cũng không thể trực tiếp hỏi họ liệu họ đã hoàn thành những gì họ muốn thông qua Claude hay chưa. Do đó, chúng tôi dựa vào hai phương pháp đo lường bổ sung dựa trên bản ghi phiên. Phương pháp đầu tiên là "đánh giá thành công", được thực hiện bởi bộ phân loại đọc toàn bộ bản ghi phiên để xác định xem người dùng có hoàn thành mục tiêu ban đầu của họ hay không, với các lựa chọn bao gồm thành công, thành công một phần, thất bại và không có mục tiêu rõ ràng. Sau đó, hai bộ phân loại bổ trợ sẽ đánh giá mức độ bằng chứng của phán đoán đó để xác định "thành công đã được xác thực". Bộ phân loại tín hiệu thành công sẽ tìm kiếm bằng chứng thành công có thể xác minh, đặc biệt bao gồm các hoạt động git phù hợp với công việc đó, chẳng hạn như commit và pull request, test suite vượt qua và người dùng thể hiện sự hài lòng rõ ràng. Nó sẽ chấm điểm phiên theo thang điểm từ "không có tín hiệu" đến "tín hiệu yếu" (1 điểm) và đến "nhiều tín hiệu cứng" (5 điểm). Một bộ phân loại tín hiệu thất bại song song khác sẽ chấm điểm các bằng chứng về sự cố, bao gồm lỗi, test thất bại, lặp lại cùng một việc nhiều lần và người dùng phản đối đầu ra. Thành công đã được xác thực yêu cầu hai điều kiện đồng thời: phiên được đánh giá là thành công và có ít nhất một tín hiệu thành công cứng có thể xác minh. Phân tích sau đây tập trung vào mức độ thành công hoặc thất bại trong phiên, do đó chúng tôi loại trừ các phiên bị bộ phân loại kết quả thành công đánh giá là "không có mục tiêu rõ ràng", chiếm khoảng 7,7% tổng số mẫu.

Lợi ích của trình độ chuyên môn

Vậy, những phiên nào dễ thành công nhất? Kết quả cho thấy, điểm trình độ chuyên môn của phiên như đã đề cập ở trên có ảnh hưởng lớn đến sự thành công của phiên.

Một số người có thể lo ngại rằng trình độ chuyên môn không phải là yếu tố thực sự thúc đẩy. Có thể các chuyên gia chỉ chọn những nhiệm vụ khác nhau hoặc có sự khác biệt ở các khía cạnh khác. Trong phần này, chúng tôi phần nào giải quyết mối lo ngại này bằng cách so sánh các phiên có cùng loại công việc, cùng giá trị ước tính, cùng tháng, cùng chủ đề và đến từ cùng một nhóm ngành nghề lớn, đồng thời xem xét mức độ chuyên môn khác nhau của người dùng ảnh hưởng đến kết quả như thế nào.

Bảng 2: Định nghĩa thành công và thất bại được suy ra từ bộ phân loại. Ví dụ từ các phiên tương tác lập trình tác nhân công khai trong tập dữ liệu SWE-chat, được viết lại và tóm tắt, sau đó được gắn nhãn bởi bộ phân loại của chúng tôi.

Trong tất cả các chỉ số thành công, trình độ chuyên môn của người dùng trong phiên càng cao, phiên đó càng có khả năng thành công. Các phiên được đánh giá là người mới, theo chỉ số nghiêm ngặt nhất của chúng tôi là "thành công đã xác minh", đạt tỷ lệ thành công 15%, và tỷ lệ đạt ít nhất thành công một phần là 77%. Trong khi đó, các phiên được đánh giá từ trung cấp trở lên, tỷ lệ thành công đã xác minh là 28% đến 33%, và tỷ lệ thành công một phần là 91% đến 92% (xem Hình 5).

Trong mỗi chỉ số, phần lớn lợi ích đến từ sự cải thiện từ người mới lên trung cấp; từ trung cấp lên chuyên gia, độ dốc giảm dần. Chi tiết về phân tích hồi quy đằng sau Hình 5, xem phần phụ lục.

Hình 5: Trình độ chuyên môn và kết quả phiên. Biểu đồ này hiển thị kết quả phiên dựa trên điểm trình độ chuyên môn của người dùng trong nhiệm vụ, từ người mới đến chuyên gia với năm cấp độ. Biểu đồ bên trái bao gồm tất cả các phiên. Biểu đồ giữa và bên phải chỉ giới hạn ở các phiên gặp vấn đề, tức là các phiên có tín hiệu thất bại lớn hơn 3, và hiển thị tỷ lệ các phiên này cuối cùng đạt được các định nghĩa thành công và thất bại khác nhau. Mỗi điểm là tỷ lệ đã điều chỉnh. Chúng tôi ước tính sự khác biệt giữa các cấp độ chuyên môn bằng cách chỉ so sánh các phiên có cùng chế độ làm việc, cùng khoảng giá trị nhiệm vụ, cùng tháng, cùng chủ đề nhiệm vụ và cùng loại người dùng, tức là có thuộc ngành nghề liên quan đến phần mềm hay không. Chi tiết hồi quy liên quan xem phần phụ lục. Các đường dọc là khoảng tin cậy của trung bình mẫu, hầu hết quá nhỏ để thấy trong biểu đồ. Các biểu đồ này loại trừ các phiên được bộ phân loại kết quả thành công xác định là "không có mục tiêu rõ ràng".

Trong các phiên gặp thách thức, cũng có thể thấy một gradient tương tự. Khi tín hiệu thất bại ghi nhận bằng chứng thất bại đã xác minh, chúng tôi coi phiên đó là "gặp vấn đề". Điều này có thể bao gồm xuất hiện lỗi, kiểm tra thất bại, nhiều lần cố gắng hoàn thành cùng một việc, hoặc người dùng bày tỏ sự thất vọng và không hài lòng. Trong các phiên gặp vấn đề, sau khi kiểm soát tất cả các biến số trên, tỷ lệ thành công đã xác minh tăng từ 4% ở phiên của người mới lên 15% ở phiên của chuyên gia (xem Hình 5). Nếu sử dụng chỉ số thành công lỏng lẻo hơn, chúng tôi thấy tỷ lệ đạt ít nhất thành công một phần là 60% ở người dùng mới và 80% đến 81% ở người dùng từ trung cấp đến chuyên gia.

Chúng tôi cũng theo dõi một mối quan hệ ngược lại, đó là mối quan hệ giữa trình độ chuyên môn và các chỉ số thất bại khác nhau. Cần lưu ý rằng, trong phân tích này, các phiên bị coi là thất bại là những phiên thậm chí không đạt được thành công một phần. Nếu một phiên gặp vấn đề bị coi là thất bại và không có dòng mã nào được viết, chúng tôi gọi đó là bị bỏ rơi. Trong các phiên mà người dùng có vẻ là người mới, 19% cuối cùng bị bỏ rơi; trong khi ở các nhóm người dùng khác, tỷ lệ này là 5% đến 7%. Nói cách khác, những người dùng ít kinh nghiệm nhất, khi cố gắng đạt mục tiêu nhưng gặp khó khăn, dễ bỏ cuộc hơn. Một phần giá trị của kỹ năng chuyên môn dường như nằm ở khả năng hướng dẫn tác nhân quay lại đúng hướng.

Nghề nghiệp có thể không quan trọng bằng chuyên môn

Tỷ lệ thành công đã được xác thực của người dùng trong các ngành nghề liên quan đến phần mềm trong tất cả các phiên làm việc là khoảng 30%, trong khi người dùng thuộc các ngành nghề khác là khoảng 26%. Trong các phiên tạo mã, tức là các phiên có ít nhất một dòng mã mới hoặc được sửa đổi, hai con số này lần lượt là 34% và 29% (xem Hình 6). Nếu sử dụng định nghĩa thành công lỏng lẻo hơn, khoảng cách giữa các ngành nghề liên quan đến phần mềm và các ngành nghề khác sẽ thu hẹp hơn nữa. Trong các phiên tạo mã, tỷ lệ người dùng đạt được ít nhất một phần thành công ở cả hai nhóm lần lượt là 89% và 88%. Khoảng cách năm điểm phần trăm không lớn và trong bảy tháng, nó không tăng lên cũng không thu hẹp lại, mặc dù tỷ lệ thành công của cả hai nhóm đều đang tăng. Trong các phiên tạo mã, mười nhóm ngành nghề lớn nhất trong tập dữ liệu của chúng tôi, mỗi nhóm đều có khoảng cách về tỷ lệ thành công so với kỹ sư phần mềm trong vòng bảy điểm phần trăm. Các ngành nghề quản lý có tỷ lệ thành công đã được xác thực cao nhất, cao hơn một chút so với các ngành nghề kỹ thuật phần mềm. Tỷ lệ thành công đã được xác thực cao hơn của các nhà quản lý có thể phản ánh rằng kỹ năng quản lý có thể chuyển giao sang nhiệm vụ chỉ huy tác nhân AI. Nhưng điều này cũng có thể một phần đến từ phương pháp đo lường của chúng tôi: việc xác thực phụ thuộc một phần vào sự xác nhận rõ ràng của người dùng trong phiên làm việc, và các nhà quản lý có thể quen với việc bày tỏ khi họ nhận được kết quả mong muốn.

Hình 6: Tỷ lệ thành công được đánh giá và tỷ lệ thành công đã được xác thực của các phiên mã hóa theo ngành nghề suy luận. Hình này hiển thị tỷ lệ định nghĩa thành công nghiêm ngặt trong các phiên có ít nhất một dòng mã mới hoặc được sửa đổi, theo ngành nghề suy luận của người dùng, bao gồm thành công được đánh giá và thành công đã được xác thực. Hình hiển thị mười nhóm ngành nghề lớn nhất. Mỗi nhóm đều có khoảng cách về tỷ lệ thành công trong vòng bảy điểm phần trăm so với người dùng thuộc ngành phần mềm/toán học, tức là người dùng thuộc ngành máy tính và toán học trong phân loại SOC. Thanh lỗi biểu thị khoảng tin cậy 95% được tính dựa trên các tài khoản khác nhau.

Triển vọng

Kết quả của báo cáo này phác họa một bức tranh đang hình thành: lập trình tác nhân AI đang khuếch đại một số kiến thức và kỹ năng, đồng thời thay thế các kỹ năng khác. Trong các phiên tạo mã, tỷ lệ thành công của các ngành nghề chính đều không khác biệt nhiều so với các ngành nghề liên quan đến phần mềm. Có vẻ như tác nhân mã hóa đang làm cho việc có nền tảng lập trình trở nên ít quan trọng hơn đối với việc hoàn thành thành công các nhiệm vụ lập trình.

Đồng thời, các phiên thành công có nhiều khả năng thể hiện chuyên môn trong lĩnh vực. Các phiên được đánh giá là chuyên gia có tỷ lệ thành công đã được xác thực cao gấp đôi so với các phiên của người mới. Khi phiên gặp vấn đề, tỷ lệ người mới bỏ cuộc cũng cao hơn nhiều lần so với những người dùng khác. Bản thân phương thức cộng tác làm rõ bức tranh này: các chuyên gia trong lĩnh vực có thể hướng dẫn Claude hoàn thành nhiều công việc hơn với mỗi lệnh. Do đó, khả năng dẫn dắt Claude đến thành công đến nhiều hơn từ sự nắm vững một lĩnh vực, chứ không phải từ khả năng viết mã. Những người có sự nắm vững này trong bất kỳ lĩnh vực nào giờ đây có thể hoàn thành các công việc kỹ thuật mà trước đây không thể. Những người thiếu hiểu biết chuyên môn này, dù sử dụng cùng một công cụ, sẽ thu được ít hơn nhiều. Và lợi ích chủ yếu đến từ sự thành thạo, chứ không phải tinh thông. Có một hiểu biết có thể vận hành về một lĩnh vực đã mang lại phần lớn lợi ích; chuyên môn hóa sâu hơn chỉ mang lại thêm một chút lợi thế nhỏ.

Những phát hiện này vẫn chỉ là sơ bộ. Giống như hầu hết các nghiên cứu khác của chúng tôi, chúng tôi không thể đo lường kết quả thực tế, chẳng hạn như mã được viết trong một phiên làm việc sau đó được sử dụng hay bị loại bỏ, hoặc liệu nó có tạo ra giá trị kinh tế hay không. Ngoài ra, báo cáo này loại trừ các tương tác phi giao diện, vốn chiếm một phần đáng kể trong tổng hoạt động. Phát triển một khuôn khổ có thể đo lường loại hình sử dụng này là một trong những trọng tâm của công việc trong tương lai. Hơn nữa, tất cả các phân loại phiên làm việc của chúng tôi đều dựa vào việc mô hình đọc các bản ghi phiên. Trong phần phụ lục, chúng tôi cho thấy bộ phân loại phù hợp với dữ liệu đo từ xa độc lập theo hướng dự kiến và nhất quán với đánh giá của mô hình tham chiếu mạnh trong hầu hết các phiên. Tuy nhiên, việc xác thực bộ phân loại trên quy mô lớn vẫn rất khó khăn; bản thân các phiên Claude Code cũng làm tăng độ khó, vì chúng có thể quá dài và phức tạp để có thể sử dụng nhãn thủ công làm chuẩn thực tế.

Khi mô hình, người dùng và sự phân công lao động giữa chúng liên tục thay đổi, bức tranh trong báo cáo này cũng sẽ được cập nhật liên tục. Chúng tôi hy vọng các chỉ số này có thể giúp theo dõi những thay đổi lớn đang diễn ra. Ví dụ, nếu trong tương lai, lợi nhuận từ trình độ chuyên môn bắt đầu giảm, điều đó sẽ cho thấy các mô hình đang bắt đầu cung cấp những phán đoán quan trọng mà hiện tại người dùng mang lại, và lợi ích của những công cụ này sẽ mở rộng từ các chuyên gia trong lĩnh vực sang nhiều đối tượng hơn. Nếu tỷ lệ người dùng ngoài lĩnh vực phần mềm hoàn thành thành công các phiên viết mã tiếp tục tăng, điều đó có thể có nghĩa là sản xuất phần mềm đang trở thành một phần công việc thông thường trong nhiều lĩnh vực, không còn là sản phẩm của một nghề duy nhất. Những thay đổi này sẽ thay đổi ai có thể hưởng lợi từ lập trình tác nhân và mức độ lợi ích ra sao, đồng thời tác động đến những kỹ năng được đánh giá cao nhất trên thị trường lao động.

[Liên kết gốc]

Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:

Nhóm Telegram đăng ký: https://t.me/theblockbeats

Nhóm Telegram thảo luận: https://t.me/BlockBeats_App

Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia

#Claude #Hướng dẫn

Báo lỗi/Báo cáo