BTC

$96,000

5.73%

ETH

$3,521.91

3.97%

HTX

$0.{5}2273

5.23%

SOL

$198.17

3.05%

BNB

$710

3.05%

简体中文

繁體中文

English

Tiếng Việt

한국어

日本語

ภาษาไทย

Türkçe

Gán nhãn "Quản lý Sản phẩm" cho Đại lý sẽ không làm cho nó chuyên nghiệp hơn, chỉ khiến nó từ chối vượt quá ranh giới

Theo theo theo dõi của Beat AI, các khung công cụ như CrewAI, MetaGPT đã thúc đẩy một thiết kế đa Agent: cho phép các Agent khác nhau đóng vai trò như Product Manager, Kiến trúc sư, Kỹ sư kiểm thử, giao tiếp tài liệu giống như các bộ phận trong công ty, chạy dòng chảy. SagaSu đã viết một bài phân tích dài hàng nghìn từ, đặt tên cho mô hình này là "Ảo Tưởng Ba Kiểm Luật Sáu Bộ Phận", khám phá tất cả tài liệu kỹ thuật của Anthropic, OpenAI, Google và không tìm thấy bất kỳ công ty nào thực hiện như vậy.

Bài viết chỉ ra hai vấn đề cơ bản. Thứ nhất là ranh giới giả: con người cần phân chia công việc vì một người không thể làm tất cả mọi thứ, nhưng LLM có thể viết tài liệu yêu cầu cũng có thể viết mã nguồn, không tồn tại "rào cản chuyên môn". Agent được gắn nhãn vai trò sẽ không trở nên chuyên gia hơn và thường bỏ qua trực tiếp khi gặp vấn đề nằm ngoài vai trò của mình, và sự suy luận có giá trị nhất thường xảy ra ở biên giới. Thứ hai là thông tin chết trong quá trình truyền thông. Agent A tạo ra một tài liệu và chuyển cho B, nhưng được chuyển đi không phải là quá trình suy luận mà là kết luận, B phải xây dựng lại ngữ cảnh, giả định ngầm dần mất đi dần, chuỗi thông tin dài càng dễ dàng "mỗi nút đều đúng, nhưng tổng thể đã sai hướng".

Có người phản biện rằng: tập tin tiến trình `progress.txt`, tệp `spec` được cả ba công ty sử dụng không phải cũng là một cách chuyển tải tài liệu sao? Bài viết cho rằng sự khác biệt nằm ở việc, tài liệu giữa các vai trò được chuyển tiếp một chiều, A viết xong chuyển cho B và không quan tâm, thông tin đã được nén thành kết luận; trong khi tập tin trạng thái là nhật ký tăng trưởng phiên làm việc của cùng một nhiệm vụ, viết và đọc bởi cùng một vai trò nhưng ở thời điểm khác nhau, thông tin được tích luỹ liên tục, chuỗi suy luận có thể duy trì liên tục qua các phiên giao tiếp.

Cách thực hiện cụ thể của ba công ty:

- Anthropic coi mỗi phiên mới như một "Kỹ sư trưởng ca", sử dụng tệp progress.txt làm bản ghi chuyển tiếp, phiên đầu tiên được bắt đầu bởi một Initializer Agent chuyên nghiệp thiết lập môi trường, viết sách hướng dẫn, các phiên sau đọc và tiếp tục công việc. Nhiều Agent sử dụng mô hình orchestrator-worker, một Agent chính phân chia nhiệm vụ, nhiều Agent phụ chạy song song để khám phá các hướng khác nhau, kết quả được tổng hợp lại, không phải truyền thông dòng chảy
- OpenAI sử dụng tệp spec để các nhiệm vụ bắt đầu với mục tiêu cụ thể (ngăn Agent "tạo ra điều quá tài năng nhưng hướng nhầm"), runbook đồng thời là sách hướng dẫn và nhật ký kiểm tra, cũng giới thiệu Skills (bộ lệnh phiên bản hóa có thể tái sử dụng, bản chất là công cụ và quy trình hoạt động, không phải vai trò). GPT-5.3-Codex sử dụng cơ chế này chạy liên tục khoảng 25 giờ, hoàn thành một công cụ thiết kế hoàn chỉnh, duy trì liên tục suy luận
- Google sử dụng cửa sổ mở rộng 1 triệu token, đồng thời viết ý định dự án vào tệp Markdown cố định vào kho lưu trữ mã nguồn, không phụ thuộc vào bản ghi trò chuyện. Gemini 3 còn bổ sung Thẻ trạng thái, lưu trữ các nút chính của chuỗi suy luận trong phiên hội thoại dài, ngăn chặn những logic trước sau mâu thuẫn

Từ thực tiễn của ba công ty, có thể rút ra một số nguyên tắc chung. Giá trị của nhiều Agent nằm ở việc song song khám phá không gian tìm kiếm, không phải mô phỏng phân chia công việc. Dữ liệu từ nghiên cứu của Anthropic Research cho thấy, lượng sử dụng token giải thích được 80% sự khác biệt về hiệu suất: bổ sung một số Agent giúp cải thiện hiệu suất, bản chất là dùng nhiều nguồn lực tính toán để khám phá song song các hướng khác nhau, không liên quan đến việc chia nhau công việc như thế nào. Nếu cần thêm bước xác minh, hãy để Agent xác minh chuyên nghiệp cái hỏng, không phải là chuyển giao nhiệm vụ tiếp tục. Sử dụng công cụ gì cho Agent quyết định Agent có thể làm gì, nhãn vai trò chỉ quyết định Agent muốn làm gì.

Bài viết kết thúc bằng thông báo rằng, khả năng của mô hình đang phát triển nhanh chóng, một bản vá được thêm vào hệ thống hôm nay có thể trở thành mã chết sau sáu tháng. Anthropic đã xem xét qua vấn đề này: Sonnet 4.5 gần đạt ngưỡng về ngữ cảnh thì sẽ kết thúc sớm, nhóm đã cần phải thêm cơ chế đặt lại ngữ cảnh, kết quả sau khi chuyển sang Opus 4.5, hành vi này biến mất, cơ chế thiết lập lại từ đó trở thành mã chết không có ý nghĩa. Duy trì khả năng tiến hóa của kiến trúc quan trọng hơn việc chọn một "kiến trúc hoàn hảo".

Liên kết gốc

Báo lỗi/Báo cáo

Bài viết nổi bật

Chưa có đoàn đàm phán của Iran khởi hành tham gia cuộc đàm phán hòa bình

Nhật Bản JSCC phối hợp với Mizuho, Nomura và Digital Asset để triển khai Thử nghiệm Thế chấp Trái phiếu Chính phủ dựa trên Blockchain

派盾：KelpDAO tấn công đã chuyển 75.700 ETH vào 2 địa chỉ mới

Báo lỗi/Báo cáo

Gửi

Thêm mới thư viện

Chỉ mình tôi có thể nhìn thấy

Công khai

Lưu

Chọn thư viện

Thêm mới thư viện

Hủy

Hoàn thành

Gán nhãn "Quản lý Sản phẩm" cho Đại lý sẽ không làm cho nó chuyên nghiệp hơn, chỉ khiến nó từ chối vượt quá ranh giới

ASTEROID tăng 1000 lần trong vòng ba ngày, Meme Season trở lại Ethereum?

Trong ngày Aave giới thiệu rsETH, tại sao Spark lựa chọn rút lui?

Bị Đánh Cắp 2.9 Tỷ, Ba Bên Không Thừa Nhận Trách Nhiệm, Ai Sẽ Chịu Trách Nhiệm Cho Sự Kiện KelpDAO?

2.9 tỷ USD biến mất, Cam kết An toàn của DeFi vẫn còn không?

Tether đã phát hành thêm 10 tỷ USDT trên mạng Ethereum

Một baleine bán ngắn nổi tiếng đã thoát khỏi vị thế dừng lỗ, ngay sau đó đã đặt lệnh bán ngắn trở lại tại 76,670 USD

Nhà giao dịch meme nổi tiếng Cooker gần đây đã tiếp tục thực hiện các giao dịch đột ngột ASTEROID

「Silver-Tongued Falcon」 đã mở vị thế Short ETH với đòn bẩy 20 lần, quy mô lên đến 12 triệu USD