BTC
$96,000
5.73%
ETH
$3,521.91
3.97%
HTX
$0.{5}2273
5.23%
SOL
$198.17
3.05%
BNB
$710
3.05%
lang
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
Trang chủ
Cộng đồng
AI AI
Tin nhanh
Bài viết
Sự kiện
Thêm
Thông tin tài chính
Chuyên đề
Hệ sinh thái chuỗi khối
Mục nhập
Podcast
Data
OPRR

Codex sử dụng máy tính như thế nào? Ba loại điểm truy cập và ranh giới quyền hạn

Đọc bài viết này mất 27 phút
Vấn đề không phải là trao cho AI nhiều quyền hạn hơn, mà là để nó chọn đúng ranh giới hành động.
Tiêu đề gốc: Ba cách Codex có thể sử dụng máy tính
Tác giả gốc: jason
Biên dịch: Peggy, BlockBeats


Lời biên tập: Bài viết này phân tích ba cách Codex tương tác với môi trường bên ngoài: Computer Use, tiện ích mở rộng Chrome và trình duyệt trong ứng dụng. Cả ba đều giải quyết vấn đề "cho Codex sử dụng máy tính", nhưng tương ứng với các bối cảnh tác vụ, ranh giới quyền hạn và mức độ tin cậy khác nhau.


Trong đó, Computer Use có phạm vi bao phủ rộng nhất, có thể thao tác trực tiếp các ứng dụng gốc được ủy quyền trên macOS/Windows, cài đặt hệ thống, trình giả lập iOS, thậm chí hoàn thành quy trình làm việc qua nhiều ứng dụng. Nó phù hợp với các quy trình GUI không có API, plugin hoặc công cụ có cấu trúc hỗ trợ, nhưng đánh đổi bằng tốc độ chậm hơn và ranh giới quyền hạn rộng nhất. Tiện ích mở rộng Chrome phù hợp với các tác vụ phụ thuộc vào trạng thái đăng nhập, Cookies, nhiều tab và danh tính trình duyệt, ví dụ như Gmail, LinkedIn, Salesforce, hệ thống nội bộ, hoặc nghiên cứu đã đăng nhập qua nhiều trang web. Trình duyệt trong ứng dụng thiên về các tác vụ phát triển và gỡ lỗi, đặc biệt phù hợp với dịch vụ local, lỗi giao diện, bố cục responsive và chú thích thiết kế; nó không kế thừa trạng thái đăng nhập từ trình duyệt thông thường của người dùng, khả năng hạn chế hơn nhưng tính cách ly cũng mạnh hơn.


Nhận định cốt lõi của bài viết là Codex không chỉ có một cách "sử dụng máy tính" duy nhất, điều quan trọng thực sự là chọn giao diện thao tác hẹp nhất, an toàn nhất và có cấu trúc nhất dựa trên tác vụ. Nếu có thể dùng plugin hoặc MCP, thì không nên dùng điều khiển thị giác trước; nếu tác vụ chỉ liên quan đến phát triển web, ưu tiên dùng trình duyệt trong ứng dụng; khi cần danh tính trình duyệt và trạng thái đăng nhập của người dùng, mới chuyển sang Chrome; chỉ khi các công cụ có cấu trúc không thể bao phủ và tác vụ bắt buộc phải dựa vào giao diện đồ họa desktop, Computer Use mới là giải pháp cuối cùng.


Appshots không phải là cách thứ tư để điều khiển máy tính, mà là công cụ "chỉ cho Codex xem" ngữ cảnh màn hình hiện tại. Nó giải quyết vấn đề đầu vào ngữ cảnh, trong khi Browser, Chrome và Computer Use giải quyết vấn đề hành động. Nhìn tổng thể, sự phân tầng này thực sự tiết lộ điểm mấu chốt của việc sản phẩm hóa AI Agent: không phải để mô hình có quyền hạn vô hạn, mà là liên tục thu hẹp quyền hạn, xác định ranh giới trong các tác vụ cụ thể, và cho phép người dùng giữ quyền kiểm duyệt đối với các hành động quan trọng.


Dưới đây là nội dung gốc:


Codex sử dụng máy tính theo ba cách: Computer Use, tiện ích mở rộng Chrome và trình duyệt trong ứng dụng.


Có một sự chồng chéo nhất định giữa chúng, vừa đủ để gây nhầm lẫn.


Sau khi đọc bài viết này, bạn sẽ biết cách cài đặt và kích hoạt ba phương thức này, nên sử dụng chúng trong những tình huống nào, Appshots và Developer mode kết nối chúng ra sao, cũng như nên viết gì trong AGENTS.md để Codex có thể tự động chọn giao diện thao tác phù hợp.


Phiên bản đơn giản là:



Dù vậy, nếu có thể, hãy ưu tiên sử dụng plugin hoặc MCP. Ví dụ, plugin Slack có thể truy xuất một luồng tin nhắn chính xác hơn nhiều so với việc nhấp chuột lung tung trong Slack; các thao tác do plugin GitHub tạo ra cũng dễ kiểm tra hơn so với việc để Codex điều khiển trang web. Điều khiển trực quan phù hợp nhất khi khả năng của các công cụ có cấu trúc đã chạm đến giới hạn.


Mọi thứ đều có thể là @Computer


Computer Use là giao diện thao tác có phạm vi bao phủ rộng nhất trong ba loại. Nó cho phép Codex xem và thao tác với giao diện đồ họa trên macOS và Windows, bao gồm cửa sổ, menu, nhập liệu bàn phím và clipboard trong các ứng dụng bạn đã ủy quyền.


Nó cũng thường là chậm nhất. Plugin có cấu trúc có thể gọi API trực tiếp; Computer Use cần quan sát giao diện, xác định vị trí cần nhấp, chờ ứng dụng phản hồi, rồi kiểm tra trạng thái tiếp theo. Vòng lặp trực quan này tiêu tốn thời gian, nhưng đồng nghĩa với việc Codex có thể thao tác những ứng dụng hoàn toàn không có API khả dụng.


Trên macOS, chậm không nhất thiết có nghĩa là làm phiền bạn. Computer Use có thể chạy ngầm trên các ứng dụng bạn đã ủy quyền, trong khi bạn vẫn tiếp tục sử dụng các phần khác của máy tính. Nhiều lần, khi tôi mở một ứng dụng trong lúc dùng Codex, tôi mới phát hiện ra Codex đã âm thầm hoàn thành một quy trình làm việc ở chế độ nền.


Tùy thuộc vào các ứng dụng bạn đã cài đặt và ủy quyền trên máy tính, các đối tượng thao tác này có thể bao gồm Spotify, Xcode, System Settings, trình giả lập iOS, hoặc thậm chí điều khiển iPhone của bạn qua iPhone Mirroring. Nó cũng có thể chuyển đổi giữa nhiều ứng dụng để xử lý các quy trình làm việc xuyên suốt các ứng dụng khác nhau.


Bạn có thể sử dụng nó khi nhiệm vụ phụ thuộc vào:

Các ứng dụng desktop gốc, như Spotify hoặc ứng dụng tài chính;

Trình giả lập iOS, iPhone Mirroring, hoặc các quy trình chỉ có thể thao tác qua giao diện đồ họa;

Cài đặt hệ thống hoặc ứng dụng;

Nguồn dữ liệu không có plugin hoặc API;

Quy trình làm việc yêu cầu chuyển đổi giữa nhiều ứng dụng;

Bước cuối cùng bị thiếu trong một tích hợp có cấu trúc nào đó.


Cách cài đặt: Mở Settings > Computer Use trong Codex, sau đó nhấp Install.


Cách kích hoạt: Đề cập @Computer, hoặc yêu cầu rõ ràng Codex sử dụng Computer Use. Khi năng lực mô hình được cải thiện, trong tương lai nó cũng sẽ tự động gọi khi cần.


Có thể thử một vài ví dụ:


Ví dụ yêu thích của tôi bắt nguồn từ một gói hàng bị đánh cắp. Amazon bảo tôi phải đợi khoảng 25 phút mới kết nối được với dịch vụ khách hàng. Tôi giao một luồng Codex cho Computer Use, yêu cầu nó kiểm tra cửa sổ trò chuyện mỗi năm phút một lần, khi nhân viên xuất hiện thì chuyển sang kiểm tra mỗi phút một lần, và cố gắng hết sức giúp tôi lấy lại tiền hoàn. Khi tôi tắm xong, tiền hoàn đã được xử lý xong.


Sử dụng @Computer để mở Spotify, tìm danh sách phát Discover Weekly của tôi và bắt đầu phát. Không thay đổi tài khoản hoặc cài đặt đăng ký của tôi.Sử dụng @Computer để mở iPhone Mirroring, tái tạo lỗi onboarding trong ứng dụng iOS và chụp ảnh màn hình trạng thái lỗi. Sửa đường dẫn mã liên quan nhỏ nhất, sau đó chạy lại cùng một quy trình.


Tôi cũng sử dụng Computer Use như "chặng cuối" trong quy trình làm việc có cấu trúc. Trong một video phát hành, Codex có thể đọc phản hồi từ Slack, sửa mã và render video mới, nhưng tích hợp Slack trong luồng đó không thể tải tệp lên. Vì vậy Computer Use đã nhấp Add file để bổ sung bước còn thiếu này.


Nó cũng là một trong ba công cụ có ranh giới tin cậy rộng nhất. Chỉ giao cho nó một ứng dụng hoặc quy trình rõ ràng mỗi lần. Khi một số ứng dụng nhạy cảm không phải là một phần của nhiệm vụ, hãy giữ chúng ở trạng thái tắt; kiểm tra kỹ các cửa sổ bật lên quyền; khi liên quan đến thay đổi tài chính, tài khoản, thanh toán, thông tin xác thực, quyền riêng tư và bảo mật hệ thống, tốt nhất nên có người giám sát.


Xử lý nhiều tab và trạng thái đăng nhập với @Chrome


Tiện ích mở rộng Codex Chrome cho phép Codex truy cập vào trạng thái Chrome mà bạn đã đăng nhập. Nên sử dụng tính năng này khi tác vụ phụ thuộc vào tài khoản, cookies, hồ sơ trình duyệt, hoặc các tab bạn đã mở và xác thực.


Giao diện thao tác này phù hợp với các công cụ sau:

Gmail hoặc LinkedIn;

Salesforce hoặc trang quản trị hỗ trợ khách hàng;

Bảng điều khiển nội bộ;

Nghiên cứu đã đăng nhập trên nhiều trang web;

Các biểu mẫu phụ thuộc vào tài khoản hoặc tiện ích mở rộng trình duyệt của bạn.


Cách cài đặt: Mở Plugins của Codex, thêm Chrome và làm theo quy trình thiết lập. Codex sẽ hướng dẫn bạn cài đặt tiện ích mở rộng Codex Chrome và phê duyệt quyền Chrome. Khi tiện ích hiển thị Connected, hãy bắt đầu một luồng mới.


Cách kích hoạt: Đề cập @Chrome, hoặc yêu cầu rõ ràng Codex sử dụng trình duyệt Chrome đã đăng nhập của bạn:


Sử dụng @Chrome để xem xét tài khoản khách hàng đang mở, so sánh với ticket hỗ trợ trong tab khác, và soạn thảo các trường còn thiếu. Dừng lại trước khi gửi.


Các tác vụ Chrome sẽ chạy trong nhóm tab, giúp tập hợp các tab liên quan đến một luồng Codex nhất định. Khác với trình duyệt trong ứng dụng, giao diện thao tác này mang theo danh tính trình duyệt của bạn. Điều này khiến nó mạnh mẽ hơn, nhưng cũng nhạy cảm hơn.


Một lợi thế chính khác là khả năng kiểm soát nhiều tab. Chrome cho phép nhiều tab liên kết với cùng một tác vụ, đọc ngữ cảnh trong một trang, đối chiếu thông tin trong trang khác, và tiếp tục quy trình làm việc ở trang thứ ba. Computer Use cũng có thể điều khiển trình duyệt bằng thị giác, nhưng Chrome hiểu tác vụ như một quy trình làm việc trên trình duyệt, thay vì một chuỗi thao tác tọa độ màn hình.


Gần đây có một luồng, tôi đã giao một tab Strudel Composer đang mở cho Codex để làm cho bản nhạc thú vị hơn. Chrome cung cấp cho nó tab đã được chọn, cùng với các công cụ WebMCP mà trang này hiển thị. Codex đã kiểm tra cấu trúc bản nhạc, viết lại phần hòa âm và hình thức tổng thể bốn phút, thay đổi nhịp độ, lưu bản nhạc và tiếp tục phát. Nó không cần phải tìm kiếm trực quan từng điều khiển trên giao diện, vì Chrome có thể kết hợp ngữ cảnh tab với khả năng cấu trúc mà trang cung cấp.


Tôi cũng dùng nó để chạy một luồng Twitter dài hạn. Hướng dẫn cơ bản là:


Mỗi ngày, dùng Chrome để kiểm tra DM của tôi, đọc tin tức liên quan, và tìm kiếm phản hồi hoặc đề cập mà tôi cần biết. Thêm bất kỳ nội dung nào có giá trị lâu dài vào kho lưu trữ của tôi. Không đăng bài hoặc gửi tin nhắn.


Điểm thú vị không phải là Codex có thể mở Twitter, mà là luồng này có thể quay lại cùng một môi trường làm việc đã đăng nhập trong thời gian dài, kết nối nội dung tìm thấy với tệp cục bộ, và để lại kết quả để tôi xem xét.


Ranh giới tin cậy ở đây rất quan trọng. Trang web có thể coi các cú nhấp chuột, gửi biểu mẫu và tin nhắn của Codex là hành động của chính bạn. Nội dung trang web cũng là đầu vào không đáng tin cậy. Cần phân biệt rõ ràng các bước có hậu quả nặng nề hơn: nghiên cứu, điều hướng và soạn thảo có thể tự động hóa; gửi, đăng, mua hoặc xác nhận cần bạn xem xét.


Nếu toàn bộ nhiệm vụ được thực hiện trong trình duyệt, ưu tiên dùng Chrome thay vì Computer Use. Chrome có ngữ cảnh gốc của trình duyệt cần thiết cho các tác vụ này, đồng thời không mở rộng phạm vi truy cập ra toàn bộ màn hình.


Dùng @Browser trong ứng dụng để xử lý trang web bạn đang phát triển


Trình duyệt trong ứng dụng là trình duyệt tồn tại bên trong luồng Codex. Bạn và Codex chia sẻ cùng một trang được hiển thị, vì vậy nó đặc biệt phù hợp để xây dựng và gỡ lỗi ứng dụng web.


Tôi thường bắt đầu xử lý từ đây:

Máy chủ phát triển cục bộ;

Trang xem trước dựa trên tệp;

Trang công khai không cần đăng nhập;

Tái tạo lỗi giao diện;

Kiểm tra bố cục đáp ứng;

Để lại phản hồi thiết kế về các phần tử trang.


Ràng buộc quan trọng nhất của nó là sự cô lập. Trình duyệt trong ứng dụng không sử dụng hồ sơ trình duyệt thông thường, cookie, tiện ích mở rộng, phiên đăng nhập hoặc tab hiện có của bạn. Khi nhiệm vụ cần danh tính tài khoản, đây là một hạn chế; nhưng khi nhiệm vụ không cần tài khoản, đây lại là một ranh giới hữu ích.


Cách thiết lập: Mở Plugins của Codex, thêm plugin Browser và kích hoạt nó.


Cách kích hoạt: Khi trong lời nhắc có đề cập đến @Browser, hoặc yêu cầu rõ ràng Codex sử dụng trình duyệt trong ứng dụng:


Sử dụng @Browser để mở ứng dụng vite tại http://localhost:3000/, tái hiện lỗi tràn trên thiết bị di động, sửa lỗi đó, và xác minh lại cùng một tuyến đường ở cả chiều rộng desktop và di động.


Điều này tạo thành một vòng phản hồi chặt chẽ: Codex có thể chỉnh sửa mã, thao tác trên trang, kiểm tra trạng thái hiển thị, chụp ảnh màn hình, và sau khi sửa lỗi, xác minh lại cùng một quy trình.


Phần tôi yêu thích nhất là tính năng chú thích. Khi tôi đánh giá một ứng dụng cục bộ, tôi có thể trực tiếp nhấp vào một phần tử, hoặc chọn một khu vực và để lại nhận xét. Các điều khiển kiểu dáng cũng cho phép tôi xem trước và phản hồi chính xác hơn về văn bản, phông chữ, khoảng cách và màu sắc. Tôi thường kết hợp điều này với nhập liệu bằng giọng nói và hướng dẫn quy trình: tôi đánh giá trang, để lại nhận xét, và tiếp tục xếp hàng thêm ý kiến trong khi Codex xử lý phản hồi hiện tại. Bản thân trang đó trở thành bản đặc tả kỹ thuật.


Điều này đặc biệt hữu ích cho công việc thiết kế. Tôi thường yêu cầu Codex tổng hợp một ý tưởng, một gói nghiên cứu, hoặc trạng thái dự án thành một tệp index.html duy nhất, sau đó mở nó bằng trình duyệt trong ứng dụng. Thay vì cố gắng mô tả toàn bộ thiết kế trong một lời nhắc khác, tôi có thể trực tiếp chú thích trên trang thực tế: "Thứ bậc này bị đảo ngược", "Chỗ này đừng giống thẻ quá", "Các điều khiển này cần thêm không gian", hoặc "Toàn bộ trang dùng tỷ lệ phông chữ này". Codex sẽ nhận được nhận xét kèm theo ảnh chụp màn hình và ngữ cảnh phần tử liên quan, sửa đổi tệp, và sau đó mở lại cùng một trang cho vòng tiếp theo.


Tạo một tệp index.html duy nhất cho bản tóm tắt dự án này và mở nó trong @Browser trong ứng dụng.


Vòng lặp này cảm giác gần gũi hơn với việc làm việc cùng một nhà thiết kế trên cùng một khung vẽ, thay vì trao đổi qua lại các ảnh chụp màn hình và mô tả văn bản.


Trình duyệt trong ứng dụng cũng phù hợp làm điểm khởi đầu cho các quy trình làm việc kết hợp. Trong một luồng khác, tôi đã dùng trình duyệt trong ứng dụng để mở một bài đăng trên X, yêu cầu Codex điều tra các cuộc thảo luận liên quan. Trang hiển thị giúp nó xác nhận tôi đang đề cập đến bài đăng nào; sau đó Codex chuyển sang Twitter CLI, truy xuất 38 phản hồi, bao gồm cả các phản hồi lồng nhau bị ẩn trong chế độ xem trình duyệt. Đây là cách thực hành nguyên tắc "sử dụng giao diện thao tác hẹp nhất": dùng trình duyệt để xác nhận ngữ cảnh trên màn hình, sau đó dùng công cụ có cấu trúc để truy xuất sâu hơn.


Ở đây cũng có sự đánh đổi. Tính cách ly của trình duyệt trong ứng dụng khiến nó trở thành một giao diện phát triển tuyệt vời, nhưng cũng đồng nghĩa với việc nó không phù hợp để xử lý đăng nhập Google, passkey, hoặc các trang web phụ thuộc vào tiện ích mở rộng của trình duyệt. Khi danh tính quan trọng, hãy chuyển sang Chrome.


Appshots


Appshot không phải là cách thứ tư để Codex điều khiển máy tính. Đó là một phương pháp để hướng Codex vào ngữ cảnh trước mắt bạn.


Trên Mac, nhấn phím CMD hai lần để chụp cửa sổ gần nhất. Codex sẽ đính kèm một hình ảnh và tất cả văn bản khả dụng vào luồng. Bạn có thể chụp Appshot một lỗi, một email, một thiết kế, một bảng cài đặt, hoặc một biểu mẫu lạ, rồi nói trực tiếp:


Đây là mô hình tinh thần mà tôi thấy dễ nhớ nhất: Appshots là cách bạn dùng để chỉ vào một thứ gì đó trên máy tính; Browser, Chrome và Computer Use là cách Codex hành động.


Appshots hiện được tạo thông qua ứng dụng Codex trên macOS. Nó chụp cửa sổ phía trước nhất, không phải toàn bộ màn hình. Điều này khiến nó trở thành một cách hữu ích: bạn có thể cung cấp ngữ cảnh tập trung mà không cần cấp quyền kiểm soát ứng dụng đó.


Cách theo dõi những tiến triển này


Các giao diện thao tác này thay đổi rất nhanh. Nếu bạn muốn có thông tin chi tiết thực tế, thay vì chờ một bản tổng kết phát hành lớn:


Theo dõi Ari Weinstein (@AriX) để biết về Computer Use và Appshots;


Theo dõi James Sun (@JamesZmSun) để biết nội dung liên quan đến Browser;


Theo dõi Andrew Ambrosino (@ajambrosino) để biết về phát hành ứng dụng Codex và câu chuyện sản phẩm máy tính để bàn lớn hơn;


Theo dõi OpenAI Developers (@OpenAIDevs) để biết tin tức rộng hơn về Codex và Nền tảng OpenAI.


[Liên kết gốc]



Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:

Nhóm Telegram đăng ký: https://t.me/theblockbeats

Nhóm Telegram thảo luận: https://t.me/BlockBeats_App

Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia

举报 Báo lỗi/Báo cáo
Chọn thư viện
Thêm mới thư viện
Hủy
Hoàn thành
Thêm mới thư viện
Chỉ mình tôi có thể nhìn thấy
Công khai
Lưu
Báo lỗi/Báo cáo
Gửi