Theo giám sát của Động Sát Beating, tổ chức đánh giá Artificial Analysis đã công bố chuẩn đánh giá phần cứng Agent đầu tiên trong ngành mang tên AA-AgentPerf. Các bài đánh giá truyền thống giống như "chạy nước rút" với các câu hỏi đơn lẻ, chỉ xem xét tốc độ phản hồi; trong khi đó, nhiệm vụ của Agent lại giống như "chạy tiếp sức", AI cần tự động phân tích mục tiêu, liên tục luân chuyển giữa đọc/ghi file, sửa code và chạy thử nghiệm. Sự tương tác thường xuyên đặt ra thách thức rất lớn đối với dung lượng bộ nhớ máy chủ và hiệu quả điều phối. Chuẩn đánh giá này sử dụng các lộ trình lập trình thực tế được phát lại, lấy "quy mô Agent đồng thời được hỗ trợ trên mỗi megawatt điện năng" làm chỉ số hiệu suất năng lượng cốt lõi, trực tiếp giải quyết các nút thắt về điện năng và chi phí của trung tâm dữ liệu.
Đợt kiểm tra đầu tiên chạy mô hình mã nguồn mở 1,6 nghìn tỷ tham số DeepSeek V4 Pro. Kết quả cho thấy, hệ thống tủ làm mát bằng chất lỏng Blackwell GB300 NVL72 của NVIDIA có thể hỗ trợ 61.400 Agent đồng thời trên mỗi megawatt điện năng, trong khi thế hệ trước Hopper HGX H200 chỉ hỗ trợ 2.600 Agent, hiệu suất năng lượng tăng hơn 20 lần. Dung lượng đồng thời trên mỗi card đồ họa cũng tăng 41 lần. Điều này cho phép, với cùng một ngân sách điện năng, trung tâm dữ liệu có thể hỗ trợ quy mô Agent đồng thời gấp 20 lần, giảm đáng kể chi phí triển khai các ứng dụng như lập trình tự động và dịch vụ khách hàng.
Trong số các kết quả đầu tiên, AMD Instinct MI355X tạm thời bị tụt lại phía sau. Tổ chức đánh giá chỉ ra rằng, cấu hình của AMD và H200 đều sử dụng khung vLLM mã nguồn mở phổ biến để xây dựng, chưa được tối ưu hóa sâu; khi khung dịch vụ và các hạt nhân tính toán được điều chỉnh phù hợp, hiệu suất của AMD vẫn còn dư địa để cải thiện. Hiện tại, các nhà cung cấp suy luận như Together AI đã tiên phong triển khai DeepSeek V4 Pro trên Blackwell, cung cấp hỗ trợ suy luận thời gian thực cho công cụ lập trình Agent Cursor.
