Theo giám sát của Động Sát Beating, mô hình mã nguồn mở GLM-5.2 của Zhipu AI chính thức gia nhập chuẩn DeepSWE dành cho kỹ thuật phần mềm tầm xa. Ở chế độ suy luận tối đa, tỷ lệ thành công một lần cho các tác vụ phát triển phức tạp đạt 44%, đứng đầu trong số các mô hình mã nguồn mở. So với Kimi K2.7 Code từng lọt vào bảng xếp hạng trước đó, tỷ lệ thành công cao hơn 13 điểm phần trăm.
Chi phí trung bình để GLM-5.2 giải quyết mỗi tác vụ là 3,92 USD, cao hơn một chút so với 2,82 USD của Kimi K2.7 Code, nhưng tỷ lệ thành công lại vượt qua hiệu suất của nhiều mô hình đóng phổ biến trong các cấu hình suy luận cụ thể, bao gồm Claude Sonnet 4.6 [high] (30%), Gemini 3.5 Flash [medium] (37%) và Claude Opus 4.8 [low] (41%).
Chuẩn DeepSWE do Datacurve, đơn vị khởi xướng đánh giá, thiết kế chuyên kiểm tra khả năng xử lý các tác vụ dài của AI Agent. Bài kiểm tra bao gồm 113 vấn đề lập trình thực tế, phủ 5 ngôn ngữ. Khác với các bài kiểm tra truyền thống chỉ sửa một đoạn mã duy nhất, DeepSWE yêu cầu AI phối hợp sửa đổi nhiều tệp, với trung bình hơn 600 dòng mã được sửa. Đánh giá được thực hiện trong các container cách ly, với tài nguyên CPU và bộ nhớ bị giới hạn nghiêm ngặt.
