BTC
$96,000
5.73%
ETH
$3,521.91
3.97%
HTX
$0.{5}2273
5.23%
SOL
$198.17
3.05%
BNB
$710
3.05%
lang
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
Trang chủ
Cộng đồng
AI AI
Tin nhanh
Bài viết
Sự kiện
Thêm
Thông tin tài chính
Chuyên đề
Hệ sinh thái chuỗi khối
Mục nhập
Podcast
Data
OPRR

Mô hình GLM-5.2 của Zhipu đã đứng đầu bảng xếp hạng mã nguồn mở DeepSWE: giải quyết 44% nhiệm vụ phát triển phức tạp, vượt qua các mô hình đóng nguồn chính.

Theo giám sát của Động Sát Beating, mô hình mã nguồn mở GLM-5.2 của Zhipu AI chính thức gia nhập chuẩn DeepSWE dành cho kỹ thuật phần mềm tầm xa. Ở chế độ suy luận tối đa, tỷ lệ thành công một lần cho các tác vụ phát triển phức tạp đạt 44%, đứng đầu trong số các mô hình mã nguồn mở. So với Kimi K2.7 Code từng lọt vào bảng xếp hạng trước đó, tỷ lệ thành công cao hơn 13 điểm phần trăm.

Chi phí trung bình để GLM-5.2 giải quyết mỗi tác vụ là 3,92 USD, cao hơn một chút so với 2,82 USD của Kimi K2.7 Code, nhưng tỷ lệ thành công lại vượt qua hiệu suất của nhiều mô hình đóng phổ biến trong các cấu hình suy luận cụ thể, bao gồm Claude Sonnet 4.6 [high] (30%), Gemini 3.5 Flash [medium] (37%) và Claude Opus 4.8 [low] (41%).

Chuẩn DeepSWE do Datacurve, đơn vị khởi xướng đánh giá, thiết kế chuyên kiểm tra khả năng xử lý các tác vụ dài của AI Agent. Bài kiểm tra bao gồm 113 vấn đề lập trình thực tế, phủ 5 ngôn ngữ. Khác với các bài kiểm tra truyền thống chỉ sửa một đoạn mã duy nhất, DeepSWE yêu cầu AI phối hợp sửa đổi nhiều tệp, với trung bình hơn 600 dòng mã được sửa. Đánh giá được thực hiện trong các container cách ly, với tài nguyên CPU và bộ nhớ bị giới hạn nghiêm ngặt.

举报 Báo lỗi/Báo cáo
Báo lỗi/Báo cáo
Gửi
Thêm mới thư viện
Chỉ mình tôi có thể nhìn thấy
Công khai
Lưu
Chọn thư viện
Thêm mới thư viện
Hủy
Hoàn thành