BTC
$96,000
5.73%
ETH
$3,521.91
3.97%
HTX
$0.{5}2273
5.23%
SOL
$198.17
3.05%
BNB
$710
3.05%
lang
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
Trang chủ
Cộng đồng
AI AI
Tin nhanh
Bài viết
Sự kiện
Thêm
Thông tin tài chính
Chuyên đề
Hệ sinh thái chuỗi khối
Mục nhập
Podcast
Data
OPRR

谷歌's Duo in High-Stakes Standoff Sees TERMS-Bench Turn AI Negotiation into Bankruptcy Stress Test

Theo giám sát của Beat It, Stanford Erica Zhang và đồng đội đã phát hành TERMS-Bench, bộ dữ liệu thử nghiệm cho thương lượng kinh tế. Bộ dữ liệu này loại bỏ yếu tố "trọng tài mô hình lớn" không minh bạch, giúp bên đánh giá có thể trực tiếp xem xét xem mô hình thua cuộc vì đấu giá cao, nhượng bộ hay vi phạm.

Trong thử nghiệm thông thường, Claude Opus 4.6 và Genie GLM 5.1 giành hai vị trí đầu tiên. Nghiên cứu chỉ ra rằng họ đã sử dụng chiến lược quyết liệt "đấu giá cao, không nhượng bộ" để khai thác đối thủ trong các ván gió lưng lợi nhuận lớn.

Tuy nhiên, trong các ván khó khăn nhất với không gian lợi nhuận siêu hẹp, chiến lược quyết liệt sẽ gặp khó khăn do việc đàm phán tan rã thường xuyên. Danh sách xếp hạng trở nên lộn xộn ở đây: Gemma 4 31B (mô hình trọng số mở) và Gemini 3.1 Pro, hiểu rõ cách nhượng bộ một cách điều độ để bảo vệ đơn hàng, đã vượt qua và giành hai vị trí đầu tiên; trong khi hai đội dẫn đầu trước đó Claude và GLM lần lượt rơi xuống vị trí thứ 5 và thứ 9.

Ngoài việc kiểm tra mức độ khó khăn tối đa, thử nghiệm nguồn vốn của bộ chuẩn này, Bankroll, còn là bài kiểm tra về khả năng sinh tồn trong đàm phán. Mỗi cuộc đàm phán được kéo dài thành chuỗi mua bán liền mạch: mỗi Điều Hành viên nhận 100 USD vốn và tham gia 50 phiên đàm phán, mỗi phiên trừ một khoản phí hoạt động cố định, và nếu thua hết thì phá sản. Ở đây, thậm chí cả những sai lầm nhỏ trong đàm phán cũng có thể dẫn đến khủng hoảng phá sản.

Kết quả cho thấy Genie GLM 5.1, Claude Opus 4.6 và cặp đôi Google mặc dù có chiến lược khác nhau, nhưng vẫn dẫn đầu về khả năng kiểm soát và đều đạt tỷ lệ sống sót 100%, cuối cùng tiền mặt của họ đều đạt từ 380 đến 443 USD. Trái lại, Grok 4.20 và GPT-4o-mini đã không thể chống đỡ được lỗ mất lưu lượng tiền mặt, tỷ lệ phá sản lần lượt là 25% và 50%.

Điểm chính của TERMS-Bench không phải là tỷ lệ thực hiện giao dịch mà là việc chuyển đổi lỗi đàm phán thành thiệt hại tiền mặt và rủi ro phá sản. Khả năng thuyết phục đối thủ của mô hình chỉ là tầng một; sự khác biệt thực sự được thể hiện khi mô hình có thể bảo vệ lợi nhuận và lưu lượng tiền mặt trong các giao dịch liên tiếp.

举报 Báo lỗi/Báo cáo
Báo lỗi/Báo cáo
Gửi
Thêm mới thư viện
Chỉ mình tôi có thể nhìn thấy
Công khai
Lưu
Chọn thư viện
Thêm mới thư viện
Hủy
Hoàn thành