BTC

$96,000

5.73%

ETH

$3,521.91

3.97%

HTX

$0.{5}2273

5.23%

SOL

$198.17

3.05%

BNB

$710

3.05%

简体中文

繁體中文

English

Tiếng Việt

한국어

日本語

ภาษาไทย

Türkçe

谷歌's Duo in High-Stakes Standoff Sees TERMS-Bench Turn AI Negotiation into Bankruptcy Stress Test

Theo giám sát của Beat It, Stanford Erica Zhang và đồng đội đã phát hành TERMS-Bench, bộ dữ liệu thử nghiệm cho thương lượng kinh tế. Bộ dữ liệu này loại bỏ yếu tố "trọng tài mô hình lớn" không minh bạch, giúp bên đánh giá có thể trực tiếp xem xét xem mô hình thua cuộc vì đấu giá cao, nhượng bộ hay vi phạm.

Trong thử nghiệm thông thường, Claude Opus 4.6 và Genie GLM 5.1 giành hai vị trí đầu tiên. Nghiên cứu chỉ ra rằng họ đã sử dụng chiến lược quyết liệt "đấu giá cao, không nhượng bộ" để khai thác đối thủ trong các ván gió lưng lợi nhuận lớn.

Tuy nhiên, trong các ván khó khăn nhất với không gian lợi nhuận siêu hẹp, chiến lược quyết liệt sẽ gặp khó khăn do việc đàm phán tan rã thường xuyên. Danh sách xếp hạng trở nên lộn xộn ở đây: Gemma 4 31B (mô hình trọng số mở) và Gemini 3.1 Pro, hiểu rõ cách nhượng bộ một cách điều độ để bảo vệ đơn hàng, đã vượt qua và giành hai vị trí đầu tiên; trong khi hai đội dẫn đầu trước đó Claude và GLM lần lượt rơi xuống vị trí thứ 5 và thứ 9.

Ngoài việc kiểm tra mức độ khó khăn tối đa, thử nghiệm nguồn vốn của bộ chuẩn này, Bankroll, còn là bài kiểm tra về khả năng sinh tồn trong đàm phán. Mỗi cuộc đàm phán được kéo dài thành chuỗi mua bán liền mạch: mỗi Điều Hành viên nhận 100 USD vốn và tham gia 50 phiên đàm phán, mỗi phiên trừ một khoản phí hoạt động cố định, và nếu thua hết thì phá sản. Ở đây, thậm chí cả những sai lầm nhỏ trong đàm phán cũng có thể dẫn đến khủng hoảng phá sản.

Kết quả cho thấy Genie GLM 5.1, Claude Opus 4.6 và cặp đôi Google mặc dù có chiến lược khác nhau, nhưng vẫn dẫn đầu về khả năng kiểm soát và đều đạt tỷ lệ sống sót 100%, cuối cùng tiền mặt của họ đều đạt từ 380 đến 443 USD. Trái lại, Grok 4.20 và GPT-4o-mini đã không thể chống đỡ được lỗ mất lưu lượng tiền mặt, tỷ lệ phá sản lần lượt là 25% và 50%.

Điểm chính của TERMS-Bench không phải là tỷ lệ thực hiện giao dịch mà là việc chuyển đổi lỗi đàm phán thành thiệt hại tiền mặt và rủi ro phá sản. Khả năng thuyết phục đối thủ của mô hình chỉ là tầng một; sự khác biệt thực sự được thể hiện khi mô hình có thể bảo vệ lợi nhuận và lưu lượng tiền mặt trong các giao dịch liên tiếp.

Liên kết gốc

Báo lỗi/Báo cáo

Bài viết nổi bật

trade.xyz tuần trước đã vượt mốc 125 tỷ USD về khối lượng giao dịch hợp đồng, đồng thời tăng trưởng nhanh để trở thành "Nasdaq trên chuỗi".

1h trước

Một con cá voi đã mua 5001 ETH trong vòng 2 giờ qua, tương đương khoảng 10,600,000 USD

2h trước

Hyperliquid vừa tiến hành rút khỏi cung cấp thanh khoản BTC với sự hợp tác của hai nhà cung cấp thanh khoản lớn: Wintermute và Auros Global, giảm tổng cộng gần 1 tỷ USD.

24HThông tin quan trọng

Người phát ngôn Bộ Ngoại giao Iran: Quá trình đàm phán do Pakistan hòa giải đang diễn ra

OpenAI đang phát triển chế độ âm thanh thời gian thực cho Codex một cách bí mật

马斯克: Hy vọng SpaceX sẽ IPO "sớm".

a16z Liên kết tiếp tục mua vào 372,000 Đồng HYPE, tương đương khoảng 16,91 triệu Đô la

Báo lỗi/Báo cáo

Gửi

Thêm mới thư viện

Chỉ mình tôi có thể nhìn thấy

Công khai

Lưu

Chọn thư viện

Thêm mới thư viện

Hủy

Hoàn thành

谷歌's Duo in High-Stakes Standoff Sees TERMS-Bench Turn AI Negotiation into Bankruptcy Stress Test

「Vua Trái Phiếu Mới」 Gundlach: Fed giảm lãi suất trong năm nay «đã không còn khả thi»

OpenAI đã chi tiêu một tỷ đô la để mua "tính cách con người" | Bản tin sáng của Rewire

Kết quả sẽ được công bố vào hôm nay, toàn bộ cộng đồng mạng đang chờ đợi việc "Vua cổ phiếu AI" Leopold lên sàn.

Zcash tại sao lại phát triển tốt như vậy?

a16z Liên kết tiếp tục mua vào 372,000 Đồng HYPE, tương đương khoảng 16,91 triệu Đô la

trade.xyz tuần trước đã vượt mốc 125 tỷ USD về khối lượng giao dịch hợp đồng, đồng thời tăng trưởng nhanh để trở thành "Nasdaq trên chuỗi".

Một con cá voi đã mua 5001 ETH trong vòng 2 giờ qua, tương đương khoảng 10,600,000 USD

Hyperliquid vừa tiến hành rút khỏi cung cấp thanh khoản BTC với sự hợp tác của hai nhà cung cấp thanh khoản lớn: Wintermute và Auros Global, giảm tổng cộng gần 1 tỷ USD.