BTC

$96,000

5.73%

ETH

$3,521.91

3.97%

HTX

$0.{5}2273

5.23%

SOL

$198.17

3.05%

BNB

$710

3.05%

简体中文

繁體中文

English

Tiếng Việt

한국어

日本語

ภาษาไทย

Türkçe

Polymarket có định giá chính xác không? Tôi đã sử dụng 200 đại diện để mô phỏng một tình huống khủng hoảng để so sánh

Đọc bài viết này mất 32 phút

Khi có nhiều người tham gia, cấu trúc thảo luận sẽ phong phú hơn, và tín hiệu cuối cùng hình thành cũng sẽ có giá trị hơn

原文標題：cách tôi vận hành 200 đặc vụ AI về tình hình khủng hoảng Hormuz với Mirofish, và so sánh với Polymarket
Tác giả bản gốc：The Smart Ape
Dịch thuật: Peggy, BlockBeats

***Người biên tập chú ý: Khi AI bắt đầu có khả năng mô phỏng một sân chơi dư luận và dự đoán sự việc đó, sự thay đổi đã đang diễn ra một cách âm thầm.***

Bài viết này ghi lại một thí nghiệm xoay quanh tình hình eo biển Hormuz: Tác giả đã sử dụng MiroFish để xây dựng một hệ thống mô phỏng gồm 200 đặc vụ, đưa chính phủ, truyền thông, công ty năng lượng, nhà giao dịch và người dân bình thường cùng sống trong một mạng xã hội mô phỏng, tương tác liên tục, tranh luận và truyền thông thông tin để đưa ra nhận định, và sau đó so sánh kết quả của nhóm này với giá định của thị trường Polymarket.

Kết quả không nhất quán. Cuộc thảo luận của nhóm có chiều hướng lạc quan nhưng thị trường lại đáng kể bi quan hơn; trong tự do phát biểu, một số người bi quan lại gần hơn với giá định thực sự; và khi bước vào tình huống phỏng vấn, hầu hết tất cả các đặc vụ đều hội tụ vào cách diễn đạt ôn hòa, hợp tác hơn.

Sự chia rẽ này không xa lạ. Trong thế giới thực, sự công khai thường có khuynh hướng ổn định và lạc quan, trong khi nhận định về rủi ro thực sự lại ẩn giấu trong hành động và diễn đạt không chính thức. Nói cách khác, những gì người ta nói, những gì họ nghĩ, và cách họ đặt cược bằng tiền, thường là ba hệ thống khác nhau.

Trong cấu trúc như vậy, tín hiệu có giá trị nhất thường không đến từ sự đồng thuận, mà đến từ những giọng nói thiếu hợp nhất giữa tiếng ồn.

Dưới đây là bản gốc:

Tôi đã sử dụng MiroFish để mô phỏng tình hình tương lai của eo biển Hormuz trong vài tuần tới. Công cụ này rất xuất sắc trong việc xử lý các vấn đề như vậy, vì nó có thể thực hiện các bài toán phức tạp: đưa vào cùng một hệ thống nhiều bên tham gia, các vai trò khác nhau với cơ chế khuyến khích riêng, và khiến những đặc vụ này liên tục tranh đấu, tranh luận, cuối cùng hình thành một kết quả tiệm cận đồng thuận.

Dưới đây là các bước cụ thể mà tôi đã chạy mô phỏng này, cũng như kết quả cuối cùng của tôi. Bất kỳ ai cũng có thể tái hiện, điều quan trọng chỉ là biết phải thực hiện các bước nào.

Đầu tiên, MiroFish là một dự án mã nguồn mở từ một nhóm nghiên cứu tại Trung Quốc. Bạn nhập một lô tài liệu vào đó, nó sẽ xây dựng một biểu đồ tri thức trước, sau đó dựa trên biểu đồ này tạo ra các đặc vụ khác nhau, sau đó đưa các đặc vụ này vào một môi trường Twitter mô phỏng. Trong môi trường này, họ sẽ đăng bài, retweet, bình luận, like, tranh luận với nhau. Sau khi mô phỏng kết thúc, bạn có thể phỏng vấn từng đặc vụ một, xem quan điểm và quy trình lý luận của họ.

Bạn nhập một tình huống khẩn cấp, nó sẽ tạo ra một cuộc tranh luận xoay quanh sự kiện đó; sau đó, từ cuộc tranh luận đó, bạn có thể rút ra một dự đoán kết quả.

Tôi đã đưa nó vào một vấn đề thị trường Polymarket đang diễn ra: Đến cuối tháng 4 năm 2026, việc vận chuyển hàng hải qua eo biển Hormuz liệu có khôi phục bình thường không?

Do đó, tôi đã cung cấp tất cả thông tin này cho MiroFish, tạo ra 200 vai trò đại diện — bao gồm chính phủ, truyền thông, quân đội, công ty năng lượng, nhà giao dịch, và dân thường — sau đó cho họ tranh luận trong môi trường mô phỏng trong 7 ngày mô phỏng. Cuối cùng, so sánh kết quả họ đưa ra với giá thị trường.

Cấu hình tổng thể như sau:

· Mô hình: GPT-4o mini, trong 200 tình huống đại diện, cân bằng giữa chi phí và hiệu suất tốt nhất

· Hệ thống bộ nhớ: Zep Cloud, được sử dụng để lưu trữ bộ nhớ đại diện và biểu đồ tri thức

· Bộ mô phỏng: OASIS (môi trường clone Twitter do Camel-AI cung cấp)

· Phần cứng: Mac mini M1 Pro, 24GB RAM

· Thời gian chạy: Khoảng 49 phút, hoàn thành 100 vòng mô phỏng

· Chi phí: Khoảng 3 đến 5 USD cho mỗi lời gọi API

· Nguyên liệu khởi đầu: Một bản tóm lược 5800 ký tự, tổng hợp từ Wikipedia, CNBC, Al Jazeera, Forbes, Reuters, bao gồm dòng thời gian quân sự, trạng thái phong tỏa, giá dầu, tổn thất kinh tế, nỗ lực ngoại giao, và các yếu tố liên quan đến đầu tư 3.2 nghìn tỷ USD của GCC. Nói cách khác, tất cả thông tin cốt lõi cần thiết cho việc đánh giá đại diện đã được bao gồm trong đó.

Làm thế nào để mô phỏng lại quy trình này (Hướng dẫn từng bước)

Nếu bạn muốn chạy thử nghiệm bản thân, dưới đây là toàn bộ các bước mà tôi đã thực hiện trong thực tế. Toàn bộ quy trình mất khoảng 2 giờ để cấu hình, chi phí API khoảng từ 3 đến 5 USD; nếu bạn tăng số vòng hoặc số lượng đại diện, chi phí sẽ tăng lên.

Những thứ bạn cần chuẩn bị

· Python 3.12 (Không sử dụng phiên bản 3.14, tiktoken sẽ báo lỗi trên phiên bản này)

·Node.js phiên bản 22 trở lên

·Một Khóa API OpenAI (GPT-4o mini rất rẻ, phù hợp với tình huống này)

·Một tài khoản Zep Cloud (phiên bản miễn phí dành cho mô phỏng quy mô nhỏ là đủ)

·Một máy tính có dung lượng RAM tốt. Tôi đang sử dụng Mac mini M4 Pro, RAM 24GB, nhưng 16GB cũng đủ

Bước 1: Cài đặt MiroFish

Sau đó cấu hình tệp .env của bạn

OPENAI_API_KEY=sk-khóa-của-bạn

OPENAI_BASE_URL=liên-kết

OPENAI_MODEL=gpt-4o-mini

ZEP_API_KEY=khóa-zep-của-bạn

Bước 2: Tạo dự án và tải lên tài liệu gốc của bạn

Tài liệu gốc là một phần quan trọng nhất trong quy trình này, nó xác định thông tin về tình hình hiện tại mà hệ thống cần biết. Lúc đó, tôi đã chuẩn bị một bản tóm tắt khoảng 5800 ký tự, bao gồm dòng thời gian quân sự, trạng thái phong tỏa, giá dầu, thiệt hại kinh tế, nỗ lực ngoại giao và tác động từ khía cạnh đầu tư của GCC, nguồn thông tin được lấy từ Wikipedia, CNBC, Al Jazeera, Forbes và Reuters.

Bước 3: Tạo ra bảng tri thức (ontology)

Bước này để cho MiroFish biết nó nên nhận dạng những loại thực thể nào và xem xét các mối quan hệ có thể tồn tại giữa các thực thể.

Ở đây, tôi cuối cùng đã tạo ra 10 loại thực thể: quốc gia, quân đội, nhân sự ngoại giao, thực thể kinh doanh, cơ quan truyền thông, thực thể kinh tế, tổ chức, cá nhân, cơ sở hạ tầng và thị trường dự đoán; cùng với 6 loại mối quan hệ. Nếu kết quả tự động sinh ra không phản ánh tốt tình huống của bạn, bạn cũng có thể điều chỉnh thủ công.

Bước 4: Xây dựng biểu đồ tri thức

Bước này sẽ sử dụng Zep Cloud. MiroFish sẽ gửi tài liệu gốc và ontology đến Zep, để Zep trích xuất các thực thể và xây dựng biểu đồ.

Quá trình này tầm khoảng một đến hai phút. Kết quả cuối cùng mà tôi nhận được là một biểu đồ có 65 nút và 85 cạnh, kết nối các phần tử như quốc gia, cá nhân, tổ chức, hàng hóa lớn, v.v.

Bước thứ năm: Tạo người mô phỏng

MiroFish sẽ dựa trên bản đồ tri thức, tạo ra một bộ tùy chỉnh hoàn chỉnh cho mỗi thực thể, bao gồm loại MBTI, tuổi, quốc gia, phong cách đăng bài, điểm kích cảm, chủ đề cấm, và ký ức tổ chức.

Ban đầu, tôi đã tạo ra 43 người mô phỏng cốt lõi từ bản đồ tri thức. Sau đó, hệ thống có thể mở rộng các vai trò cốt lõi này lên số lượng tổng bạn muốn. Cuối cùng, tôi đã đặt tổng số người mô phỏng là 200 và bổ sung thêm nhiều vai trò dân thường đa dạng như nhà giao dịch tiền điện tử, phi công hãng hàng không, giáo sư, sinh viên, người hoạt động xã hội, v.v.

Bước thứ sáu: Chuẩn bị môi trường mô phỏng

Bước này sẽ tạo ra cấu hình mô phỏng đầy đủ, bao gồm lịch trình hành động của người mô phỏng, bài đăng hạt giống ban đầu và các tham số thời gian. MiroFish sẽ tự động chọn các thiết lập mặc định tương đối hợp lý, như thời gian cao điểm hoạt động, thời gian ngủ, và tần suất đăng bài của các loại người mô phỏng khác nhau.

Cấu hình của tôi vào lúc đó là: Mô phỏng tổng cộng 168 giờ (7 ngày), 100 vòng (mỗi vòng tương đương 1 giờ), chỉ sử dụng kịch bản Twitter, và đã thiết lập thời gian hoạt động riêng cho từng người mô phỏng.

Bước thứ bảy: Bắt đầu chạy mô phỏng.

Sau đó chỉ còn việc chờ đợi. Tôi đã chạy 200 người mô phỏng, 100 vòng mô phỏng bằng GPT-4o mini, mất khoảng 49 phút. Bạn có thể theo dõi tiến trình qua API hoặc xem trực tiếp log.

Trong toàn bộ quá trình, các người mô phỏng sẽ tự chạy: họ sẽ theo dõi dòng thời gian, quyết định liệu họ sẽ đăng bài, retweet, bình luận, chia sẻ, like hay chỉ đơn giản là lướt tin tức, mà không cần can thiệp thủ công.

Bước thứ tám (Tùy chọn): Phỏng vấn người mô phỏng

Sau khi mô phỏng kết thúc, hệ thống sẽ chuyển sang chế độ lệnh. Lúc này, bạn có thể phỏng vấn một người mô phỏng cụ thể, hoặc phỏng vấn tất cả người mô phỏng cùng một lúc:

Phân tích

MiroFish sẽ đọc tài liệu hạt giống trước và tự động tạo cấu trúc bảng ngữ nghĩa (bao gồm 10 loại thực thể và 6 loại mối quan hệ); sau đó dựa trên các định nghĩa này để trích xuất một bản đồ tri thức (bao gồm 65 nút và 85 cạnh). Dựa trên điều này, nó sẽ xây dựng bộ tùy chỉnh hoàn chỉnh cho mỗi thực thể, bao gồm loại MBTI, tuổi, quốc gia, phong cách đăng bài, điểm kích cảm, và ký ức chế độ.

Cuối cùng, đã tạo ra 43 tác nhân trung tâm từ tri thức biểu đồ và mở rộng thành tổng cộng 200 tác nhân, giới thiệu thêm các vai trò dân thường đa dạng để tăng cường sự đa dạng và tính thực tế của mô phỏng tổng thể.

Cụ thể, thành phần bao gồm:

· 140 tác nhân dân thường: Người giao dịch tiền điện tử, Phi công hàng không, Quản lý chuỗi cung ứng, Sinh viên, Người hoạt động xã hội, Giáo sư, vv.

· 16 vai trò ngoại giao/chính phủ: Bộ trưởng Ngoại giao Iran, Bộ trưởng Ngoại giao Saudi Arabia, Bộ trưởng Ngoại giao Oman, Thủ tướng Bahrain, Bộ trưởng Ngoại giao Trung Quốc, Liên minh châu Âu, Liên Hợp Quốc, vv.

· 15 tổ chức truyền thông: Reuters, CNN, Bloomberg, Al Jazeera, BBC, Fox, Wall Street Journal, vv.

· 10 vai trò liên quan đến năng lượng/vận tải: OPEC, Platts, QatarEnergy, Aramco, Maersk, vv.

· 7 tổ chức tài chính: Polymarket, Kalshi, Goldman Sachs, JPMorgan, Citadel, ADIA, vv.

· 2 vai trò quân sự/chính trị: Trump, Tư lệnh Lực lượng Vệ binh Cách mạng Iran

Trong quá trình mô phỏng kéo dài 7 ngày (100 vòng), đã tạo ra:

1,888 bài đăng

6,661 dấu vết hành vi (ghi lại tất cả hành động)

1,611 trích dẫn chia sẻ (các tác nhân phản ứng và tương tác với nhau)

4,051 lần làm mới (chỉ xem thông tin dòng thời gian)

311 lần không làm gì cả (lựa chọn quan sát)

208 lượt thích, 207 lượt chia sẻ

70 quan điểm sáng tạo (quan điểm độc lập hoặc nhận định mới)

Nhìn chung, hệ thống này không chỉ đơn giản là tạo ra thông tin, mà gần giống như mô phỏng hành vi xã hội: hầu hết thời gian, các tác nhân quan sát, tiêu hóa thông tin và tương tác, chứ không phải liên tục tạo ra đầu ra. Cấu trúc này thay vào đó gần với phân bố hành vi trong thực tế của cộng đồng – một lượng nhỏ nội dung sáng tạo, cùng với một lượng lớn bài diễn giải, tương tác và phản hồi cảm xúc.

Hầu hết thời gian của các tác nhân được dành cho việc đọc và trích dẫn quan điểm của người khác, chứ không phải sáng tạo nội dung mới tích cực.

Toàn bộ nhóm thể hiện xu hướng rõ rệt trong việc truyền bá cảm xúc: quan điểm lạc quan dễ dàng được phóng đại và chia sẻ, trong khi nhận định tiêu cực, mặc dù logic hơn so với thực tế, thường ít lan truyền và yếu ớt hơn.

Điều thú vị là, có 19 tác nhân tự nguyện đưa ra đánh giá xác suất cụ thể trong quá trình đăng bài, không phải yêu cầu, mà tự nảy sinh trong cuộc thảo luận.

Nhóm tự tổ chức có xác suất trung bình là 47.9%, trong khi thị trường Polymarket đưa ra xác suất là 31%, có sự chênh lệ khoảng 16.9 điểm phần trăm giữa hai số liệu này.

Trong quá trình mô phỏng, một số đại lý thậm chí đã thay đổi quan điểm của mình sau 100 vòng tương tác.

Sau khi kết thúc mô phỏng, tôi sử dụng tính năng phỏng vấn của MiroFish, đặt cùng một câu hỏi cho 43 đại lý chính: Bạn cho rằng đến cuối tháng 4 năm 2026, xác suất hồi phục vận tải trên biển ở eo biển Hormuz sẽ là bao nhiêu (0–100%)?

Kết quả là: 31 trong số 43 đại lý đã đưa ra con số cụ thể, còn 12 người chọn từ chối trả lời. Đáng chú ý là, những giọng điệu cẩn trọng nhất thường chọn kiểm duyệt bản thân hơn là đưa ra dự đoán cụ thể—điều này, đúng với cách thức hành xử của các cơ quan trong thế giới thực.

Mỗi hạng mục đều có giá trị trung bình trên 60%: quân đội là 75%, truyền thông là 69%, năng lượng là 66%, tài chính là 65%, ngoại giao là 61%. Trong khi thị trường đưa ra con số là 31.5%.

Kết quả của tự nhiên tổ chức (organic) và kết quả phỏng vấn (interview): hiển thị hai bức tranh hoàn toàn khác biệt.

Đây chính là phát hiện quan trọng nhất.

Kết quả phỏng vấn sẽ có vẻ lạc quan hơn. Khi các đại lý tự do đăng bài, quan điểm của những người chống đỏ (người bi quan) thường ồn ào hơn, cụ thể hơn; nhưng khi bạn tiến hành phỏng vấn một cách cá nhân, vì ưu tiên hợp tác, gần như tất cả đều đưa ra lời nhận định trong khoảng 60%–70%.

Kết quả của tự nhiên tổ chức (organic) là đáng tin cậy hơn. Một cố vấn tài chính đã đăng bài trong cuộc tranh luận rằng tôi ước tính là 65%, đây là một nhận định hình thành trong quá trình tương tác; trong khi một đại lý trong phỏng vấn trả lời câu hỏi, về bản chất là đang thực hiện phù hợp mẫu.

Những người bi quan trong bày tỏ tự nhiên, lại là những nhà dự báo tốt nhất. Trong mô phỏng, có 7 đại lý đưa ra xác suất ≤30% (Ngoại trưởng Iran, Ngoại trưởng Trung Quốc, Kalshi, Platts, một giáo sư kinh tế học, một sinh viên Iran, một người hoạt động chống chiến tranh), giá trị trung bình là 22%, chênh lệ không quá 10 điểm phần trăm so với kết quả của Polymarket. Kiến thức chuyên môn + biểu đạt tự nhiên = gần nhất với thị trường.

Quan trọng hơn, điều này không chỉ xảy ra trong lĩnh vực trí tuệ nhân tạo, mà còn xảy ra với những bên tham gia trong thế giới thực.

Khi bạn phỏng vấn bất kỳ nhà lãnh đạo quốc gia nào về một cuộc khủng hoảng, họ sẽ nói rằng chúng tôi cam kết với hòa bình, chúng tôi lạc quan về giải pháp. Đây là kịch bản chuẩn, là điều phải nói trước ống kính. Nhưng nếu bạn nhìn vào những gì họ thực sự đang làm: triển khai quân sự, trừng phạt, đóng băng tài sản, rút vốn—hành động của họ thường kể một câu chuyện hoàn toàn khác.

Thái tử Saudi Arabia có thể nói với Reuters rằng chúng tôi tin vào phương tiện ngoại giao, trong khi quỹ tài sản chủ quyền của ông đang xem xét việc phân bổ tới 3.2 nghìn tỷ đô la tài sản Mỹ. Tổng thống Iran có thể nói rằng hòa bình là mục tiêu chung của chúng tôi, nhưng Lực lượng Vệ binh Cách mạng Iran lại đặt mìn nước ở eo biển. Tổng thống Trump có thể nói hãy chờ xem, cùng lúc từ chối mọi đề xuất ngừng bắn.

Cuộc mô phỏng này vô tình tái hiện cấu trúc phân chia cấu trúc tương tự: khi các đại biểu tự do đăng bài, tranh luận, phản ứng và lan truyền thông tin, nhóm chuyên gia trong đó dần hội tụ vào mức 20%–30%—lạc quan hơn, và cũng gần hơn với hiện thực; nhưng một khi bạn mời họ vào phòng họp, hỏi chính xác dự đoán của bạn là bao nhiêu?, họ ngay lập tức chuyển sang chế độ ngoại giao: 65%–70%, rõ ràng lạc quan hơn.

Đăng bài tự nhiên, giống như hành vi riêng tư và thảo luận không công khai; kết quả phỏng vấn, lại giống như một cuộc họp báo. Nếu bạn thực sự muốn biết một người nghĩ gì, đừng hỏi trực tiếp anh ta—hãy đi xem hành vi của anh ta khi không ai đánh giá.

Điều gì tiếp theo

Đây chỉ là một cuộc thử nghiệm sơ bộ. Mục tiêu không phải là đưa ra một dự báo xác định, mà là nhìn vào những tín hiệu nào là hữu ích trong mô phỏng nhóm này, điều nào có thể bị biến dạng, phần nào đáng được tinh chỉnh.

Hiện nay đã có câu trả lời, thảo luận tiến hóa tự nhiên có thể tạo ra tín hiệu hiệu quả, trong khi phỏng vấn không thể; người lạc quan mới là nguồn tín hiệu; và sự ưa thích hợp tác của GPT-4o mini thực sự là một vấn đề.

Lần thử nghiệm tiếp theo sẽ phát triển với một số nâng cấp.

Đầu tiên là dữ liệu khởi đầu lớn hơn. Không chỉ là một bản tóm tắt 5800 từ, mà là sử dụng lịch sử hơn 20 năm: những sự kiện liên quan đến eo biển Hormuz, leo thang xung đột Iran-Mỹ, đủn đẩy của nhiều cuộc khủng hoảng dầu khí, biến đổi ngoại giao GCC, v.v.—đó chính là bối cảnh mà một chuyên gia phân tích địa chính trị thực sự sẽ có trước khi đánh giá.

Thứ hai là mô hình mạnh mẽ hơn. Việc GPT-4o mini hoàn thành xác minh với chi phí 3 đô la cũng đủ, nhưng mô hình mạnh mẽ hơn, nên cho phép các đại biểu tiếp cận gần hơn với cách suy nghĩ của bản thân nhân vật, chứ không phải rơi vào biểu hiện mặc định như tôi lạc quan với cuộc trò chuyện vào những thời điểm quan trọng.

Cuối cùng là thêm nhiều đại lý hơn. 200 đại lý là không tồi, nhưng có thể mở rộng hơn nữa: nhiều vai trò đa dạng hơn của người dân thông thường, nhiều âm thanh địa phương hơn, nhiều trường hợp biên giới hơn. Mọi người càng tham gia, cấu trúc thảo luận càng phong phú, và dữ kiện cuối cùng hình thành cũng sẽ càng có giá trị.

[Liên kết Gốc]

Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:

Nhóm Telegram đăng ký: https://t.me/theblockbeats

Nhóm Telegram thảo luận: https://t.me/BlockBeats_App

Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia

#Đa thị trường #Đại lý

Báo lỗi/Báo cáo