Tiêu đề gốc: Bản tin hàng tuần của IOSG | Từ sức mạnh tính toán đến trí tuệ: Bản đồ đầu tư cho trí tuệ nhân tạo phi tập trung được thúc đẩy bởi học tăng cường
Tác giả gốc: Jacob Zhao, IOSG Ventures
Trí tuệ nhân tạo đang chuyển từ học thống kê, chủ yếu tập trung vào " khớp mẫu ", sang một hệ thống năng lực tập trung vào " suy luận có cấu trúc ", với tầm quan trọng của huấn luyện sau đào tạo ngày càng tăng nhanh. Sự xuất hiện của DeepSeek-R1 đánh dấu một sự thay đổi mô hình trong học tăng cường trong kỷ nguyên của các mô hình lớn, dẫn đến sự đồng thuận trong ngành : huấn luyện trước tạo nền tảng cho việc xây dựng các mô hình đa năng, và học tăng cường không còn chỉ là một công cụ điều chỉnh giá trị, mà đã được chứng minh là có khả năng cải thiện một cách có hệ thống chất lượng của các chuỗi suy luận và khả năng ra quyết định phức tạp, dần dần phát triển thành một lộ trình công nghệ để liên tục nâng cao trí tuệ.
Trong khi đó, Web3 đang định hình lại các mối quan hệ sản xuất của AI thông qua các mạng điện toán phi tập trung và hệ thống khuyến khích mã hóa. Các yêu cầu cấu trúc của học tăng cường đối với việc lấy mẫu triển khai, tín hiệu phần thưởng và huấn luyện có thể kiểm chứng được phù hợp một cách tự nhiên với sự hợp tác sức mạnh tính toán, phân bổ khuyến khích và thực thi có thể kiểm chứng của blockchain. Báo cáo này sẽ phân tích một cách có hệ thống các mô hình huấn luyện AI và các nguyên tắc của công nghệ học tăng cường, chứng minh những lợi thế cấu trúc của học tăng cường × Web3, và phân tích các dự án như Prime Intellect, Gensyn, Nous Research, Gradient, Grail và Fraction AI.
Toàn bộ vòng đời huấn luyện của các mô hình ngôn ngữ lớn (LLM) hiện đại thường được chia thành ba giai đoạn cốt lõi: huấn luyện trước, tinh chỉnh có giám sát (SFT) và huấn luyện sau/học tăng cường (RL). Ba giai đoạn này lần lượt thực hiện các chức năng "xây dựng mô hình thế giới - đưa khả năng thực hiện nhiệm vụ - định hình lý luận và giá trị", và cấu trúc tính toán, yêu cầu dữ liệu và độ khó xác thực của chúng quyết định mức độ khớp nối phi tập trung.
Giai đoạn tiền huấn luyện , thông qua học tự giám sát quy mô lớn, xây dựng cấu trúc thống kê ngôn ngữ và mô hình thế giới đa phương thức của mô hình, tạo nền tảng cho khả năng của LLM. Giai đoạn này yêu cầu huấn luyện trên hàng nghìn tỷ tập dữ liệu một cách đồng bộ trên toàn cầu, dựa trên các cụm đồng nhất gồm hàng nghìn đến hàng chục nghìn hình ảnh H100. Chi phí chiếm 80-95% tổng chi phí và cực kỳ nhạy cảm với băng thông và bản quyền dữ liệu, do đó nó phải được hoàn thành trong một môi trường tập trung cao độ.
Điều chỉnh chi tiết có giám sát được sử dụng để bổ sung khả năng thực hiện nhiệm vụ và định dạng hướng dẫn. Phương pháp này chỉ cần một lượng dữ liệu nhỏ và chiếm khoảng 5-15% chi phí. Việc điều chỉnh chi tiết có thể được thực hiện bằng cách sử dụng huấn luyện đầy đủ tham số hoặc các phương pháp điều chỉnh chi tiết hiệu quả tham số (PEFT) , trong đó LoRA , Q-LoRA và Adapter là những phương pháp phổ biến trong ngành. Tuy nhiên, việc đồng bộ hóa gradient vẫn là cần thiết, điều này hạn chế tiềm năng phi tập trung của nó.
Sau quá trình huấn luyện, giai đoạn này bao gồm nhiều bước phụ lặp đi lặp lại nhằm xác định khả năng suy luận, giá trị và giới hạn an toàn của mô hình. Các phương pháp bao gồm hệ thống học tăng cường (RLHF, RLAIF, GRPO) , phương pháp tối ưu hóa ưu tiên không dùng học tăng cường (DPO) và mô hình phần thưởng quy trình (PRM) . Giai đoạn này có khối lượng dữ liệu và chi phí tương đối thấp (5–10%), chủ yếu tập trung vào triển khai và cập nhật chính sách. Nó hỗ trợ tự nhiên việc thực thi bất đồng bộ và phân tán; các nút không cần phải nắm giữ toàn bộ trọng số. Kết hợp với tính toán có thể kiểm chứng và các ưu đãi trên chuỗi, nó có thể hình thành một mạng lưới huấn luyện phi tập trung, mở, khiến nó trở thành giai đoạn huấn luyện phù hợp nhất cho Web3.

Học tăng cường (Reinforcement Learning - RL) thúc đẩy mô hình tự động cải thiện khả năng ra quyết định thông qua quá trình " tương tác môi trường - phản hồi phần thưởng - cập nhật chính sách ". Cấu trúc cốt lõi của nó có thể được xem như một vòng lặp phản hồi bao gồm trạng thái, hành động, phần thưởng và chính sách. Một hệ thống RL hoàn chỉnh thường bao gồm ba thành phần: Chính sách (mạng lưới chính sách), Triển khai (lấy mẫu kinh nghiệm) và Bộ học (bộ cập nhật chính sách) . Chính sách tương tác với môi trường để tạo ra một quỹ đạo, và Bộ học cập nhật chính sách dựa trên tín hiệu phần thưởng, do đó tạo thành một quá trình học tập lặp đi lặp lại và tối ưu hóa liên tục.

1. Mạng lưới chính sách : Tạo ra các hành động từ trạng thái môi trường và là cốt lõi của quá trình ra quyết định của hệ thống. Trong quá trình huấn luyện, cần có thuật toán lan truyền ngược tập trung để duy trì tính nhất quán; trong quá trình suy luận, nó có thể được phân tán đến các nút khác nhau để thực hiện song song.
2. Giai đoạn triển khai : Các nút tương tác với môi trường theo chính sách, tạo ra các quỹ đạo như trạng thái, hành động và phần thưởng. Quá trình này có tính song song cao, yêu cầu rất ít giao tiếp và không nhạy cảm với sự khác biệt về phần cứng, khiến nó trở thành giai đoạn phù hợp nhất để mở rộng quy mô trong môi trường phi tập trung.
3. Mô-đun Học tập (Learner) : Tổng hợp tất cả các quỹ đạo triển khai và thực hiện cập nhật độ dốc chính sách. Đây là mô-đun có yêu cầu cao nhất về sức mạnh tính toán và băng thông. Do đó, nó thường được triển khai theo cách tập trung hoặc bán tập trung để đảm bảo tính ổn định hội tụ.
Học tăng cường nhìn chung có thể được chia thành năm giai đoạn, và quy trình tổng thể như sau:

Giai đoạn tạo dữ liệu (Khám phá chính sách)
Dựa trên các tín hiệu đầu vào, mô hình chính sách πθ tạo ra nhiều chuỗi suy luận ứng cử viên hoặc quỹ đạo hoàn chỉnh, cung cấp cơ sở mẫu cho việc đánh giá sở thích và mô hình hóa phần thưởng tiếp theo, đồng thời xác định phạm vi khám phá chính sách.
Giai đoạn phản hồi ưu tiên (RLHF / RLAIF)
• Học tăng cường từ phản hồi của con người (RLHF) sử dụng nhiều câu trả lời ứng cử viên, chú thích sở thích của con người, huấn luyện mô hình phần thưởng (RM) và chiến lược tối ưu hóa PPO để làm cho đầu ra của mô hình phù hợp hơn với các giá trị của con người. Đây là một bước quan trọng trong quá trình chuyển đổi từ GPT-3.5 sang GPT-4.
• RLAIF (Reinforcement Learning from AI Feedback) thay thế việc chú thích thủ công bằng AI Judge hoặc các quy tắc hiến pháp để tự động hóa việc thu thập sở thích, giảm đáng kể chi phí và có khả năng mở rộng. Nó đã trở thành mô hình định hướng chủ đạo cho các công ty như Anthropic, OpenAI và DeepSeek.
Giai đoạn mô hình hóa phần thưởng
Các mô hình phần thưởng dựa trên sở thích học cách ánh xạ đầu ra với phần thưởng. RM dạy mô hình "đâu là câu trả lời đúng", trong khi PRM dạy mô hình "cách đưa ra lập luận đúng".
• Mô hình khen thưởng (RM) được sử dụng để đánh giá chất lượng của câu trả lời cuối cùng, chỉ chấm điểm kết quả đầu ra:
• Mô hình Thưởng Quy trình (PRM) không chỉ đánh giá câu trả lời cuối cùng mà còn chấm điểm từng bước suy luận, từng token và từng phân đoạn logic. Đây cũng là công nghệ chủ chốt của OpenAI o1 và DeepSeek-R1, và về cơ bản là dạy mô hình cách tư duy.
Giai đoạn xác minh phần thưởng (RLVR)
Việc đưa ra "các ràng buộc có thể kiểm chứng" vào quá trình tạo và sử dụng tín hiệu phần thưởng đảm bảo rằng phần thưởng được tạo ra từ các quy tắc, sự kiện hoặc sự đồng thuận có thể tái tạo, từ đó giảm thiểu rủi ro gian lận phần thưởng và thiên vị, đồng thời cải thiện khả năng kiểm toán và khả năng mở rộng trong môi trường mở.
Giai đoạn tối ưu hóa chính sách
Quá trình này bao gồm việc cập nhật các tham số chính sách θ dưới sự hướng dẫn của các tín hiệu từ mô hình phần thưởng để thu được chính sách πθ′ với khả năng suy luận mạnh mẽ hơn, độ bảo mật cao hơn và các mô hình hành vi ổn định hơn. Các phương pháp tối ưu hóa phổ biến bao gồm:
• PPO (Proximal Policy Optimization) : Một thuật toán tối ưu hóa truyền thống trong RLHF, nổi tiếng về tính ổn định, nhưng thường gặp phải những hạn chế như tốc độ hội tụ chậm và tính ổn định không đủ trong các tác vụ suy luận phức tạp.
• GRPO (Group Relative Policy Optimization) : Một cải tiến cốt lõi của DeepSeek-R1, phương pháp này ước tính giá trị kỳ vọng bằng cách mô hình hóa sự phân bố lợi thế trong các nhóm câu trả lời ứng cử viên, thay vì chỉ đơn giản là xếp hạng chúng. Phương pháp này bảo toàn thông tin về độ lớn phần thưởng, phù hợp hơn cho việc tối ưu hóa chuỗi suy luận và có quy trình huấn luyện ổn định hơn. Nó được coi là một khung tối ưu hóa học tăng cường quan trọng cho các kịch bản suy luận sâu sau PPO.
• DPO (Direct Preference Optimization) : Một phương pháp huấn luyện sau đó, không phải là phương pháp học tăng cường. Nó không tạo ra các quỹ đạo hay xây dựng mô hình phần thưởng, mà trực tiếp tối ưu hóa các cặp ưu tiên. Phương pháp này có chi phí thấp và ổn định, do đó được sử dụng rộng rãi để căn chỉnh trong các mô hình mã nguồn mở như Llama và Gemma, nhưng không cải thiện khả năng suy luận.
Giai đoạn triển khai chính sách mới
Mô hình được tối ưu hóa thể hiện khả năng tạo chuỗi suy luận được nâng cao (Suy luận Hệ thống 2), hành vi phù hợp hơn với sở thích của con người hoặc AI, tỷ lệ ảo giác thấp hơn và độ bảo mật cao hơn. Thông qua quá trình lặp lại liên tục, mô hình học hỏi sở thích, tối ưu hóa quy trình và cải thiện chất lượng ra quyết định, tạo thành một vòng lặp khép kín.

Học tăng cường đã phát triển từ trí tuệ lý thuyết trò chơi ban đầu thành một khuôn khổ cốt lõi cho việc ra quyết định tự động trong nhiều ngành công nghiệp. Các kịch bản ứng dụng của nó có thể được phân loại thành năm loại chính dựa trên mức độ trưởng thành về công nghệ và triển khai trong công nghiệp, và mỗi loại đã thúc đẩy những đột phá quan trọng theo hướng tương ứng.
• Hệ thống trò chơi & chiến lược : Đây là lĩnh vực sớm nhất của RL được kiểm chứng. Trong môi trường "thông tin hoàn hảo + phần thưởng rõ ràng" như AlphaGo, AlphaZero, AlphaStar và OpenAI Five, RL đã chứng minh khả năng ra quyết định thông minh có thể sánh ngang hoặc thậm chí vượt trội so với các chuyên gia con người, đặt nền móng cho các thuật toán RL hiện đại.
• Robot và Trí tuệ nhân tạo thể hiện (Embodied AI) : Học tăng cường (RL) cho phép robot học cách thao tác, điều khiển chuyển động và thực hiện các nhiệm vụ đa phương thức (như RT-2 và RT-X) thông qua điều khiển liên tục, mô hình hóa động và tương tác với môi trường. Công nghệ này đang nhanh chóng tiến tới công nghiệp hóa và là một hướng đi công nghệ quan trọng cho việc ứng dụng robot trong thế giới thực.
• Suy luận số (Hệ thống LLM-2) : RL + PRM thúc đẩy các mô hình lớn từ "bắt chước ngôn ngữ" sang "suy luận có cấu trúc". Các thành tựu tiêu biểu bao gồm DeepSeek-R1, OpenAI o1/o3, Anthropic Claude và AlphaGeometry. Bản chất của nó là tối ưu hóa phần thưởng ở cấp độ chuỗi suy luận, thay vì chỉ đánh giá câu trả lời cuối cùng.
• Khám phá khoa học tự động và tối ưu hóa toán học : Học tăng cường (RL) tìm kiếm các cấu trúc hoặc chiến lược tối ưu trong không gian tìm kiếm khổng lồ, phức tạp và không được gắn nhãn, và đã đạt được những đột phá cơ bản như AlphaTensor, AlphaDev và Fusion RL, chứng minh khả năng khám phá vượt xa trực giác của con người.
• Ra quyết định kinh tế & Giao dịch : Học tăng cường (RL) được sử dụng để tối ưu hóa chiến lược, kiểm soát rủi ro đa chiều và tạo ra hệ thống giao dịch thích ứng. So với các mô hình định lượng truyền thống, nó có thể học liên tục trong môi trường không chắc chắn và là một thành phần quan trọng của tài chính thông minh.
Mức độ tương thích cao giữa học tăng cường (RL) và Web3 xuất phát từ thực tế cả hai về cơ bản đều là "hệ thống dựa trên động lực". RL dựa vào tín hiệu phần thưởng để tối ưu hóa chiến lược, trong khi blockchain dựa vào các động lực kinh tế để điều phối hành vi của người tham gia, khiến chúng nhất quán một cách tự nhiên ở cấp độ cơ chế. Các yêu cầu cốt lõi của RL—triển khai không đồng nhất quy mô lớn, phân phối phần thưởng và xác minh tính xác thực—chính xác là những lợi thế cấu trúc của Web3.
Tách rời quá trình lập luận và huấn luyện
Quá trình huấn luyện của học tăng cường có thể được chia rõ ràng thành hai giai đoạn:
• Triển khai (Lấy mẫu thăm dò) : Mô hình tạo ra một lượng lớn dữ liệu dựa trên chính sách hiện tại, một tác vụ đòi hỏi nhiều tính toán nhưng ít yêu cầu giao tiếp . Nó không cần giao tiếp thường xuyên giữa các nút và phù hợp cho việc tạo song song trên các GPU cấp độ người tiêu dùng được phân tán toàn cầu.
• Cập nhật (cập nhật tham số) : Cập nhật trọng số mô hình dựa trên dữ liệu đã thu thập, yêu cầu một nút trung tâm có băng thông cao để hoàn thành.
"Tách rời quá trình suy luận và huấn luyện" là một sự phù hợp tự nhiên với các cấu trúc điện toán phi tập trung, không đồng nhất: Việc triển khai có thể được giao cho các mạng mở và được thanh toán theo đóng góp thông qua cơ chế token, trong khi việc cập nhật mô hình vẫn được tập trung hóa để đảm bảo tính ổn định.
Khả năng kiểm chứng
ZooKeeper (ZK) và Proof-of-Learning cung cấp phương tiện để xác minh xem các nút có thực sự thực hiện suy luận hay không, giải quyết vấn đề trung thực trong các mạng mở. Trong các tác vụ xác định như lập trình và suy luận toán học, người xác minh chỉ cần kiểm tra câu trả lời để xác nhận khối lượng công việc, cải thiện đáng kể độ tin cậy của các hệ thống học tăng cường phi tập trung.
Lớp khuyến khích, dựa trên cơ chế sản xuất phản hồi của nền kinh tế token.
Cơ chế token của Web3 có thể trực tiếp thưởng cho những người đóng góp vào phản hồi sở thích RLHF/RLAIF, cho phép việc tạo dữ liệu sở thích có cấu trúc khuyến khích minh bạch, có thể thanh toán và không cần cấp phép; việc đặt cọc và phạt càng hạn chế chất lượng phản hồi, hình thành một thị trường phản hồi hiệu quả và đồng bộ hơn so với hình thức huy động cộng đồng truyền thống.
Tiềm năng của học tăng cường đa tác nhân (MARL)
Về bản chất, Blockchain là một môi trường đa tác nhân công khai, minh bạch và liên tục phát triển. Các tài khoản, hợp đồng và tác nhân liên tục điều chỉnh chiến lược của mình trong điều kiện được thúc đẩy bởi các động lực khuyến khích, mang lại tiềm năng vốn có để xây dựng các nền tảng thử nghiệm MARL quy mô lớn. Mặc dù vẫn còn ở giai đoạn đầu, các đặc điểm về trạng thái công khai, khả năng thực thi có thể kiểm chứng và các động lực khuyến khích có thể lập trình được mang lại những lợi thế cơ bản cho sự phát triển trong tương lai của MARL.
Dựa trên khung lý thuyết nêu trên, chúng ta sẽ phân tích ngắn gọn các dự án tiêu biểu nhất trong hệ sinh thái hiện nay:
Trí tuệ tối thượng: Một mô hình học tăng cường bất đồng bộ
Prime Intellect cam kết xây dựng một thị trường điện toán mở toàn cầu, giảm thiểu rào cản trong đào tạo, thúc đẩy đào tạo phi tập trung hợp tác và phát triển một bộ công nghệ siêu trí tuệ mã nguồn mở hoàn chỉnh. Hệ sinh thái của nó bao gồm: Prime Compute (một môi trường điện toán đám mây/phân tán thống nhất), dòng mô hình INTELLECT (10B–100B+), Environments Hub (một trung tâm môi trường học tăng cường mở) và công cụ dữ liệu tổng hợp quy mô lớn (SYNTHETIC-1/2).
Thành phần cốt lõi của cơ sở hạ tầng Prime Intellect , khung prime-rl , được thiết kế cho môi trường phân tán bất đồng bộ và rất phù hợp với học tăng cường. Các thành phần khác bao gồm giao thức truyền thông OpenDiLoCo để khắc phục các nút thắt về băng thông và cơ chế xác minh TopLoc để đảm bảo tính toàn vẹn tính toán.
Tổng quan về các thành phần cơ sở hạ tầng cốt lõi của Prime Intellect

Nền tảng kỹ thuật: khung học tăng cường bất đồng bộ prime-rl
prime-rl là công cụ huấn luyện cốt lõi của Prime Intellect, được thiết kế đặc biệt cho các môi trường phi tập trung bất đồng bộ quy mô lớn. Nó đạt được khả năng suy luận thông lượng cao và cập nhật ổn định thông qua việc tách biệt hoàn toàn giữa Actor và Learner. Các Worker và Learner trong quá trình triển khai không còn bị chặn đồng bộ; các nút có thể tham gia hoặc rời đi bất cứ lúc nào, chỉ cần liên tục cập nhật chiến lược mới nhất và tải lên dữ liệu được tạo ra.

• Actor (Rollout Workers) : Chịu trách nhiệm suy luận mô hình và tạo dữ liệu. Prime Intellect tích hợp một cách sáng tạo công cụ suy luận vLLM vào phía Actor. Công nghệ PagedAttention và khả năng xử lý theo lô liên tục của vLLM cho phép Actor tạo ra các quỹ đạo suy luận với thông lượng cực cao.
• Người học (Người huấn luyện) : Chịu trách nhiệm tối ưu hóa chính sách. Người học lấy dữ liệu bất đồng bộ từ Bộ đệm kinh nghiệm dùng chung để cập nhật độ dốc mà không cần chờ tất cả các Tác nhân hoàn thành lô dữ liệu hiện tại.
• Người điều phối : Chịu trách nhiệm lập lịch trọng số mô hình và luồng dữ liệu.
Những cải tiến quan trọng của prime-rl
• Tính bất đồng bộ thực sự : prime-rl từ bỏ mô hình đồng bộ của PPO truyền thống, không chờ đợi các nút chậm và không yêu cầu căn chỉnh theo lô, cho phép bất kỳ số lượng và hiệu năng GPU nào truy cập bất cứ lúc nào, đặt nền tảng cho tính khả thi của học tăng cường phi tập trung.
• Tích hợp sâu FSDP2 và MoE : Thông qua việc phân chia tham số FSDP2 và kích hoạt thưa MoE, prime-rl cho phép huấn luyện hiệu quả hàng tỷ mô hình trong môi trường phân tán. Các actor chỉ chạy các chuyên gia đang hoạt động, giúp giảm đáng kể chi phí bộ nhớ GPU và suy luận.
• GRPO+ (Group Relative Policy Optimization) : GRPO loại bỏ mạng Critic, giảm đáng kể chi phí tính toán và bộ nhớ, đồng thời tự nhiên thích ứng với môi trường bất đồng bộ. GRPO+ của Prime-RL còn đảm bảo sự hội tụ đáng tin cậy trong điều kiện độ trễ cao thông qua cơ chế ổn định.
Họ mô hình INTELLECT: một dấu mốc cho thấy sự trưởng thành của công nghệ học tăng cường phi tập trung.
INTELLECT-1 (10B, tháng 10 năm 2024 ) là dự án đầu tiên chứng minh rằng OpenDiLoCo có thể được huấn luyện hiệu quả trên các mạng không đồng nhất trải rộng trên ba lục địa (tỷ lệ giao tiếp <2%, mức sử dụng sức mạnh tính toán 98%), phá vỡ sự hiểu biết vật lý về huấn luyện xuyên khu vực;
INTELLECT-2 (32B, tháng 4 năm 2025) là mô hình RL không cần cấp phép đầu tiên, xác minh khả năng hội tụ ổn định của prime-rl và GRPO+ trong môi trường đa bước trễ và bất đồng bộ, đồng thời hiện thực hóa RL phi tập trung với sự tham gia của sức mạnh tính toán mở toàn cầu;
INTELLECT-3 (106 tỷ USD, tháng 11 năm 2025) sử dụng kiến trúc thưa thớt chỉ kích hoạt 12 tỷ tham số. Nó được huấn luyện trên tập dữ liệu 512×H200 và đạt hiệu suất suy luận hàng đầu (AIME 90,8%, GPQA 74,4%, MMLU-Pro 81,9%, v.v.). Hiệu suất tổng thể của nó gần bằng hoặc thậm chí vượt trội so với các mô hình nguồn đóng tập trung có quy mô lớn hơn nhiều.
Prime Intellect cũng xây dựng một số thành phần cơ sở hạ tầng hỗ trợ: OpenDiLoCo giảm thiểu việc truyền thông huấn luyện giữa các vùng hàng trăm lần thông qua truyền thông thưa thớt theo thời gian và sự khác biệt về trọng số lượng tử hóa, cho phép INTELLECT-1 duy trì mức sử dụng 98% trên ba lục địa; TopLoc + Verifiers tạo thành một lớp thực thi đáng tin cậy phi tập trung để kích hoạt xác minh dấu vân tay và hộp cát nhằm đảm bảo tính xác thực của dữ liệu suy luận và phần thưởng ; công cụ dữ liệu SYNTHETIC tạo ra các chuỗi suy luận quy mô lớn, chất lượng cao và cho phép mô hình 671B chạy hiệu quả trên các cụm GPU cấp người tiêu dùng thông qua song song hóa theo đường ống. Các thành phần này cung cấp nền tảng kỹ thuật quan trọng cho việc tạo dữ liệu, xác minh và thông lượng suy luận trong học tăng cường phi tập trung. Chuỗi INTELLECT chứng minh rằng ngăn xếp công nghệ này có thể tạo ra các mô hình hoàn thiện, đẳng cấp thế giới, đánh dấu sự chuyển đổi của các hệ thống huấn luyện phi tập trung từ giai đoạn khái niệm sang giai đoạn ứng dụng thực tiễn.
Mục tiêu của Gensyn là tập hợp sức mạnh tính toán nhàn rỗi trên toàn cầu thành một cơ sở hạ tầng đào tạo AI mở, không cần tin tưởng và có khả năng mở rộng vô hạn. Cốt lõi của nó bao gồm một lớp thực thi tiêu chuẩn hóa trên các thiết bị , một mạng lưới phối hợp ngang hàng và một hệ thống xác minh nhiệm vụ không cần tin tưởng , tự động phân bổ nhiệm vụ và phần thưởng thông qua hợp đồng thông minh. Tận dụng các đặc điểm của học tăng cường, Gensyn giới thiệu các cơ chế cốt lõi như RL Swarm, SAPO và SkipPipe để tách rời các giai đoạn tạo, đánh giá và cập nhật , sử dụng một "đám đông" các GPU không đồng nhất trên toàn cầu để đạt được sự tiến hóa tập thể. Cuối cùng, nó không chỉ cung cấp sức mạnh tính toán mà còn cả trí thông minh có thể kiểm chứng được .
Ứng dụng học tăng cường của bộ công cụ Gensyn

RL Swarm: Một công cụ học tăng cường hợp tác phi tập trung
RL Swarm thể hiện một mô hình hợp tác hoàn toàn mới. Nó không còn là một hệ thống phân phối nhiệm vụ đơn giản, mà là một vòng lặp "tạo-đánh giá-cập nhật" phi tập trung mô phỏng quá trình học tập xã hội của con người, tương tự như một quá trình học tập hợp tác, với một vòng lặp vô hạn:
• Bộ giải (Bộ thực thi) : Chịu trách nhiệm suy luận mô hình cục bộ và tạo Rollout, hoạt động liền mạch trên các nút không đồng nhất. Gensyn tích hợp một công cụ suy luận hiệu suất cao (như CodeZero) cục bộ, xuất ra toàn bộ quỹ đạo chứ không chỉ là câu trả lời.
• Người đề xuất : Tạo ra các nhiệm vụ một cách linh hoạt (bài toán toán học, bài toán lập trình, v.v.), hỗ trợ sự đa dạng của nhiệm vụ và độ khó thích ứng tương tự như Học tập theo Chương trình giảng dạy.
• Người đánh giá : Sử dụng các "mô hình đánh giá" hoặc quy tắc cố định để đánh giá các triển khai cục bộ và tạo ra các tín hiệu khen thưởng cục bộ . Quá trình đánh giá có thể được kiểm toán, giảm thiểu cơ hội cho hành vi xấu.
Kết hợp lại, ba yếu tố này tạo thành cấu trúc tổ chức P2P RL, cho phép học tập hợp tác quy mô lớn mà không cần lập lịch tập trung.

SAPO: Thuật toán tối ưu hóa chiến lược cho tái cấu trúc phi tập trung
SAPO (Swarm Sampling Policy Optimization) tập trung vào " chia sẻ Rollout và lọc các mẫu tín hiệu không có gradient, thay vì chia sẻ gradient ". Thông qua việc lấy mẫu Rollout phi tập trung quy mô lớn và coi các Rollout nhận được như được tạo ra cục bộ, nó duy trì sự hội tụ ổn định trong môi trường không có sự phối hợp tập trung và sự khác biệt đáng kể về độ trễ của các nút. So với PPO, dựa trên mạng Critic và có chi phí tính toán cao, hoặc GRPO, dựa trên ước tính lợi thế nội nhóm, SAPO cho phép các GPU cấp người tiêu dùng tham gia hiệu quả vào việc tối ưu hóa học tăng cường quy mô lớn với băng thông cực thấp.
Thông qua RL Swarm và SAPO , Gensyn chứng minh rằng học tăng cường ( đặc biệt là RLVR sau huấn luyện ) phù hợp một cách tự nhiên với các kiến trúc phi tập trung — bởi vì nó dựa nhiều hơn vào việc triển khai quy mô lớn, đa dạng hơn là đồng bộ hóa tham số tần suất cao. Kết hợp với các khung xác thực của PoL và Verde, Gensyn cung cấp một con đường thay thế để huấn luyện các mô hình nghìn tỷ tham số mà không còn phụ thuộc vào một gã khổng lồ công nghệ duy nhất: một mạng lưới siêu thông minh tự tiến hóa bao gồm hàng triệu GPU không đồng nhất trên toàn thế giới.
Nous Research đang xây dựng một cơ sở hạ tầng nhận thức phi tập trung, tự tiến hóa . Các thành phần cốt lõi của nó—Hermes, Atropos, DisTrO, Psyche và World Sim—được tổ chức thành một hệ thống thông minh khép kín, liên tục phát triển. Không giống như quy trình tuyến tính truyền thống "huấn luyện trước—huấn luyện sau—suy luận", Nous sử dụng các kỹ thuật học tăng cường như DPO, GRPO và lấy mẫu từ chối để thống nhất việc tạo dữ liệu, xác minh, học tập và suy luận thành một vòng phản hồi liên tục, tạo ra một hệ sinh thái AI khép kín tự cải tiến liên tục.
Tổng quan về các thành phần nghiên cứu của Nous

Lớp mô hình: Hermes và sự tiến hóa của khả năng suy luận
Dòng sản phẩm Hermes là giao diện mô hình chính mà Nous Research sử dụng để tương tác với người dùng, và sự phát triển của nó thể hiện rõ lộ trình chuyển đổi của ngành từ sự phù hợp truyền thống giữa SFT/DPO sang Học tăng cường suy luận (Reasoning Reinforcement Learning - RL):
• Hermes 1–3: Khả năng căn chỉnh lệnh và proxy ban đầu: Hermes 1–3 dựa vào các DPO chi phí thấp để đạt được khả năng căn chỉnh lệnh mạnh mẽ, và Hermes 3 tận dụng dữ liệu tổng hợp và cơ chế xác minh Atropos được giới thiệu lần đầu tiên.
Hermes 4 / DeepHermes: Nó tích hợp tư duy chậm kiểu Hệ thống 2 vào trọng số thông qua chuỗi suy nghĩ, cải thiện hiệu suất toán học và mã hóa bằng cách mở rộng quy mô trong quá trình kiểm thử, và dựa vào "lấy mẫu loại bỏ + xác minh Atropos" để xây dựng dữ liệu suy luận có độ tinh khiết cao.
DeepHermes tiếp tục áp dụng GRPO để thay thế PPO, vốn khó phân phối và triển khai, cho phép học tăng cường suy luận (inference RL) chạy trên mạng GPU phi tập trung Psyche, đặt nền tảng kỹ thuật cho khả năng mở rộng của học tăng cường suy luận mã nguồn mở.
Atropos: Một môi trường học tăng cường dựa trên phần thưởng có thể kiểm chứng được.
Atropos chính là trụ cột thực sự của hệ thống Nous RL. Nó gói gọn các gợi ý, lệnh gọi công cụ, thực thi mã và tương tác đa lượt vào một môi trường RL tiêu chuẩn hóa, trực tiếp xác minh tính đúng đắn của đầu ra và cung cấp tín hiệu phần thưởng mang tính xác định, thay thế cho việc chú thích thủ công tốn kém và không thể mở rộng. Quan trọng hơn, trong mạng huấn luyện phi tập trung Psyche, Atropos hoạt động như một "trọng tài", xác minh xem các nút có thực sự cải thiện chính sách của chúng hay không, hỗ trợ bằng chứng học tập có thể kiểm toán và giải quyết triệt để vấn đề độ tin cậy của phần thưởng trong RL phân tán.

DisTrO và Psyche: Các lớp tối ưu hóa cho học tăng cường phi tập trung
Phương pháp huấn luyện RLF truyền thống (RLHF/RLAIF) dựa trên các cụm máy chủ tập trung, băng thông cao, đây là rào cản cốt lõi mà các hệ thống mã nguồn mở không thể sao chép. DisTrO giảm chi phí truyền thông của RL xuống nhiều bậc thông qua việc tách rời động lượng và nén gradient, cho phép huấn luyện chạy trên băng thông internet. Psyche triển khai cơ chế huấn luyện này trên mạng chuỗi khối, cho phép các nút hoàn thành suy luận, xác minh, đánh giá phần thưởng và cập nhật trọng số cục bộ, tạo thành một vòng lặp kín RL hoàn chỉnh.
Trong kiến trúc Nous, Atropos xác thực chuỗi suy nghĩ; DisTrO nén quá trình truyền thông huấn luyện; Psyche chạy vòng lặp học tăng cường; WorldSim cung cấp một môi trường phức tạp; Forge thu thập dữ liệu suy luận thực tế; và Hermes ghi tất cả quá trình học vào các trọng số. Học tăng cường không chỉ là một giai đoạn huấn luyện, mà còn là giao thức cốt lõi trong kiến trúc Nous kết nối dữ liệu, môi trường, mô hình và cơ sở hạ tầng, biến Hermes thành một hệ thống sống có thể liên tục tự cải thiện trên các mạng điện toán mã nguồn mở.
Tầm nhìn cốt lõi của Gradient Network là định hình lại mô hình điện toán AI thông qua một "Ngăn xếp trí tuệ mở". Ngăn xếp công nghệ của Gradient bao gồm một tập hợp các giao thức cốt lõi có thể phát triển độc lập nhưng vẫn cộng tác một cách đa dạng. Kiến trúc của nó, từ giao tiếp cơ bản đến cộng tác thông minh lớp trên, bao gồm: Parallax (suy luận phân tán), Echo (huấn luyện RL phi tập trung), Lattica (mạng P2P), SEDM / Massgen / Symphony / CUAHarm (bộ nhớ, cộng tác và bảo mật), VeriLLM (xác minh đáng tin cậy) và Mirage (mô phỏng độ chính xác cao), cùng nhau tạo thành một cơ sở hạ tầng thông minh phi tập trung liên tục phát triển.

Echo—Một kiến trúc huấn luyện học tăng cường
Echo là khung học tăng cường của Gradient. Triết lý thiết kế cốt lõi của nó là tách rời các đường dẫn huấn luyện, suy luận và dữ liệu (phần thưởng) trong học tăng cường, cho phép tạo Rollout, tối ưu hóa chính sách và đánh giá phần thưởng có thể mở rộng và được lên lịch độc lập trong môi trường không đồng nhất. Nó hoạt động cộng tác trong một mạng không đồng nhất bao gồm các nút suy luận và huấn luyện, duy trì sự ổn định của quá trình huấn luyện trong môi trường không đồng nhất diện rộng với cơ chế đồng bộ hóa nhẹ. Điều này giúp giảm thiểu hiệu quả các lỗi SPMD và tắc nghẽn sử dụng GPU do suy luận và huấn luyện hỗn hợp trong DeepSpeed RLHF/VERL truyền thống gây ra.

Echo sử dụng kiến trúc hai nhóm cho suy luận và huấn luyện để tối đa hóa việc sử dụng sức mạnh tính toán. Hai nhóm hoạt động độc lập và không cản trở lẫn nhau.
• Tối đa hóa thông lượng lấy mẫu: Hệ thống Inference Swarm bao gồm các GPU và thiết bị biên cấp người tiêu dùng, sử dụng Parallax để xây dựng các bộ lấy mẫu thông lượng cao theo kiểu song song đường ống, tập trung vào việc tạo ra quỹ đạo;
• Tối đa hóa sức mạnh tính toán gradient: Hệ thống Training Swarm bao gồm một mạng lưới các GPU cấp độ người dùng phổ thông có thể hoạt động trên các cụm máy chủ tập trung hoặc ở nhiều địa điểm khác nhau trên toàn thế giới. Hệ thống này chịu trách nhiệm cập nhật gradient, đồng bộ hóa tham số và tinh chỉnh LoRA, tập trung vào quá trình học tập.
Để duy trì tính nhất quán giữa chính sách và dữ liệu, Echo cung cấp hai giao thức đồng bộ hóa nhẹ: tuần tự và bất đồng bộ , cho phép quản lý tính nhất quán hai chiều của trọng số chính sách và quỹ đạo.
• Chế độ kéo tuần tự | Ưu tiên độ chính xác : Phía huấn luyện buộc nút suy luận phải làm mới phiên bản mô hình trước khi kéo một quỹ đạo mới, do đó đảm bảo tính cập nhật của quỹ đạo, phù hợp với các tác vụ rất nhạy cảm với các chính sách lỗi thời;
• Chế độ đẩy-kéo bất đồng bộ | Ưu tiên hiệu quả : Phía suy luận liên tục tạo ra quỹ đạo với nhãn phiên bản, phía huấn luyện sử dụng nó theo nhịp độ riêng, và bộ điều phối giám sát độ lệch phiên bản và kích hoạt làm mới trọng số để tối đa hóa việc sử dụng thiết bị.
Về bản chất, Echo được xây dựng trên Parallax (suy luận không đồng nhất trong môi trường băng thông thấp) và các thành phần huấn luyện phân tán nhẹ (như VERL), dựa vào LoRA để giảm chi phí đồng bộ hóa giữa các nút, cho phép học tăng cường hoạt động ổn định trên các mạng không đồng nhất trên toàn thế giới.
Bittensor xây dựng một mạng lưới hàm thưởng khổng lồ, thưa thớt và không ổn định thông qua cơ chế đồng thuận Yuma độc đáo của mình.
Trong hệ sinh thái Bittensor, Covenant AI đã xây dựng một quy trình tích hợp theo chiều dọc từ giai đoạn tiền huấn luyện đến hậu huấn luyện RL bằng cách sử dụng SN3 Templar, SN39 Basilica và SN81 Grail. SN3 Templar đảm nhiệm việc tiền huấn luyện mô hình cơ bản, SN39 Basilica cung cấp một thị trường điện toán phân tán, và SN81 Grail đóng vai trò là "lớp suy luận có thể kiểm chứng" cho hậu huấn luyện RL, thực hiện các quy trình cốt lõi của RLHF/RLAIF và hoàn thành tối ưu hóa vòng kín từ mô hình cơ bản đến chiến lược căn chỉnh.

GRAIL hướng đến việc chứng minh bằng mật mã tính xác thực của mỗi lần triển khai học tăng cường và sự liên kết của nó với định danh của mô hình , đảm bảo rằng RLHF có thể được thực thi một cách an toàn trong môi trường không cần tin tưởng. Giao thức này thiết lập một chuỗi tin cậy thông qua cơ chế ba lớp:
1. Tạo thử thách có tính xác định : Sử dụng các tín hiệu ngẫu nhiên và hàm băm khối để tạo ra các nhiệm vụ thử thách không thể dự đoán nhưng có thể tái tạo (như SAT và GSM8K), loại bỏ gian lận bằng cách tính toán trước;
2. Bằng cách sử dụng lấy mẫu chỉ số PRF và cam kết phác thảo , các trình xác thực có thể lấy mẫu logprob cấp token và chuỗi suy luận với chi phí cực thấp để xác nhận rằng quá trình triển khai thực sự được tạo ra bởi mô hình khai báo;
3. Liên kết định danh mô hình : Quá trình suy luận được liên kết với chữ ký cấu trúc của dấu vân tay trọng lượng mô hình và phân phối mã thông báo, đảm bảo rằng việc thay thế mô hình hoặc phát lại kết quả sẽ được nhận biết ngay lập tức. Điều này cung cấp nền tảng xác thực cho việc triển khai suy luận trong RL.
Dựa trên cơ chế này, mạng con Grail triển khai quy trình hậu huấn luyện có thể kiểm chứng theo kiểu GRPO: thợ đào tạo ra nhiều đường dẫn suy luận cho cùng một vấn đề, người kiểm chứng chấm điểm dựa trên tính chính xác, chất lượng chuỗi suy luận và mức độ hài lòng SAT, và ghi kết quả được chuẩn hóa lên chuỗi dưới dạng trọng số TAO. Các thử nghiệm công khai cho thấy khung này đã cải thiện độ chính xác MATH của Qwen2.5-1.5B từ 12,7% lên 47,6%, chứng minh rằng nó có thể vừa ngăn chặn gian lận vừa tăng cường đáng kể khả năng của mô hình. Trong hệ thống huấn luyện của Covenant AI, Grail là nền tảng về độ tin cậy và khả năng thực thi của RLVR/RLAIF phi tập trung, và nó vẫn chưa được chính thức ra mắt trên mạng chính.
Kiến trúc của Fraction AI được xây dựng dựa trên Học tăng cường từ cạnh tranh (Reinforcement Learning from Competition - RLFC) và chú thích dữ liệu theo kiểu trò chơi hóa, thay thế phần thưởng tĩnh và chú thích thủ công của RLFC truyền thống bằng một môi trường cạnh tranh mở và năng động. Các tác nhân cạnh tranh với nhau trong các Không gian khác nhau, và thứ hạng tương đối của chúng, cùng với điểm số của trọng tài AI, tạo thành phần thưởng theo thời gian thực, biến quá trình sắp xếp thành một hệ thống trò chơi đa tác nhân trực tuyến liên tục.
Những điểm khác biệt cốt lõi giữa RLHF truyền thống và RLFC của Fraction AI:

Giá trị cốt lõi của RLFC nằm ở chỗ phần thưởng không còn đến từ một mô hình duy nhất, mà từ sự phát triển không ngừng của đối thủ và người đánh giá, ngăn chặn việc lạm dụng mô hình phần thưởng và tránh việc hệ sinh thái bị mắc kẹt trong các điểm tối ưu cục bộ thông qua sự đa dạng chiến lược. Cấu trúc của các Không gian quyết định bản chất của trò chơi (tổng bằng không hoặc tổng dương), thúc đẩy sự xuất hiện của các hành vi phức tạp trong tương tác đối kháng và hợp tác.
Về mặt kiến trúc hệ thống, Friction AI chia quá trình huấn luyện thành bốn thành phần chính:
• Các tác nhân: Các đơn vị chính sách gọn nhẹ dựa trên LLM mã nguồn mở, được mở rộng với trọng số khác biệt thông qua QLoRA và được cập nhật với chi phí thấp;
• Không gian: Môi trường nhiệm vụ biệt lập, nơi các đặc vụ phải trả phí để tham gia và nhận phần thưởng dựa trên số trận thắng và thua;
Hệ thống chấm điểm bằng AI: Một lớp thưởng tức thời được xây dựng bằng RLAIF, cung cấp khả năng đánh giá phi tập trung và có thể mở rộng;
• Bằng chứng về việc học tập: Gắn liền các cập nhật chính sách với các kết quả thi đấu cụ thể, đảm bảo quá trình đào tạo có thể kiểm chứng và ngăn ngừa gian lận.
Cốt lõi của Fraction AI là xây dựng một hệ thống tiến hóa hợp tác giữa con người và máy móc. Người dùng, đóng vai trò là "nhà tối ưu hóa siêu cấp" ở lớp chính sách, hướng dẫn hướng khám phá thông qua kỹ thuật nhanh chóng và cấu hình siêu tham số; trong khi các tác nhân tự động tạo ra một lượng lớn các cặp ưu tiên chất lượng cao trong cạnh tranh ở cấp độ vi mô. Mô hình này cho phép chú thích dữ liệu để đạt được một vòng lặp khép kín trong kinh doanh thông qua " tinh chỉnh không cần tin tưởng ".

Dựa trên phân tích cấu trúc các dự án tiên tiến đã đề cập ở trên, chúng tôi nhận thấy rằng mặc dù điểm khởi đầu (thuật toán, kỹ thuật hoặc thị trường) của mỗi nhóm khác nhau, nhưng khi học tăng cường (RL) được kết hợp với Web3, logic kiến trúc cơ bản của chúng hội tụ thành một mô hình "tách rời-xác minh-khuyến khích" rất nhất quán. Đây không chỉ đơn thuần là sự trùng hợp về mặt kỹ thuật, mà là kết quả tất yếu của việc các mạng phi tập trung thích ứng với các đặc tính độc đáo của học tăng cường.
1. Tách rời quá trình triển khai và học hỏi – Cấu trúc tính toán mặc định
Quá trình triển khai song song, thưa thớt được thực hiện thông qua việc thuê ngoài cho các GPU cấp người tiêu dùng trên toàn thế giới, và việc cập nhật tham số băng thông cao được tập trung vào một số ít các nút huấn luyện, như đã thấy trong Actor-Learner bất đồng bộ của Prime Intellect và kiến trúc cụm kép của Gradient Echo.
2. Niềm tin dựa trên xác minh – Phát triển cơ sở hạ tầng
Trong các mạng không cần cấp phép, tính xác thực tính toán phải được đảm bảo thông qua thiết kế toán học và cơ học, thể hiện qua các phương pháp xác minh mật mã như PoL của Gensyn, TOPLOC của Prime Intellect và Grail.
3. Vòng lặp khuyến khích dựa trên mã thông báo – Tự điều chỉnh thị trường
Việc cung cấp sức mạnh tính toán, tạo dữ liệu, xác minh và xếp hạng, cũng như phân phối phần thưởng tạo thành một vòng khép kín. Bằng cách thúc đẩy sự tham gia thông qua phần thưởng và ngăn chặn gian lận thông qua hình phạt, mạng lưới có thể duy trì sự ổn định và tiếp tục phát triển trong một môi trường mở.
Mặc dù có sự hội tụ về kiến trúc, mỗi dự án lại lựa chọn những công nghệ tiên tiến khác nhau dựa trên đặc điểm riêng của mình:
• Nhóm nghiên cứu Nous: Nhóm này nỗ lực giải quyết mâu thuẫn cơ bản (nút thắt cổ chai băng thông) của huấn luyện phân tán từ góc độ toán học. Trình tối ưu hóa DisTrO của họ nhằm mục đích nén việc truyền tải gradient hàng nghìn lần, với mục tiêu cho phép huấn luyện mô hình lớn chạy ngay cả trên đường truyền băng thông rộng tại nhà – một "cuộc tấn công giảm chiều" nhằm chống lại các hạn chế vật lý.
• Phương pháp kỹ thuật hệ thống (Prime Intellect, Gensyn, Gradient): Tập trung vào việc xây dựng các "hệ thống thời gian chạy AI" thế hệ tiếp theo. ShardCast của Prime Intellect và Parallax của Gradient được thiết kế để tối ưu hóa hiệu quả cụm máy tính không đồng nhất cao nhất trong điều kiện mạng hiện có thông qua các kỹ thuật kỹ thuật tiên tiến.
• Phương pháp lý thuyết trò chơi thị trường (Bittensor, Fraction AI): Tập trung vào thiết kế hàm thưởng. Bằng cách thiết kế các cơ chế tính điểm phức tạp, phương pháp này hướng dẫn người khai thác tự tìm ra chiến lược tối ưu, từ đó đẩy nhanh sự hình thành trí tuệ nhân tạo.
Trong mô hình kết hợp học tăng cường với Web3, những lợi thế ở cấp độ hệ thống trước hết được thể hiện ở việc viết lại cấu trúc chi phí và quản trị .
• Tái cấu trúc chi phí : Sau quá trình huấn luyện trong RL, nhu cầu lấy mẫu triển khai là không giới hạn. Web3 có thể huy động sức mạnh tính toán phân tán toàn cầu với chi phí cực thấp, đây là lợi thế về chi phí mà các nhà cung cấp điện toán đám mây tập trung không thể sánh kịp.
• Sự đồng thuận chủ quyền: Phá vỡ thế độc quyền của các công ty lớn về giá trị AI (sự đồng thuận), cộng đồng có thể bỏ phiếu bằng token để quyết định "đâu là câu trả lời tốt" cho mô hình, từ đó dân chủ hóa quản trị AI.
Đồng thời, hệ thống này cũng phải đối mặt với hai hạn chế cấu trúc lớn.
• Rào cản băng thông : Mặc dù có những cải tiến như DisTrO, độ trễ vật lý vẫn hạn chế quá trình huấn luyện đầy đủ các mô hình tham số cực lớn (70 tỷ trở lên), và AI Web3 hiện tại chủ yếu chỉ giới hạn ở việc tinh chỉnh và suy luận.
Định luật Goodhard (Gian lận phần thưởng) : Trong các mạng lưới có động lực cao, người khai thác dễ bị "quá khớp" với các quy tắc phần thưởng (kiếm điểm dễ dàng) thay vì cải thiện trí thông minh thực sự. Thiết kế các hàm phần thưởng mạnh mẽ để ngăn chặn gian lận là một cuộc chơi không ngừng nghỉ.
• Các cuộc tấn công Byzantine độc hại : Những cuộc tấn công này làm gián đoạn sự hội tụ của mô hình bằng cách chủ động thao túng và làm sai lệch tín hiệu huấn luyện. Chiến lược cốt lõi không phải là liên tục thiết kế các hàm thưởng chống gian lận, mà là xây dựng các cơ chế chống lại các cuộc tấn công đối nghịch.
Sự kết hợp giữa học tăng cường và Web3 về cơ bản đã viết lại cơ chế "cách thức trí tuệ được tạo ra, điều chỉnh và giá trị của nó được phân phối". Sự phát triển của nó có thể được tóm tắt theo ba hướng bổ sung cho nhau:
1. Mạng lưới huấn luyện phi tập trung : Từ các máy khai thác sức mạnh tính toán đến các mạng lưới chính sách, thuê ngoài việc triển khai song song và có thể kiểm chứng cho các GPU phân tán trên toàn cầu, tập trung vào thị trường suy luận có thể kiểm chứng trong ngắn hạn, và phát triển thành một mạng con học tăng cường để phân cụm tác vụ trong trung hạn;
2. Tài sản hóa sở thích và phần thưởng : Từ việc dán nhãn công việc đến sự công bằng dữ liệu. Việc tài sản hóa sở thích và phần thưởng biến phản hồi chất lượng cao và Mô hình Phần thưởng thành các tài sản dữ liệu có thể quản lý và phân phối được, nâng cấp "việc dán nhãn công việc" thành "sự công bằng dữ liệu".
3. Sự tiến hóa "nhỏ nhưng tuyệt vời" trong các lĩnh vực chuyên ngành : Trong các kịch bản chuyên ngành mà kết quả có thể kiểm chứng và lợi ích có thể định lượng, các tác nhân RL chuyên dụng nhỏ nhưng mạnh mẽ đang được phát triển, chẳng hạn như thực thi chiến lược DeFi và tạo mã, liên kết trực tiếp việc cải thiện chiến lược với việc thu được giá trị và được kỳ vọng sẽ vượt trội hơn các mô hình mã nguồn đóng thông thường.
Nhìn chung, cơ hội thực sự cho học tăng cường × Web3 không nằm ở việc sao chép một phiên bản phi tập trung của OpenAI, mà nằm ở việc viết lại "các mối quan hệ sản xuất thông minh": biến việc thực thi huấn luyện thành một thị trường sức mạnh tính toán mở, biến phần thưởng và sở thích thành tài sản trên chuỗi có thể quản lý được , và phân phối lại giá trị do trí tuệ mang lại không còn tập trung vào nền tảng, mà giữa các nhà huấn luyện, nhà điều chỉnh và người dùng.

Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:
Nhóm Telegram đăng ký: https://t.me/theblockbeats
Nhóm Telegram thảo luận: https://t.me/BlockBeats_App
Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia