David Silver lần cuối xuất hiện dưới đèn sân khấu là vào năm 2016 tại Hội trường Seoul. Để chính xác, đằng sau cái bàn đối diện với Lee Sedol. Ngồi ở bàn đó là AlphaGo.

Sau mười năm, anh rời DeepMind của Google, khởi nghiệp lại tại Luân Đôn. Chưa đến 24 giờ từ khi công bố vốn, cả vùng Đầu tư Mẫu mẫu châu Âu đã trầm trồ: vòng gói vốn Hạt giống 11 tỷ USD, định giá 51 tỷ USD, do Redwood và Lightspeed đồng hành, cùng với NVIDIA, DST Global, Index, Google, quỹ chủ quyền AI của Anh và một loạt tên tuổi khác.
Đây là vòng hạt giống lớn nhất trong lịch sử đầu tư mạo hiểm châu Âu.
Đầu tiên, hãy xem xét con số.
Công ty mang tên Ineffable Intelligence. Được đăng ký vào tháng 11 năm 2025, Silver chính thức nghỉ việc từ DeepMind vào tháng 1 năm nay và hoàn toàn nắm quyền. Từ khi thành lập công ty đến khi nhận được số tiền này, chưa đến nửa năm.
Với vòng hạt giống mang lại định giá 51 tỷ USD, gần bằng với vòng B của Mistral một năm trước, vượt qua định giá ban đầu của bất kỳ công ty khởi nghiệp AI châu Âu nào trong cùng thời kỳ. Danh sách nhà đầu tư cũng hiếm khi có cơ hội tập hợp cùng lúc vốn tư nhân châu Âu và Mỹ, các quỹ VC hàng đầu Silicon Valley và các nhà cung cấp sức mạnh tính toán. Quỹ chủ quyền AI của Chính phủ Anh lần đầu tiên tham gia vào vòng đầu tư sớm với quy mô như vậy, chính điều này đã là một dấu hiệu.
Nhận số tiền lớn như vòng hạt giống này, truyền thống đãi không. Nhà đầu tư sớm thường phải đợi đến khi có sản phẩm, doanh thu hoặc khách hàng ít nhất một phần mới đầu tài trợ mạnh mẽ. Vòng của Silver lần này tương đương việc bỏ qua tất cả các bước, trực tiếp nhận được định giá của một công ty lớn đã niêm yết ở trung tâm thị trường.
Nguồn tiền không có gì bí ẩn. Họ đặt cược không phải vào sản phẩm mà là vào một mô hình. Sự nhận định này sẽ được mở rộng sau.
Hãy xem xét sơ lược quá khứ của Silver. Mười năm tại DeepMind, là người dẫn đầu hoặc cộng tác dẫn đầu trong việc phát triển Atari Pixel chơi trò chơi, AlphaGo, AlphaZero (biến thể không người chơi của cờ vây, cờ vua, cờ shogi) và AlphaProof (đoạt huy chương bạc tại Olympic Toán học quốc tế). Anh cũng là giáo sư tại UCL. Điều đó có nghĩa là, trong khoảng mười lăm năm qua, anh là người đưa học sâu từ một đề tài học thuật ít người quan tâm đến điểm đến hàng đầu của ngành công nghiệp.

Giá trị của hồ sơ này không phải là số lượng bài báo, mà là sự thống治 trong lời nói. Người có thể đồng thời sở hữu "uy tín học thuật + sự nghiệp kỹ sư + vị trí trong sách giáo trình" trong một dòng, trên toàn thế giới không quá năm người.
Phần thú vị thật sự của câu chuyện nằm ở đây.
Các mô hình thế hệ GPT, Claude, Gemini này chủ yếu là việc đưa tất cả những gì con người đã viết vào mạng, nén chúng thành một khối xác suất ngữ nghĩa, sau đó sử dụng các phương pháp huấn luyện sau để "gọi chúng ra". Chúng có thể viết email, viết mã, biểu diễn tiểu phẩm hài, bởi vì con người đã viết mọi thứ này rồi.
Mục tiêu mà Silver đề cập trên trang web Ineffable, là tạo ra một siêu học viên, một người học siêu việt. Nó cần làm những việc mà không phụ thuộc vào bất kỳ dữ liệu nào do con người tạo ra, chỉ thông qua "kinh nghiệm" của chính nó để học từ con số không, từ kỹ năng vận động cơ bản nhất cho đến "sự thâm thúy vượt trội".

Điều này không phải là câu khẩu hiệu tiếp thị, phía sau đó là một bài báo đang được xuất bản.
Bắt đầu từ năm ngoái, Silver cùng với tác giả sách giáo trình học tăng cường, nhà giải thưởng Turing Richard Sutton đã viết một bài báo, có tiêu đề là "Thời đại Kinh nghiệm (Era of Experience)", là một phần trích đoạn từ cuốn sách sắp được xuất bản "Designing an Intelligence" của MIT Press. Trong bài báo có một phát biểu được trích dẫn nhiều lần.
“Trong các lĩnh vực chính như toán học, mã nguồn, khoa học, kiến thức có thể được rút ra từ dữ liệu do con người tạo ra đang nhanh chóng tiến gần tới giới hạn.”
Mọi thứ con người đã viết, mô hình đã đọc hết rồi. Càng đi xa hơn, càng thu được ít lợi ích từ việc tiền huấn luyện, đường cong tăng trưởng sẽ trở thành một đường thẳng trơn.
Lối thoát cho Trí tuệ Nhân tạo thế hệ tiếp theo không phải là tăng kích thước dữ liệu văn bản, hay thêm phản hồi từ con người, mà là để mô hình tự tạo ra kinh nghiệm từ môi trường. Nó sẽ tự mình thử nghiệm, thất bại, tương tác, khám phá những điều mà không có ai viết qua trước.
Đối tác cùng với Sequoia đã nói rõ hơn trong thông cáo của họ. "Nếu thành công, điều này sẽ là một bước tiến hóa độc đáo như của Darwin. Nguyên lý của ông giải thích tất cả sự sống, nguyên lý của chúng tôi sẽ giải thích và xây dựng mọi trí tuệ."
Điều này thường khiến người ta nhếch môi. Nhưng đừng vội vã quay lưng, ít nhất nó thẳng thắn thừa nhận quan điểm chân thành của Redwood, họ đặt cược không phải là một trợ lí trò chuyện, cũng không phải là một trợ lí của một ngành nghề cụ thể, mà là một cơ hội mới.
Những người quen với hồ sơ của Silver sẽ nhận ra rằng, chiến lược superlearner không phải là mới.
Năm 2017, AlphaZero đã thực hiện điều đó. Trên ba dự án cờ vây, cờ tướng, cờ shogi, mà không sử dụng bất kỳ tài liệu chơi cờ của con người nào, chỉ dựa vào tự chơi với chính mình, trong vài giờ đã vượt qua tất cả các đối thủ mạnh nhất trước đó. Năm 2024, AlphaProof đã giành huy chương bạc tại Olympic Toán học Quốc tế, cũng theo cùng một con đường, sử dụng các bằng chứng hình thành tự nhiên để huấn luyện chính mình.

Đội AlphaProof ăn mừng chiến thắng tại văn phòng
Nghe có vẻ hấp dẫn. Nhưng trong thập kỷ qua, hầu hết tất cả các phòng thí nghiệm RL đã đụng độ tường với điều này.
Lý do là "tự chơi với chính mình" yêu cầu môi trường sạch sẽ. Ví dụ, cờ vây có bàn cờ 19x19 và hai màu đen trắng với luật chơi rõ ràng, cờ tướng có tám dòng ngang và quy định rõ ràng về thắng bại. Trong môi trường bao quanh kín này, mô hình có thể rõ ràng biết điều gì là "chiến thắng", từ đó có thể tối ưu hóa một cách rõ ràng.
Nhưng nếu bạn thay đổi nhiệm vụ thành "viết một hợp đồng có thể làm khách hàng trả tiền" "chứng minh một giả thuyết toán học chưa được chứng minh" "lái một chiếc taxi từ một thành phố xa lạ trở về khách sạn", làm sao xác định phần thưởng, cung cấp môi trường, những vấn đề này trong thập kỷ qua không có một câu trả lời thực sự.
Việc đánh cược lần này của Silver, là công khai công nhận rằng vấn đề này vẫn chưa được giải quyết, sau đó mang theo 11 tỷ đô la, một đội ngũ mới, một tổ chức hoàn toàn mới để bắt đầu lại từ đầu.
Năm 2026, thị trường sẵn lòng đặt 11 tỷ đô la vào việc phát triển trí tuệ nhân tạo "không đọc dữ liệu của con người", câu trả lời ẩn chứa trong những dấu hiệu không hề cô lập trong 12 tháng qua.
Các loạt o3, o4 của OpenAI, việc huấn luyện ngày càng phụ thuộc vào học tăng cường sau quá trình huấn luyện. "Tư duy", "suy luận" những khả năng này, không còn đến từ việc tiền huấn luyện lớn hơn, mà đến từ tương tác môi trường ở giai đoạn RL. DeepSeek R1 sau đó chuyển tiếp con đường học tăng cường từng mẫu nhỏ trực tiếp thành một mẫu mã nguồn mở, bất kỳ tổ chức nào có chút khả năng kỹ thuật, hôm nay đều có thể tái tạo một mô hình nhỏ "biết suy nghĩ". RL không còn là bí ẩn nội bộ của DeepMind, mà đã trở thành kiến thức thông thường trong ngành.
Một cái nhìn sâu hơn là cuộc thảo luận về luật scaling của pre-training, bắt đầu từ nửa cuối năm 2025, hầu hết mỗi tháng đều có bài báo mới. Khi các token chất lượng cao trong văn bản con người đã gần như bị tiêu thụ hết, lợi ích việc mở rộng kích thước mô hình tiếp tục bị giảm đáng kể. Phía vốn đã đang chuyển hướng âm thầm, trong nửa năm qua, số tiền lớn về trí tuệ nhân tạo mà các nhà đầu tư cấp cao ở Silicon Valley đã đầu tư, ngày càng nhiều rơi vào các hướng "sau pre-training" như RL, mô hình thế giới, agent, thay vì chỉ là một nhà máy LLM khác.
Thị trường đã sẵn sàng với tên lửa cho "thời đại sau pre-training". Chỉ là đang chờ đợi một người có thể nắm cờ này. Silver hầu như là câu trả lời giáo trình cho vai trò này. Trên con đường RL này, anh ấy không chỉ có sự nhận thức công khai từ AlphaGo, mà còn có kinh nghiệm được thừa nhận từ các dự án kỹ thuật như AlphaZero, AlphaProof, cùng quyền lực từ việc cộng tác viết sách với Sutton.
11 tỷ USD được đổ vào, về bản chất là thị trường đang bỏ phiếu bằng tiền. Học tăng cường không phải là một hướng điện công nghệ, mà là một mô hình tiếp theo.
11 tỷ USD có thể xây một nhà máy chip, có thể mua một CLB bóng đá, có thể sản xuất một số bộ phim. Sử dụng nó để tạo ra một trí tuệ tổng quát không cần dữ liệu con người, có khả năng không?
Không ai biết. Silver cũng không nói.
Nhưng có một số điểm quan sát đã được sắp xếp trong 12 tháng tới. Một điểm quan trọng nhất là liệu Ineffable có thể làm một bài kiểm chứng "tự học" khó hơn AlphaProof. Đấu trường toán học là môi trường đóng. Nếu bước tiếp theo là "nghiên cứu toán học cấp cao không hình thức", thì mức độ khó sẽ tăng đột ngột. Việc vượt qua giai đoạn này gần như có thể quyết định hướng diễn của toàn bộ câu chuyện.
Chúng ta cũng cần quan sát hành động của Sequoia. Sau khi tiếp tục đầu tư mạnh ở vòng hạ giống, tốc độ vòng A sẽ quyết định sự đánh giá của thế giới bên ngoài đối với dự án. Nếu trong 12 tháng xuất hiện vòng A với quy mô 30 tỷ USD, điều đó ngụ ý rằng kết quả sớm đã vượt xa mong đợi. Nếu không xuất hiện kịp thời, thị trường sẽ điều chỉnh lại định giá này.
Cũng cần quan sát phía DeepMind. Sau khi Silver rời đi, cách mà nhóm RL mà anh ấy từng dẫn dắt sẽ viết bài báo tiếp theo như thế nào, ai sẽ đóng dấu, có ai rời đi cùng, đây là các thước đo quyết định của một công ty mới thành từ "ngôi sao đơn" sang "sức mạnh nghiên cứu của tổ chức".
Và cuối cùng là Trung Quốc. DeepSeek đã có lộ trình R1, Byte có Seed Byte, liệu họ có công bố "thám hiểm không cần dữ liệu con người" của riêng mình vào nửa cuối năm 2026 hay không. Nếu con đường này được mở rộng thành công, nó sẽ không chỉ thuộc về một công ty tại Luân Đôn.
Dù con đường của siêu học viên cuối cùng sẽ đi được hay không, 11 tỷ đô la ít nhất đã đặt một vấn đề lên bàn. Khi mọi người đều đang so sánh xem ai có thể học ngôn ngữ con người giống hệt hơn, một số người bắt đầu đặt câu hỏi, tại sao trí tuệ nhân tạo phải trở thành chúng ta trước khi có thể trở nên xuất sắc hơn chúng ta?
Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:
Nhóm Telegram đăng ký: https://t.me/theblockbeats
Nhóm Telegram thảo luận: https://t.me/BlockBeats_App
Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia