原文标题:面向物理世界的前沿系统
原文作者:Oliver Hsu,a16z 加密货币 研究员
原文编译:深潮科技流
深潮导读: 这篇文章来自 a16z 研究员 Oliver Hsu,是 2026 年以来最系统的一份「物理 AI」投资地图。他的判断是:语言/代码这条主线仍在 scaling,但真正能跑出下一代颠覆性能力的,是紧挨着主线的三个领域——通用机器人、自主科学(AI 科学家)、脑机接口等新型人机接口。作者拆解了支撑它们的五个底层能力,并论证这三条战线之间会形成相互喂养的结构性飞轮。对想看清物理 AI 投资逻辑的人,这是目前最完整的框架。
今天主导 AI 的范式,围绕语言和代码组织。大语言模型的 scaling law 已经被刻画得很清楚,数据、算力、算法改进的商业飞轮正在转动,能力每上一个台阶带来的回报仍然很大,而且这些回报大部分是看得见的。这套范式配得上它吸走的资本和注意力。
但另一批毗邻领域,已经在孕育期里做出了实质进展。这里包括 VLA(视觉-语言-动作模型)、WAM(世界动作模型)等通用机器人路线,围绕「AI 科学家」展开的物理与科学推理,以及利用 AI 进展重塑人机交互的新型接口(包含脑机接口和神经科技)。
除了技术本身,这几个方向都开始吸引到人才、资本和创始人。把前沿 AI 延伸到物理世界的技术原语正在同时成熟,过去 18 个月的进展说明这些领域很快会进入各自的 scaling 阶段。
在任何一个技术范式里,当前能力和中期潜力之间 delta 最大的地方,往往具备两个特征:一是能吃到驱动当前前沿的同一套 scaling 红利,二是离主流范式又有一步距离——近到能继承它的基础设施和研究动能,远到需要做实打实的额外工作。
这段距离本身就有双重作用:它自然形成了对快速跟随者的护城河,同时也定义了一个信息更稀、更不拥挤的问题空间,因此更可能涌现新能力——恰恰因为捷径还没被走完。

Chú thích: Mối quan hệ giữa mô hình AI hiện tại (ngôn ngữ/mã) và hệ thống tiên tiến lân cận
Ngày nay, có ba lĩnh vực phù hợp với mô tả trên: học máy, khoa học tự trị (đặc biệt là hướng vật liệu và hướng sinh học), và giao diện người-máy mới (bao gồm giao diện máy não, âm thanh không lời, trang bị thần kinh có thể đeo, và các kênh giác quan mới như giác quan số hóa mùi hương).
Chúng không phải là các công việc hoàn toàn độc lập, về đề tài, chúng thuộc cùng một nhóm "Hệ thống tiên tiến của thế giới vật lý". Chúng chia sẻ một bộ ngữ pháp cơ bản: biểu diễn học tập vật lý động, kiến trúc hướng đến hành động có thể thực hiện, cơ sở hạ tầng dữ liệu mô phỏng và tổng hợp, kênh giác quan không ngừng mở rộng, và sắp xếp tạo hình của cơ thể thông minh. Chúng củng cố lẫn nhau trong mối quan hệ phản hồi đa lĩnh vực. Chúng cũng là nơi có khả năng chuyển biến lớn nhất - sự kết hợp giữa quy mô mô hình, triển khai vật lý, và ra mắt dữ liệu mới.
Bài viết này sẽ phân tích những ngữ pháp công nghệ hỗ trợ các hệ thống này, giải thích tại sao ba lĩnh vực này đại diện cho cơ hội tiên tiến, và đề xuất mối tương hỗ giữa chúng tạo nên một bánh xe cấu trúc đẩy AI tiến vào thế giới vật lý.
Trước khi xem xét các ứng dụng cụ thể, hãy hiểu rõ năm ngữ pháp công nghệ chung được chia sẻ bởi các hệ thống tiên tiến này. Để đưa AI tiên tiến vào thế giới vật lý, chúng dựa vào năm ngữ pháp chính. Các công nghệ này không riêng biệt đối với bất kỳ lĩnh vực ứng dụng cụ thể nào, chúng là các thành phần - có thể xây dựng hệ thống để "kéo AI vào thế giới vật lý". Việc chúng đồng bộ hoá sẽ là lý do đặc biệt của thời điểm hiện tại.

Chú thích: Năm ngữ pháp cơ bản hỗ trợ AI vật lý
Một ngữ pháp cơ bản nhất, là khả năng học được một biểu diễn hành vi thế giới vật lý được nén, chung. Không có lớp này, mỗi hệ thống AI vật lý đều phải tự học luật vật lý của lĩnh vực riêng của mình, một chi phí mà không ai có thể chịu đựng được.
Nhiều trường phái kiến trúc đang tiếp cận mục tiêu này từ rất nhiều hướng khác nhau. Mô hình VLA bắt đầu từ phía trên: lấy một mô hình học ngôn ngữ-thị giác đã được tiền huấn luyện - loại mô hình này đã có khả năng hiểu ngữ nghĩa về vật thể, mối quan hệ không gian và ngôn ngữ - và thêm một bộ giải mã hành động xuất ra chỉ thị điều khiển chuyển động.
Quan trọng là, việc học để "nhìn" và "hiểu thế giới" với chi phí lớn có thể được phân tán nhờ vào quy mô của internet về việc huấn luyện trước văn bản hình ảnh. Pi của Trí tuệ Vật lý, Gemini Robotics của Google DeepMind, GR00T N1 của NVIDIA, tất cả đã xác minh kiến trúc này ở quy mô ngày càng lớn hơn.
Mô hình WAM tiếp cận từ tầng dưới: dựa trên Transformer mở rộng video được huấn luyện trước trên quy mô internet, kế thừa tiên nghiệm phong phú về động lực học (vật thể rơi như thế nào, bị che như thế nào, tương tác như thế nào sau lực tác động), sau đó kết hợp tiên nghiệm này và việc tạo động.
DreamZero của NVIDIA đã trưng bày khả năng tổng quát hóa zero-shot đối với nhiệm vụ và môi trường mới hoàn toàn, có thể chuyển giao giữa các bề mặt ngữ cảnh với số lượng dữ liệu điều chỉnh nhỏ từ video mô phỏng của con người, nâng cao khả năng tổng quát hóa trong thế giới thực.
Lộ trình thứ ba có lẽ là cách tiếp cận đầy cảm hứng nhất về hướng đi trong tương lai, nó bỏ qua hoàn toàn mô hình cốt lõi VLM và video mở rộng. GEN-1 của Generalist là một mô hình cơ bản đã được huấn luyện từ đầu, dữ liệu huấn luyện là hơn 50.000 giờ dữ liệu tương tác vật lý thực tế, chủ yếu được thu thập từ con người thực hiện các nhiệm vụ hoạt động hàng ngày thông qua thiết bị dễ dàng đeo.
Nó không phải là một VLA theo nghĩa thông thường (không có trục cốt lõi thị giác-ngôn ngữ được điều chỉnh), cũng không phải là WAM. Nó chính là một mô hình cơ bản được thiết kế đặc biệt cho tương tác vật lý, bắt đầu từ con người, học không phải là quy luật thống kê của hình ảnh, văn bản hoặc video trên internet, mà là quy luật thống kê của sự tiếp xúc giữa con người và vật.
Công ty như World Labs đang làm trong lĩnh vực thông minh không gian, có giá trị với ngôn ngữ cơ bản này, bởi vì nó điền vào khoảng trống chung của VLA, WAM và mô hình cơ bản: cả ba đều không mô hình rõ ràng cấu trúc ba chiều của bối cảnh mà chúng đứng trên.
VLA thừa kế đặc điểm hình ảnh 2D của huấn luyện trước văn bản hình ảnh; WAM học động lực học từ video, video chính là chiếu 2D của 3D; mô hình học từ dữ liệu cảm biến đeo được cung cấp có thể bắt kịp vận động học và nguyên lý vận động, nhưng không thể bắt các cấu trúc hình học của bối cảnh. Mô hình thông minh không gian có thể giúp điền vào lĩnh vực này - học cách tái tạo, tạo ra cấu trúc 3D hoàn chỉnh của môi trường vật lý và suy luận: hình học, ánh sáng, che khuất, mối quan hệ giữa các vật, bố trí không gian.
Sự tiếp cận đồng nhất của mỗi lộ trình chính là điểm nổi bật. Cho dù biểu diễn được thừa kế từ VLM, học từ huấn luyện chung trên video hoặc được tạo ra từ dữ liệu tương tác vật lý trực tiếp, ngôn ngữ cơ bản là một: mô hình hành vi thế giới vật lý nén và có thể chuyển giao.
Dải dữ liệu mà các biểu diễn này có thể trích xuất là cực kỳ lớn, hầu hết vẫn chưa được sử dụng - không chỉ là video trên internet và quỹ đạo của robot, mà còn là dữ liệu kinh nghiệm cơ thể của con người với quy mô đang bắt đầu thu thập bằng thiết bị đeo. Cùng một bộ biểu diễn có thể phục vụ một robot đang học cách xếp khăn, một phòng thí nghiệm tự hành dự đoán kết quả phản ứng, hoặc một bộ giải mã thần kinh đang diễn dịch ý định cầm và nắm của vỏ não chuyển động.
Chỉ có biểu diễn vật lý không đủ. Để chuyển "hiểu biết" thành các hành động vật lý đáng tin cậy, cần một kiến trúc giải quyết một số vấn đề liên quan: ánh xạ ý đồ cấp cao thành chỉ thị chuyển động liên tục, duy trì tính nhất quán trên chuỗi hành động dài, hoạt động dưới ràng buộc độ trễ thời gian thực, và tiến bộ theo kinh nghiệm liên tục.
Đã trở thành tiêu chuẩn thiết kế cho nhiệm vụ cụ thể phức tạp: kiến trúc phân lớp kép hệ thống đã trở thành lựa chọn. Mô hình thị giác-ngôn ngữ chậm nhưng mạnh đảm nhận việc hiểu cảnh và suy luận nhiệm vụ (Hệ thống 2), kết hợp với một mô hình thị giác-chuyển động nhanh và nhẹ để kiểm soát thời gian thực (Hệ thống 1). GR00T N1, Gemini Robotics, và Helix của Figure đều sử dụng biến thể của con đường này, giải quyết sự căng thẳng cơ bản giữa "mô hình lớn cung cấp suy luận phong phú" và "nhiệm vụ vật lý đòi hỏi tần suất kiểm soát theo mili giây". Generalist đã chọn một con đường khác, sử dụng "suy luận cộng hưởng" để diễn ra suy nghĩ và hành động đồng thời.
Cơ chế tạo hành động cũng đang phát triển nhanh chóng. Cách tiếp cận hành động dựa trên luồng và truyền nhiễm mà π₀ đã khởi xướng, đã trở thành phương pháp chính thống tạo hành động liên tục mượt mà, tần suất cao, thay thế cho việc mã hóa rời rạc được mượn từ mô hình ngôn ngữ. Các phương pháp này xem việc tạo hành động như một quá trình loại nhiễu tương tự như tổng hợp hình ảnh, cho ra các quỹ đạo mượt mà vật lý hơn, ổn định hơn đối với lỗi tích luỹ, vượt trội so với dự đoán token tuân theo tự hồi quy.
Tuy nhiên, tiến triển quan trọng nhất ở mức kiến trúc có lẽ là mở rộng học tăng cường lên VLA được được trước biên (VLA đã được học trước trên dữ liệu mô phỏng), một mô hình nền được huấn luyện trên dữ liệu thể hiện, có thể tiếp tục nâng cao thông qua thực hành tự chủ, giống như cách con người mài dũa một kỹ năng thông qua luyện tập lặp đi lặp lại và tự điều chỉnh. Công việc π*₀.₆ của Intelligence Fizix là bản trình bày tỷ mỉ nhất về nguyên tắc này. Phương pháp của họ được gọi là RECAP (Học tăng cường từ kinh nghiệm và sửa lỗi dựa trên ưu thế), giải quyết vấn đề phân bổ tín hiệu credit cho chuỗi dài mà học lướt không thể xử lý.
Nếu một robot nắm lệch một chút khi tóm cánh máy pha cà phê kiểu Ý, lỗi không xuất hiện ngay lập tức mà có thể chỉ lộ ra sau một vài bước sau khi cắm kết nối. Học theo mô phỏng không có cơ chế để quy cho lỗi này lên lần nắm trước đó hơn, RL có. RECAP huấn luyện một hàm giá trị, ước lượng xác suất thành công từ bất kỳ trạng thái trung gian nào, sau đó để cho VLA chọn hành động ưu thế. Điểm chính ở đây đó là, nó tích hợp nhiều loại dữ liệu không đồng nhất—dữ liệu biểu diễn, kinh nghiệm tự chủ trong chiến lược, và sự sửa lời từ chuyên gia trong thực hành từ xa—vào cùng một luồng huấn luyện.
Kết quả của phương pháp này là tin tức tốt cho tương lai của RL trong lĩnh vực hành động. π*₀.₆ thực hiện việc chồng 50 loại đồ chưa từng thấy, lắp ráp hộp giấy đáng tin cậy, sản xuất cà phê kiểu Ý trên máy chuyên nghiệp, hoạt động liên tục trong vài giờ mà không cần can thiệp con người. Trên nhiệm vụ khó nhất, RECAP đã kéo dài doanh số so với giản lý mô phỏng thêm hơn một lần, cắt giảm tỉ lệ thất bại hơn một nửa. Hệ thống này cũng đã chứng minh rằng hậu luyện RL tạo ra hành vi định chất mà mô phỏng không thể biết: phục hồi hành động mượt mà hơn, chiến lược nắm mạnh hơn, và tự sửa lỗi linh hoạt không xuất hiện trong dữ liệu biểu diễn.
Những lợi nhuận này cho thấy một điều: Sức mạnh của việc tăng cường sức mạnh tính toán từ GPT-2 lên GPT-4 đang bắt đầu hoạt động trong lĩnh vực hiện thực—chỉ là hiện đang ở vị trí trên đường cong sớm hơn, không gian hành động là liên tục, đa chiều, và phải đối mặt với những ràng buộc không khoan nhượng của thế giới vật lý.
Trong lĩnh vực ngôn ngữ, vấn đề dữ liệu đã được giải quyết thông qua Internet: văn bản mã thông tự nhiên tự phát, tự do cho tất cả hàng tỷ thành viên. Trên thế giới vật lý, vấn đề này phức tạp nhiều lần—điều này hiện đã trở thành hiểu biết chung, tín hiệu trực tiếp nhất là các công ty cung cấp dữ liệu về thế giới vật lý đang nhanh chóng tăng lên.
Chi phí thu thập quỹ đạo robot thế giới thực cao, có rủi ro trong việc mở rộng quy mô, và đa dạng hạn chế. Một mô hình ngôn ngữ có thể học từ hàng tỷ cuộc trò chuyện, một robot (tạm thời) không thể tiếp xúc vật lý hàng tỷ lần.
Mô phỏng và tổng hợp dữ liệu là cơ sở hạ tầng giải quyết ràng buộc này, sự chín chắn của chúng là một trong những lý do chính giúp gia tốc cho AI vật lý trong thời điểm hiện nay chứ không phải là năm ngoái.
Ngăn xếp mô phỏng hiện đại kết hợp động cơ mô phỏng dựa trên vật lý, kỹ thuật render cấp ảnh theo cấp độ, tạo môi trường theo chương trình, và mô hình thế giới để tạo ra video cấp ảnh từ dữ liệu mô phỏng—phần sau đảm bảo việc chôn lấp cách biệt sim-to-real. Toàn bộ đường ống bắt đầu từ tái tạo thần kinh của môi trường thực (chỉ cần một chiếc điện thoại) với việc điền vào tài sản 3D chính xác về mặt vật lý, và sau đó là tạo ra dữ liệu tổng hợp quy mô lớn đi kèm với nhãn tự động.
Ý nghĩa của việc cải tiến ngăn xếp mô phỏng là nó đang thay đổi giả thuyết kinh tế hỗ trợ cho AI vật lý. Nếu tình cảm của AI vật lý từ "thu thập dữ liệu thật" chuyển hướng sang "thiết kế môi trường ảo đa dạng", chi phí thu liệu sẽ giảm. Mô phỏng mở rộng theo sức mạnh tính toán, không cần sức lao động con người và các thành phần vật lý. Điều này đang thay đổi cơ cấu kinh tế của việc huấn luyện hệ thống AI vật lý, tương tự như dữ liệu văn bản Internet thay đổi cho việc huấn luyện mô hình ngôn ngữ—điều này có nghĩa là việc đầu tư vào cơ sở hạ tầng mô phỏng mạnh mẽ sẽ giúp kéo cả hệ sinh thái lên một tầm cao mới
Nhưng mô phỏng không chỉ dành cho nguyên ngữ robot. Cùng một cơ sở hạ tầng phục vụ cho khoa học tự động (bản sao số hóa thiết bị thí nghiệm, môi trường phản ứng mô phỏng được giả thuyết sơ bộ, giao diện mới (môi trường não giả lập huấn luyện bộ giải mã BCI, dữ liệu giả thuyết về giác quan được hiệu chuẩn cho cảm biến mới), và các lĩnh vực tương tác giữa AI và thế giới vật lý khác. Mô phỏng là động cơ dữ liệu tổng quát của AI thế giới vật lý
Tín hiệu truyền thông trong thế giới vật lý có độ phong phú cao hơn nhiều so với thị giác và ngôn ngữ. Xúc giác truyền tải các thuộc tính vật liệu, tính ổn định của cầm, hình học tiếp xúc và các thông tin mà camera không thể thấy được. Tín hiệu thần kinh có băng thông mã hóa ý định chuyển động, trạng thái nhận thức và kinh nghiệm cảm giác mà bất kỳ giao diện người-máy hiện có nào cũng không thể đạt được. Hoạt động cơ bắp dưới âm thanh đã mã hóa ý định ngôn ngữ trước khi bất kỳ âm thanh nào được tạo ra. Ngôn ngữ thứ tư, AI mở rộng nhanh chóng các kênh giác quan này mà trước đó rất khó tiếp cận - không chỉ từ nghiên cứu mà còn từ một hệ sinh thái xây dựng thiết bị tiêu dùng, phần mềm và cơ sở hạ tầng.

Chú thích: Mở rộng Kênh Giác quan AI, từ AR, EMG đến giao diện não máy
Một chỉ số rõ ràng nhất là sự xuất hiện của thiết bị hạng mục mới. Trong vài năm qua, thiết bị AR đã trải qua nhiều cải tiến lớn về trải nghiệm và hình dạng (một số công ty đã phát triển ứng dụng tiêu dùng và công nghiệp trên nền tảng này); các thiết bị AI có khả năng nghe trước làm cho AI ngôn ngữ có được ngữ cảnh trong thế giới vật lý toàn diện hơn - chúng thật sự đang đi theo người dùng vào môi trường vật lý.
Trong tương lai, giao diện thần kinh có thể mở ra các hình thức tương tác toàn diện hơn. Sự chuyển đổi về cách tính toán mang lại bởi AI đã tạo ra cơ hội cho một cuộc cách mạng tương tác người-máy lớn, các công ty như Sesame đều đang xây dựng các hình thức và thiết bị mới để thúc đẩy điều này.
Các hình thức tương tác mới nổi tiếng đã mang lại lợi ích cho các hình thức tương tác mới nổi tiếng khác. Các sản phẩm như Wispr Flow đẩy mạnh việc sử dụng giọng nói như phương pháp nhập liệu chính (vì nó có mật độ thông tin cao, có ưu điểm tự nhiên), điều kiện thị trường cho giao diện ngôn ngữ không âm cũng đã cải thiện. Thiết bị ngôn ngữ không âm sử dụng nhiều cảm biến để theo dõi các cử động của lưỡi và dây thanh quản, nhận diện ngôn ngữ không âm - nó đại diện cho một hình thức tương tác người-máy có mật độ thông tin cao hơn so với giọng nói.
Giao diện não máy (invasive và không xâm lấn) đại diện cho phong cách tiên tiến hơn, hệ sinh thái thương mại xung quanh nó đang tiếp tục phát triển. Tín hiệu sẽ xuất hiện tại điểm hội tụ của thông tin lâm sàng, phê duyệt quy mô, tích hợp nền tảng, vốn từ tổ chức - và đây là một phân loại công nghệ mà chỉ vài năm trước đây là một lĩnh vực toàn bộ thuộc về học thuật.
Cảm biến xúc giác đang bước vào kiến trúc AI thể hiện, một số mô hình trong robot học đã bắt đầu bao gồm xúc giác rõ ràng làm cừơng công dân. Giao diện hình giác đang trở thành sản phẩm kỹ thuật thực sự: màn hình xúc giác có thể đeo được sử dụng bộ phát mùi vi mô, thời gian phản hồi mili giây, đã được trình diễn trong ứng dụng thực tế ảo; các mô hình mùi đã bắt đầu được kết hợp với hệ thống AI hình giác, sử dụng cho giám sát quá trình hóa học.
Quy luật chung của các phát triển này là: chúng sẽ hội tụ trong điều kiện giới hạn. Kính AR tiếp tục tạo ra dữ liệu giao tiếp giữa người dùng và môi trường vật lý; dây đeo cổ tay EMG thu thập thống kê ý định chuyển động của con người; giao diện ngôn ngữ không âm thu thập phép đồ từ nơi phát âm dưới âm thanh đến đầu ra ngôn ngữ; BCI thu thập hoạt động thần kinh với độ phân giải cao nhất hiện tại; cảm biến xúc giác thu thập động lực học tiếp xúc trong thao tác vật lý. Mỗi thiết bị hạng mục mới đều là một nền tảng tạo dữ liệu, phục vụ cho nhiều mô hình cơ bản trong các lĩnh vực ứng dụng.
Một robot được huấn luyện dữ liệu ý định chuyển động thông qua EMG, và một robot được huấn luyện chỉ thông qua dữ liệu điều khiển từ xa, học được các chiến lược bám nắm khác nhau; một giao diện phòng thí nghiệm phản hồi lệnh dưới âm nhạc thanh, và một phòng thí nghiệm được điều khiển bằng bàn phím, mang lại cách tương tác giữa nhà khoa học và máy móc hoàn toàn khác nhau; một bộ giải mã thần kinh được huấn luyện dữ liệu BCI có mật độ cao, có thể tạo ra biểu diễn kế hoạch chuyển động không thể thu được từ bất kỳ kênh nào khác.
Sự phổ biến của các thiết bị này đang mở rộng chiều chuyển tiếp dữ liệu hiệu quả của hệ thống AI vật lý tiên tiến — và sự mở rộng này phần lớn được thúc đẩy bởi các công ty hàng tiêu dùng có vốn dồi dào, không chỉ từ các phòng thí nghiệm học thuật, điều đó có nghĩa là bánh xe dữ liệu có thể mở rộng theo tỷ lệ chấp nhận của thị trường.
Nguyên tắc cuối cùng hơn là một mặt kiến trúc. Nó ám chỉ việc kết hợp cảm nhận, suy luận và hành động xếp thành một hệ thống hoạt động liên tục, tự chủ, đóng. mà không cần can thiệp của con người trên một định mức thời gian dài.
Trong mô hình ngôn ngữ, sự phát triển tương ứng là sự trỗi dậy của hệ thống đại trà — chuỗi suy luận nhiều bước, sử dụng công cụ, quy trình tự đúng như lỗi lại cho mô hình từ công cụ trả lời câu hỏi đơn lẻ lên trở thành người giải quyết vấn đề tự chủ. Trong thế giới vật lý, sự chuyển biến tương tự đang diễn ra, nhưng yêu cầu khắt khe hơn nhiều. Một hệ thống ngôn ngữ nếu sai lầm có thể hoàn trả mà không tốn chi phí; một hệ thống vật lý nếu đổ chiếc lọ chất lỏng thì không thể trở lại.
Hệ thống Đại trà của thế giới vật lý có ba đặc tính làm cho nó khác biệt so với phiên bản số.
Thứ nhất, chúng cần được nhúng vào một hệ thống đóng thực hiện hoặc chạy: trực tiếp kết nối với luồng dữ liệu thiết bị nguyên thủy, cảm biến trạng thái vật lý và ngữ cảnh thực thi, để suy luận chuyển đến thực tế vật lý, chứ không phải là mô tả văn bản của thực tế vật lý.
Thứ hai, chúng cần sự liên tục chuỗi dài: bộ nhớ, theo dõi xuất xứ, giám sát an ninh, hành vi phục hồi, kết nối nhiều chu kỳ hoạt động với nhau, chứ không phải mỗi nhiệm vụ như một tập kịch độc lập.
Thứ ba, chúng cần sự thích ứng đóng thực: sửa đổi chiến lược dựa trên kết quả vật lý, chứ không chỉ dựa vào phản hồi văn bản.
Nguyên tắc này kết hợp một loạt khả năng độc lập (mô hình thế giới tốt, kiến trúc hành động đáng tin cậy, bộ cảm biến phong phú) thành một hệ thống hoàn chỉnh có thể hoạt động tự chủ trong thế giới vật lý. Đó là một tầng tích hợp, mà sự chín chắn của nó là tiền đề cho ba lĩnh vực ứng dụng bên dưới có thể triển khai trong thế giới thực chứ không phải là giả trên tư duy.
Các nguyên tắc trên là tầng khả năng kích hoạt chung, chúng không xác định ứng dụng quan trọng nhất sẽ phát triển ở đâu. Nhiều lĩnh vực đều bao gồm hành vi vật lý, đo lường vật lý hoặc cảm nhận vật lý. Việc phân biệt giữa "hệ thống ở mặt trước" và "chỉ đơn giản là bản cải tiến của hệ thống hiện có" là mức độ hiệu quả của việc nâng cao năng lực mô hình trong lĩnh vực và cơ sở hạ tầng mở rộng — không chỉ là hiệu suất cải thiện hơn, mà là năng lực mới mà trước đây không thể thực hiện đượcv.
Robot, AI-driven science, and new human-machine interfaces are the three areas where this compounding effect is the strongest. Each one uniquely assembles primitives, each one is currently stymied by constraints being unwound by the current primitives, and each one will generate structured physical data as a byproduct of its operation — data that will, in turn, improve the primitives themselves, creating a feedback loop that accelerates the entire system. They aren't the only physical AI domains worth watching, but they are the frontiers of AI capabilities and physical reality interaction, the furthest from current language/code paradigms and thus with the most room for emergent capabilities — while also being highly complementary to and able to take advantage of them.
Robotics is the most literal form of physical AI: an AI system that must perceive, reason, and act upon the material world in real-time. It also stress-tests each primitive.
Think about all a general-purpose robot needs to do to fold a towel. It needs a learned representation of how deformable material behaves under force — a physical prior that language pretraining does not provide. It needs an action architecture that can translate high-level instructions into a continuous motion command sequence at control rates over 20 Hz.
It needs synthetically generated training data since no one has collected millions of real demonstrations of towel-folding. It needs tactile feedback to detect slipping and adjust grip force because vision can't distinguish between a stable grip and a grip that is failing. It also needs a closed-loop controller that can recognize mistakes when folding and recover from them rather than blindly executing memorized trajectories.
邺\Migrations
Caption: A Robot's Task simultaneously invokes 5 underlying primitives
This is why robotics is an edge system, not a more mature engineering discipline that tools are better suited for. These primitives aren't about improving existing robotic capabilities; they unlock categories of operations, motions, and interactions that were previously impossible outside narrow controlled industrial environments.
Recent years have seen significant advances at the frontier — as we've written about before. The first generation of VLAs demonstrated that foundational models could control robots to perform diverse tasks. Architectural advances have bridged high-level reasoning with robotic systems' low-level control. On-device reasoning has become practical, and cross-ontology transfer means a model can be finetuned with limited data to a completely new robotic platform. The core challenge remaining is scalable reliability, which remains a bottleneck to deployment. At each step, there's a 95% success rate, only 60% on a 10-step task chain, far below what production environments demand. RL post-training holds great promise here, helping the field reach the capabilities and robustness thresholds needed for scaling.
Những tiến bộ này ảnh hưởng đến cấu trúc thị trường. Giá trị của ngành robot trong hàng thập kỷ trước tập trung vào hệ thống cơ khí của chính robot, cơ khí vẫn là một phần then chốt của ngăn xếp công nghệ, nhưng khi chiến lược học tập trở nên tiêu chuẩn hóa hơn, giá trị sẽ dịch chuyển sang mô hình, cơ sở đào tạo, và chu trình dữ liệu. Robot cũng đồng thời hồi quy đến các nguyên sai đã đề cập: mỗi quỹ đạo thế giới thực đều là dữ liệu đào tạo cải thiện mô hình thế giới, mỗi lần triển khai thất bại đều tiết lộ khoảng trống của phủ định mô phỏng, mỗi bài kiểm tra cơ thể mới mở rộng đa dạng kinh nghiệm vật lý có sẵn cho việc huấn luyện trước. Robot không chỉ là người tiêu thụ khắt khe nhất của các nguyên sai mà còn là một trong những nguồn tín hiệu cải tiến quan trọng của chúng.
Nếu nói rằng robot được sử dụng để kiểm tra nguyên sai "hành động vật lý thời gian thực", khoa học tự trị thử nghiệm điều gì đó hơi khác—sự suy luận liên tục qua nhiều bước cho hệ thống vật lý phức tạp nguyên nhân, kéo dài qua giờ hoặc ngày, kết quả thử nghiệm cần được giải thích, ngữ cảnh hóa, và được sử dụng để điều chỉnh chiến lược.

Chú thích hình ảnh: Cách tích hợp Neurosymbolic AI của năm môn nguyên sai cơ bản
Khoa học được động bởi AI là lĩnh vực sử dụng các nguyên sai cộng hưởng nhất. Một phòng thí nghiệm lái tự động cần biết về sự đại diện động học hóa học để dự báo thử nghiệm sẽ tạo ra gì; cần có hành động cơ thể để chuyển chất lỏng, định vị mẫu, vận hành thiết bị phân tích; cần có mô phỏng cho thử nghiệm tiền sàng và phân bổ thời gian thiết bị quý giá; cần có khả năng truyền hồ sơ mở rộng—phan quang, phổ màu, phổ khối lượng cùng với các cảm biến hóa học và sinh học ngày càng mới—để đại diện cho kết quả.
Nó cần bố trí nguyên sai của hệ thống vòng đóng thông minh hơn hết so với bất kỳ lĩnh vực nào khác: có thể duy trì quy trình làm việc nhiều vòng "giả định-thử nghiệm-phân tích-điều chỉnh" mà không cần can thiệp của con người, duy trì nguồn gốc, giám sát bảo mật, và điều chỉnh chiến lược dựa trên thông tin được tiết lộ ở mỗi vòng.
Không có lĩnh vực nào sử dụng sâu sắc những nguyên sai như vậy. Đó chính là lý do vì sao khoa học tự trị là "hệ thống" tiên tiến hơn, chứ không phải chỉ là tự động hóa phòng thí nghiệm phần mềm tốt hơn. Các công ty như Periodic Labs và Medra, mỗi công ty trong lĩnh vực khoa học vật liệu và sinh học đã kết hợp khả năng suy luận khoa học và khả năng xác minh vật lý, thực hiện lặp lại khoa học, và ngang nhiên tạo ra dữ liệu huấn luyện từ thực nghiệm.
Giá trị của các hệ thống như vậy rất rõ ràng từ cảm quan. Việc phát hiện vật liệu truyền thống từ ý tưởng đến thương mại hóa mất nhiều năm, trong lý thuyết, việc đẩy nhanh quy trình này có thể nén xuống rất nhiều so với thời gian đó. Miền hạn chế đang chuyển từ xung lập giả thiết (mô hình cơ bản có thể hỗ trợ tốt) sang sản xuất và xác minh (cần thiết bị vật lý, robot thực hiện, tối ưu hóa vòng đóng). Phòng thí nghiệm Lái tự động đã đặt ra để giải quyết điểm nghẽn này.
Tính độc lập là một đặc tính quan trọng khác của Khoa học Tự chủ — mà tồn tại trong tất cả các hệ thống thế giới vật lý — là vai trò của nó như một bộ não dữ liệu. Mỗi thí nghiệm chạy bằng SDL không chỉ tạo ra kết quả khoa học, mà còn tạo ra một tín hiệu huấn luyện được vật lý hóa và xác minh thông qua thực nghiệm.
Một lần đo lường về việc làm sao các polymer tinh khiết dưới điều kiện cụ thể đã tinh tế thế giới mô hình động học vật liệu; một lộ trình tổng hợp đã được xác minh đã trở thành dữ liệu huấn luyện cho lý luận vật lý; một thất bại đã được đặc trưng đã cho hệ thống trí tuệ biết dự đoán của nó bị lỗi ở đâu. Dữ liệu mà một nhà khoa học AI thực sự tạo ra từ thực nghiệm, không giống như văn bản internet hoặc đầu ra mô phỏng — nó cấu trúc hóa, nguyên nhân, và đã được chứng minh xác minh. Đây chính là dạng dữ liệu mà mô hình lý luận vật lý cần nhất và không có nguồn dữ liệu nào khác có thể cung cấp. Khoa học Tự chủ là con đường trực tiếp chuyển hóa hiện thực vật lý thành kiến thức cấu trúc, cải thiện toàn bộ hệ sinh thái AI vật lý.
Robot đưa AI ra khỏi hành động vật lý, Khoa học Tự chủ đưa AI ra khỏi nghiên cứu vật lý. Giao diện mới đưa nó ra khỏi trí tuệ nhân tạo và kết hợp trực tiếp với trí thông minh của con người, trải dài từ kính AR, dây đeo cổ tay EMG cho đến giao diện não máy cấy ghép.
Điều liên kết các thiết bị này không phải là một công nghệ đơn lẻ, mà là một chức năng chung: mở rộng băng thông và kiểu mẫu trong giao tiếp giữa trí thông minh của con người và hệ thống AI — và trong quá trình đó tạo ra dữ liệu tương tác con người-thế giới có thể sử dụng trực tiếp để xây dựng AI vật lý.

Chú thích hình ảnh: Từ kính AR đến giao diện não máy, phân hệ Giao diện Mới
Khoảng cách với kiểu mẫu thông thường không chỉ là thách thức mà còn là tiềm năng của lĩnh vực này. Mô hình ngôn ngữ ở mức khái niệm biết về các kiểu mẫu này, nhưng không tự nhiên quen với mô hình chuyển động âm thanh, hình học kết hợp của cảm quan mùi, hoặc động lực học thời gian của tín hiệu EMG.
Việc giải mã trình diễn của các tín hiệu này phải được học từ các kênh cảm quan đang mở rộng. Nhiều kiểu mẫu không có corpus chuẩn mực trên Internet, dữ liệu thường chỉ có thể tạo ra từ giao diện chính nó — có nghĩa là hệ thống và dữ liệu huấn luyện của nó đang tiến hóa cùng nhau, điều này không có trong AI ngôn ngữ.
Hiệu suất gần đây của lĩnh vực này là việc AI có thể mặc được như một sản phẩm tiêu dùng nhanh chóng nổi lên. Kính AR có lẽ là ví dụ nổi bật nhất của dòng sản phẩm này, các thiết bị đeo với đầu vào chính là giọng nói hoặc thị giác cũng đang xuất hiện đồng thời.
Hệ sinh thái thiết bị tiêu dùng này không chỉ cung cấp một nền tảng phần cứng mới cho trí tuệ nhân tạo mở rộng vào thế giới vật lý, mà còn trở thành cơ sở hạ tầng cho dữ liệu thế giới vật lý. Một người đeo kính AI có thể liên tục tạo ra luồng video góc nhìn thứ nhất về cách con người định hướng trong môi trường vật lý, thao tác với vật thể và tương tác với thế giới; các thiết bị đeo có thể liên tục thu thập dữ liệu về nhận dạng sinh học và hoạt động. Số lượng thiết bị đeo AI đang trở thành một mạng lưới thu thập dữ liệu thế giới vật lý phân tán, ghi lại trải nghiệm vật lý của con người ở quy mô trước đây không thể thực hiện được.
Hãy tưởng tượng về quy mô của một thiết bị tiêu dùng mới giống như điện thoại thông minh - một thiết bị tiêu dùng mới trong cùng một quy mô cho phép máy tính cảm nhận thế giới theo một cách mới, đồng thời mở ra một lối đi lớn cho trí tuệ nhân tạo và thế giới vật lý tương tác.
Giao diện não-máy đại diện cho một ranh giới tiên tiến hơn nữa. Neuralink đã cấy ghép cho nhiều bệnh nhân, robot phẫu thuật và phần mềm giải mã đang được cải tiến. Stentrode trong thân mạch của Synchron đã được sử dụng để người dùng bị liệt điều khiển môi trường số và vật lí. Echo Neurotechnologies đang phát triển một hệ thống BCI để phục hồi ngôn ngữ, dựa trên nghiên cứu của họ về giải mã giọng cao độ.
Các công ty mới như Nudge cũng được thành lập, tụ tập các tài năng và vốn để tạo ra nền tảng giao diện não mới và tương tác não. Các cột mốc công nghệ ở mức nghiên cứu cũng đáng chú ý: vi mạch BISC đã biểu diễn ghi lưu trữ não không dây trên một chip duy nhất với 65536 điện cực; Đội ngũ BrainGate đã trực tiếp giải mã ngôn ngữ bên trong vùng vận động của não.
Qua kính AR, thiết bị đeo AI, thiết bị giọng thanh tức, BCI được cấy bên trong không phải chỉ là "chúng đều là các giao diện", mà là chúng cùng tạo ra một phổ tầng giữa trải nghiệm vật lý của con người và hệ thống trí tuệ nhân tạo - mỗi điểm trên phổ tầng đều hỗ trợ sự tiến triển liên tục của những nguyên tắc cơ bản đứng sau ba lĩnh vực chính trong bài viết này.
Robot được huấn luyện bằng video góc nhìn thứ nhất chất lượng cao từ hàng triệu người dùng kính AI, trước nghiệm tái vận hành và huấn luyện robot từ tập dữ liệu tái vận hành từ xa, là hai hoàn toàn khác biệt; trí tuệ nhân tạo trong phòng thí nghiệm phản hồi lệnh siêu thanh, và phòng thí nghiệm với kiểm soát bàn phím, là hai khái niệm hoàn toàn khác biệt về độ trễ và mịn; giải mã não của lịch sử thần kinh được huấn luyện qua dữ liệu BCI mật độ cao, cho kết quả về biểu diễn quy hoạch chuyển động không thể đạt được thông qua các kênh khác.
Giao diện mới là cơ chế để mở rộng chính kênh giác quan - nó tạo ra kênh dữ liệu giữa thế giới vật lý và trí tuệ nhân tạo mà trước đây không tồn tại. Sự mở rộng này do các công ty thiết bị tiêu dùng theo đuổi quy mô hóa kích cỡ, ngụ ý rằng bánh xe dữ liệu sẽ được thúc đẩy theo con đường người tiêu dùng chấp nhận.
Xem robot, khoa học tự trị, và giao diện mới như là các trường hợp khác nhau của cùng một hệ thống tiên tiến được tạo ra từ cùng một bộ nguyên tử, vì chúng cùng tương tác lẫn nhau và tạo ra hiệu ứng lãi kép.

Chú thích: Bánh xe quay phản hồi giữa robot, khoa học tự trị, và giao diện mới
Robot Tạo Điều Kiện Cho Khoa Học Tự Trị. Phòng thí nghiệm lái tự động về bản chất là một hệ thống robot. Các khả năng hoạt động được phát triển cho robot tổng quát—việc nắm vững linh hoạt, xử lý chất lỏng, xác định chính xác, thực hiện các nhiệm vụ đa bước—có thể được trực tiếp chuyển giao sang tự động hóa trong phòng thí nghiệm. Mỗi bước tiến mỗi mô hình robot đạt được về mặt tổng quát và ổn định, phạm vi giao thức thí nghiệm mà SDL có thể thực hiện tự động sẽ mở rộng thêm một vòng. Mỗi tiến bộ trong việc học của robot đều giảm chi phí thực hiện thí nghiệm tự động và tăng hơn nữa khả năng xử lý của nó.
Khoa Học Tự Trị Tạo Điều Kiện Cho Robot. Dữ liệu khoa học được tạo ra từ phòng thí nghiệm lái tự động—các số liệu vật lý đã được xác minh, các kết quả thí nghiệm nguyên nhân, cơ sở dữ liệu thuộc tính vật liệu—cung cấp dữ liệu huấn luyện có cấu trúc và cụ thể mà mô hình thế giới và kỹ thuật suy luận vật lý cần. Ngoài ra, các vật liệu và thiết bị cần thiết cho thế hệ robot kế tiếp (bộ cơ cấu thực thi tốt hơn, cảm biến xúc giác nhạy hơn, viên pin có mật độ năng lượng cao hơn và những thứ khác) chính là sản phẩm của khoa học vật liệu. Nền tảng tự khám phá tăng tốc sáng tạo vật liệu, trực tiếp ảnh hưởng lên việc chạy học của robot ở mức phần cứng.
Giao Diện Mới Tạo Điều Kiện Cho Robot. Thiết bị AR là cách thu thập dữ liệu về cách "con người nhận biết và tương tác với môi trường vật lý" một cách có thể mở rộng. Giao diện thần kinh tạo ra dữ liệu về ý định vận động của con người, lên kế hoạch nhận thức, xử lý giác quan. Những dữ liệu này cực kỳ quý giá đối với hệ thống học của robot, đặc biệt là khi xử lý các nhiệm vụ liên quan đến cộng tác giữa người và máy hoặc vận hành từ xa.
Đây cũng là một quan sát sâu hơn về bản chất tiến triển AI tiên tiến. Phong cách ngôn ngữ/mã lập trình đã tạo ra những thành tựu phi thường, vẫn đang trên đà tăng mạnh trong thời đại scaling. Nhưng vấn đề, loại dữ liệu, tín hiệu phản hồi, tiêu chuẩn đánh giá mới từ thế giới vật lý gần như vô tận. Đưa hệ thống AI vào thế giới vật lý—thông qua robot vận hành vật thể, phòng thí nghiệm vật liệu tổng hợp, giao diện giữa thế giới sinh học và vật lý—chúng ta đã mở rộng một trục scaling mới, bổ sung với cái sẵn có trong tương lai số học—và có khả năng cải thiện lẫn nhau.

Chú thích: Tương tác và nổi lên của các trục scaling vật lý AI
Các hệ thống này sẽ tạo ra những hành vi khó dự đoán chính xác — định nghĩa của sự xuất hiện là khả năng tương tác hợp nhất từ các thành phần độc lập nhưng kết hợp chưa từng thấy trước đó. Nhưng luật lịch sử là lạc quan. Mỗi lần hệ thống AI đạt được một dạng tương tác mới với thế giới — như thị giác máy tính, nói chuyện, đọc viết — khả năng bước tiến đều vượt xa cộng của mỗi cải tiến riêng lẻ. Sự chuyển đổi sang các hệ thống thế giới vật lý đại diện cho sự chuyển tiếp lần tới của hình thái này. Trên cương vị này, những nguyên tử mà bài viết này đề cập đang được xây dựng trong khoảnh khắc này, có thể làm cho các hệ thống trí tuệ nhân tạo tiên tiến hiểu biết, suy luận, và ảnh hưởng đến thế giới vật lý, mở khóa một lượng lớn giá trị và tiến triển trong thế giới vật lý.
Liên kết gốc
Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:
Nhóm Telegram đăng ký: https://t.me/theblockbeats
Nhóm Telegram thảo luận: https://t.me/BlockBeats_App
Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia