TL;DR
· Nhà nghiên cứu robot Animesh Garg đặt câu hỏi về việc ngành công nghiệp coi số giờ vận hành từ xa là thước đo năng lực mô hình.
· Chi phí thu thập dữ liệu robot cao, dữ liệu triển khai thường đến từ các kịch bản hẹp, và các mẫu lặp lại nhanh chóng trở nên đắt đỏ.
· Có giá trị hơn có thể là các thất bại dài hạn, phạm vi nhiệm vụ và các mẫu mới lạ, thay vì tổng thời gian vận hành.
Animesh Garg, nhà nghiên cứu robot từng và đang giảng dạy tại Đại học Toronto, hiện là giáo sư tại Viện Công nghệ Georgia, trong một bài viết tựa đề "Moneyball for Physical AI", đã so sánh cuộc đua dữ liệu trong lĩnh vực trí tuệ nhúng vật lý với khoảnh khắc "Moneyball" trong lịch sử bóng chày.
Ông muốn thách thức một câu chuyện gọi vốn ngày càng phổ biến: các công ty robot chỉ cần tích lũy thêm nhiều giờ vận hành từ xa, nhiều lần triển khai thực tế, nhiều giờ chạy hơn là có thể tạo ra vòng xoáy dữ liệu. Đối với nhà đầu tư, đây không phải là cuộc tranh luận học thuật suông. Cấu trúc chi phí, tốc độ thương mại hóa và rào cản mô hình của các công ty trí tuệ nhúng vật lý thường được gói gọn trong bốn chữ "vòng lặp dữ liệu". Nếu tổng số giờ tích lũy không tương đương với tiến bộ mô hình hiệu quả, thị trường cần đánh giá lại tài sản dữ liệu của các công ty này.
Garg đã mượn phép so sánh kinh điển từ "Moneyball". Năm 2002, đội Oakland Athletics đã thắng 103 trận với một trong những đội hình có lương thấp nhất giải đấu, chìa khóa không phải là mua cầu thủ đắt hơn, mà là phát hiện ra thị trường đã định giá sai giá trị cầu thủ. Các tuyển trạch viên truyền thống coi trọng tỷ lệ đánh bóng, cướp cơ sở và tư thế, nhưng chỉ số giải thích khả năng ghi điểm của đội tốt hơn lại là tỷ lệ lên cơ sở.
Theo ông, Physical AI cũng có thể đang ở giai đoạn tương tự. Ngành công nghiệp thừa nhận dữ liệu là điều kiện cần để đạt được mô hình robot đa năng, nhưng lại dễ dàng coi các chỉ số dễ trình diễn nhất thành chỉ số quan trọng nhất: tổng số giờ vận hành từ xa, số lượng quỹ đạo hướng dẫn, số lượng robot triển khai, thời gian chạy trong kịch bản sản xuất.
Cách cung cấp dữ liệu robot và dữ liệu văn bản không giống nhau. Mô hình ngôn ngữ lớn có thể thu thập lượng lớn dữ liệu văn bản chi phí thấp từ internet, kho mã nguồn, sách và trang web, nút thắt chủ yếu đến từ sức mạnh tính toán, làm sạch và hiệu quả huấn luyện. Mô hình robot cần dữ liệu có tương tác vật lý, phản hồi hành động và thay đổi môi trường, mỗi giờ dữ liệu hiệu quả đều phải được tạo ra thực tế, đằng sau đó là chi phí thiết bị, nhân lực, địa điểm, cảm biến, xử lý thất bại và an toàn.
Nhà nghiên cứu robot Ken Goldberg từng dùng "khoảng cách dữ liệu 100.000 năm" để mô tả khoảng cách giữa dữ liệu robot và dữ liệu AI quy mô internet. Chính xác hơn, dữ liệu văn bản và hình ảnh mà các mô hình ngôn ngữ thị giác lớn hiện đại tiêu thụ trong quá trình huấn luyện, nếu quy đổi thành thời gian đọc hoặc xem của con người, tương đương khoảng 100.000 năm, trong khi robot thiếu dữ liệu tương tác thực tế ở quy mô tương tự. Nhận định này không đặt ra ngưỡng chính xác cho mô hình robot, mà nhắc nhở ngành công nghiệp: dữ liệu tương tác thế giới thực không thể được thu thập với chi phí thấp như văn bản web.
Đây cũng là lý do Garg phản đối câu chuyện "điều khiển từ xa kiểu nhà máy mồ hôi". Việc huy động một lượng lớn lao động điều khiển từ xa có thể tạo ra các mẫu huấn luyện giàu hành động, nhưng nếu công ty chỉ đánh giá dữ liệu dựa trên tổng số giờ, nguồn vốn có thể chảy vào các mẫu lặp lại, có độ khó thấp và mật độ thông tin thấp, thay vì các tình huống có khả năng giảm tỷ lệ thất bại cao nhất.
Trong phân loại của Garg, dữ liệu Physical AI được chia thành ba loại chính: dữ liệu quan sát, dữ liệu can thiệp và dữ liệu triển khai. Tất cả đều có thể hữu ích, nhưng chi phí, ràng buộc và mật độ thông tin khác nhau rất nhiều.
Loại đầu tiên là dữ liệu quan sát, chẳng hạn như video góc nhìn thứ nhất hoặc thứ ba. Ưu điểm của nó là chi phí thấp, phạm vi phủ rộng, giúp mô hình hiểu được vật thể, không gian, kết quả hành động và phân bố môi trường. Nhược điểm cũng rất rõ: mô hình có thể thấy điều gì xảy ra với người hoặc vật thể, nhưng chưa chắc biết robot nên thực hiện hành động nào trong một trạng thái nhất định.
Loại thứ hai là dữ liệu can thiệp, tức là các quỹ đạo từ trạng thái đến hành động được tạo ra thông qua điều khiển từ xa, dạy kèm và can thiệp thủ công. Loại dữ liệu này trực tiếp hơn cho việc huấn luyện robot, vì nó chứa chuỗi "thấy gì, di chuyển thế nào, điều gì xảy ra sau khi di chuyển". Cái giá phải trả là mỗi quỹ đạo chất lượng cao đều phải mua bằng tiền, chi phí nhân lực và thiết bị khó giảm nhanh như dữ liệu phần mềm.
Loại thứ ba là dữ liệu triển khai, tức là dữ liệu đo từ xa được tạo ra khi robot hoạt động trong các kịch bản thương mại thực tế. Nghe có vẻ gần nhất với bánh đà thương mại: robot vừa làm việc, vừa kiếm tiền, vừa tạo ra dữ liệu huấn luyện. Nhưng có một cái bẫy thống kê ở đây.
Các kịch bản robot được triển khai đầu tiên ngày nay thường là những kịch bản ít thay đổi nhất, quy trình cố định nhất và rủi ro dễ kiểm soát nhất, chẳng hạn như kho bãi có cấu trúc cao, nhà máy hoặc môi trường tác vụ đơn lẻ. Số lượng dữ liệu sản xuất này có thể lớn, nhưng phân bố hẹp và độ lặp lại cao. Một khi mô hình đã học được các quy luật cục bộ, thông tin mới thu được từ mỗi giờ hoạt động thêm sẽ giảm dần.
Dữ liệu triển khai không phải là vô giá trị. Thứ thực sự có giá trị thường không phải là các đoạn thông thường "hoàn thành nhiệm vụ thành công" với số lượng lớn, mà là các trường hợp thất bại, kẹt, vật thể bất thường, điều kiện biên và nhiễu loạn hiếm gặp. Vấn đề là, các mẫu đuôi dài này không xuất hiện ổn định theo nhịp độ mà công ty mong muốn, và chi phí phát hiện, sàng lọc cũng như xem xét lại cao hơn.
Garg khá thận trọng khi tham khảo quy luật scaling của mô hình ngôn ngữ: tăng dữ liệu thường dẫn đến giảm độ mất mát của mô hình, nhưng lợi ích giảm dần. Nếu các mẫu bị lặp lại, gần như lặp lại hoặc đến từ cùng một phân bố hẹp, sự hỗ trợ từ dữ liệu mới sẽ giảm nhanh hơn.
Áp dụng vào lĩnh vực robot, vấn đề này trực quan hơn. Một robot học cách lấy một hộp đóng gói cố định từ một kệ cố định, vài nghìn lần dạy kèm, thất bại và sửa lỗi đầu tiên có thể rất có giá trị. Một khi hành động, vật thể, ánh sáng và đường đi đã được thu thập lặp đi lặp lại, dữ liệu mới giống như sao chép các kinh nghiệm cục bộ đã học được.
Trong quá trình huấn luyện mô hình ngôn ngữ đã có kinh nghiệm tương tự: dữ liệu lặp lại và gần như lặp lại sẽ lãng phí ngân sách huấn luyện, và việc lặp lại quá mức còn có thể làm suy giảm khả năng tổng quát hóa. Garg không áp dụng trực tiếp những kết luận này vào huấn luyện robot, mà dùng chúng để chỉ ra một hướng đi: đo lường giá trị dữ liệu không thể chỉ dựa vào số lượng, mà còn phải xem xét mức độ khác biệt giữa các mẫu.
Đối với Physical AI, tính đa dạng có ít nhất hai lớp ý nghĩa. Thứ nhất là để mô hình tiếp xúc với nhiều vật thể, không gian, chất liệu, ánh sáng, che khuất và cách thức thao tác hơn. Thứ hai là tránh trường hợp mô hình hoạt động tốt trong một phân bố nhiệm vụ quá đơn giản, nhưng lại thất bại khi chuyển sang các kịch bản hơi khác một chút.
Do đó, các trường hợp thất bại ở phần đuôi dài trở nên then chốt. Thế giới vật lý thực tế không phân bố đồng đều; các bất thường tần suất thấp thường quyết định tính khả dụng thương mại: vật thể đặt lệch một chút, bao bì biến dạng, bề mặt phản chiếu, tay kẹp bị trượt, con người đột nhiên can thiệp, cảm biến bỏ sót, ma sát mặt đất thay đổi. Dù mô hình có hoạt động tốt trên các mẫu thông thường đến đâu, nếu không xử lý được các sự kiện ở đuôi này, việc triển khai vẫn sẽ bị kìm hãm bởi một số ít thất bại.
Điều mà bài viết này thực sự thách thức là lộ trình thương mại hóa phổ biến của các công ty AI nhúng: đầu tiên triển khai robot trong các kịch bản hẹp, sử dụng sự can thiệp từ xa của con người để đảm bảo tính khả dụng, đồng thời thu thập dữ liệu sản xuất, sau đó dùng dữ liệu này để huấn luyện mô hình mạnh hơn, mở rộng ra nhiều kịch bản hơn.
Garg gọi loại lộ trình này là tư duy "neo-integrator". Nó cố gắng vòng qua chi phí thu thập dữ liệu thuần túy, đưa robot vào sản xuất thương mại, để doanh thu vận hành bù đắp chi phí dữ liệu. So với việc xây dựng các nhà máy vận hành từ xa chuyên dụng, con đường này nghe có vẻ hiệu quả hơn.
Nhưng bánh đà chỉ hoạt động với một tiền đề: dữ liệu được tạo ra từ các kịch bản thương mại ban đầu phải đủ mới, đủ đa dạng, để giúp mô hình chuyển đổi sang nhiều nhiệm vụ hơn. Nếu kịch bản triển khai chỉ là các nhiệm vụ hẹp, ít biến động, entropy thấp và được tùy chỉnh kỹ thuật mạnh, dữ liệu sẽ nhanh chóng bão hòa. Công ty có thể không nhận được bánh đà năng lực tổng quát, mà là một tập hợp các dự án tùy chỉnh cần tích hợp, bảo trì và xử lý bất thường liên tục.
Điều này sẽ dẫn đến hai loại chi phí. Thứ nhất, mỗi khi bước vào một kịch bản mới, đều phải đầu tư vào cải tạo môi trường, thích ứng quy trình, xử lý thất bại và cơ chế an toàn. Thứ hai, nếu bản thân việc triển khai chưa đạt điểm hòa vốn, mở rộng quy mô không nhất thiết là thu thập dữ liệu chi phí thấp, mà cũng có thể là dùng lỗ để đổi lấy một lượng lớn các mẫu có tính mới thấp.
Vì vậy, triển khai sớm không phải là vô ích, mà cần được xem xét kỹ lưỡng hơn: nó mang lại bao nhiêu phạm vi nhiệm vụ mới, tạo ra bao nhiêu mẫu thất bại và bất thường, những mẫu này có thể chuyển đổi sang các kịch bản khác không, và sau khi trừ đi chi phí phần cứng, nhân lực, bảo trì và tích hợp, mỗi đô la bỏ ra mua được bao nhiêu cải tiến mô hình.
Lời khuyên của Garg không phải là ngừng thu thập dữ liệu, mà là thay đổi thước đo đánh giá. Tổng số giờ vận hành, giờ điều khiển từ xa và số lượng quỹ đạo có thể được dùng làm chỉ số vận hành, nhưng không nên trực tiếp coi là sự tiến bộ của mô hình.
Các câu hỏi có sức giải thích hơn bao gồm: Khi nào dữ liệu của một nhiệm vụ đơn lẻ bão hòa, chi phí tích hợp kỹ thuật cho một nhiệm vụ mới là bao nhiêu, dữ liệu bao phủ bao nhiêu kịch bản và cụm hành động khác nhau, trong dữ liệu sản xuất có bao nhiêu mẫu dịch chuyển phân phối thực sự và mẫu bất thường, và trong luồng triển khai có bao nhiêu đoạn thành công thông thường cần được lọc bỏ thay vì tiếp tục đưa vào mô hình.
Tương ứng với ba loại dữ liệu, việc phân bổ vốn cũng sẽ khác nhau. Dữ liệu quan sát nên ưu tiên theo đuổi chi phí thấp, tính đa dạng và phạm vi bao phủ rộng, nhằm mở rộng ranh giới năng lực cơ bản. Dữ liệu điều khiển từ xa và dữ liệu hướng dẫn có chi phí cao, sau khi đạt đến độ bão hòa của một nhiệm vụ đơn lẻ, nên chuyển ngân sách sang nhiều nhiệm vụ hơn, thay vì tiếp tục lặp lại cùng một hành động. Dữ liệu triển khai nên tập trung lọc ra các mẫu thất bại, điều kiện biên và ngoài phân phối, đồng thời loại bỏ một lượng lớn bản ghi vận hành thông thường có mật độ thông tin thấp.
Quan điểm này có tác động thực tế đến câu chuyện định giá của Physical AI. Một công ty sở hữu nhiều robot hơn, thời gian vận hành dài hơn và đội ngũ điều khiển từ xa lớn hơn, không tự động có nghĩa là có rào cản mô hình mạnh hơn. Năng lực khó sao chép hơn có thể là liên tục tìm ra dữ liệu đuôi dài có giá trị cao, xác định khi nào một loại dữ liệu nào đó bão hòa, và bao phủ nhiều phân phối nhiệm vụ hơn với chi phí thấp hơn.
Tuy nhiên, đây vẫn chỉ là một góc nhìn về phân bổ vốn, chưa phải là kết luận của ngành. Liệu mô hình robot có xuất hiện lợi suất quy mô tương tự như mô hình ngôn ngữ hay không, liệu dữ liệu triển khai có thể liên tục tạo ra thông tin mới trong một số kịch bản chiều cao hay không, và hiệu quả chuyển giao giữa các nhiệm vụ khác nhau cao đến đâu, tất cả đều cần được trả lời bằng nhiều kết quả thực nghiệm hơn.
Lời nhắc nhở của Garg tập trung vào một vấn đề cụ thể hơn: "Chỉ số vàng" của Physical AI có lẽ không phải là số giờ dữ liệu, mà là số lượng mẫu mới mua được bằng mỗi đô la. Đối với các công ty robot vẫn đang kể câu chuyện về vòng xoáy dữ liệu, điều thị trường cuối cùng muốn xem có lẽ không phải là tổng thời gian vận hành dài bao nhiêu, mà là trong khoảng thời gian đó đã tạo ra bao nhiêu thông tin mới.
Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:
Nhóm Telegram đăng ký: https://t.me/theblockbeats
Nhóm Telegram thảo luận: https://t.me/BlockBeats_App
Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia