Nguồn gốc: Wired
Tác giả gốc: Will Knight
Các nhà nghiên cứu đã sử dụng các cụm GPU phân bổ trên toàn thế giới và kết hợp dữ liệu công khai và riêng tư để đào tạo thành công một loại mô hình ngôn ngữ lớn (LLM) mới - một bước đột phá có thể lật đổ mô hình xây dựng trí tuệ nhân tạo chính thống hiện nay.
Hai công ty khởi nghiệp AI đi theo con đường không theo khuôn mẫu, Flower AI và Vana, đã hợp tác để tạo ra mô hình mới này, có tên là Collective-1. Flower AI đã phát triển công nghệ cho phép phân phối các nhiệm vụ đào tạo tới hàng trăm máy tính được kết nối mạng và các giải pháp của công ty đã được nhiều công ty sử dụng để đào tạo các mô hình AI mà không cần đến sức mạnh tính toán hoặc dữ liệu tập trung. Vana cung cấp nguồn dữ liệu đa dạng bao gồm nền tảng X, Reddit và tin nhắn riêng tư Telegram.
Theo tiêu chuẩn hiện đại, Collective-1 khá nhỏ — 7 tỷ tham số của nó (cùng nhau xác định sức mạnh của một mô hình) còn rất xa so với hàng trăm tỷ tham số trong các mô hình tiên tiến nhất hiện nay, chẳng hạn như các mô hình hỗ trợ ChatGPT, Claude và Gemini.
Nic Lane, một nhà khoa học máy tính tại Đại học Cambridge và là đồng sáng lập của Flower AI, lưu ý rằng phương pháp phân tán này có khả năng khắc phục những hạn chế về quy mô của Collective-1. Ông tiết lộ rằng Flower AI đang đào tạo một mô hình 30 tỷ tham số bằng cách sử dụng dữ liệu truyền thống và có kế hoạch phát triển một mô hình 100 tỷ tham số vào cuối năm nay — một cấp độ gần với các công ty dẫn đầu ngành. "Điều này có khả năng làm thay đổi cách mọi người nghĩ về AI và chúng tôi đang thúc đẩy điều đó", Lane cho biết. Công ty khởi nghiệp này cũng kết hợp hình ảnh cùng với âm thanh vào chương trình đào tạo của mình để tạo ra các mô hình đa phương thức.
Mô hình phân tán cũng có thể định hình lại động lực quyền lực trong ngành AI.
Hiện nay, các công ty AI dựa vào hai trụ cột để xây dựng mô hình: dữ liệu đào tạo khổng lồ và sức mạnh tính toán khổng lồ tập trung tại các trung tâm dữ liệu - các trung tâm dữ liệu này được kết nối với các cụm GPU tiên tiến thông qua mạng cáp quang tốc độ cực cao. Họ cũng dựa rất nhiều vào các tập dữ liệu có sẵn công khai được lấy từ web (mặc dù một số trong số này liên quan đến tài liệu có bản quyền), bao gồm các trang web và nội dung sách.
Mô hình này có nghĩa là chỉ những công ty có nguồn tài chính mạnh và các quốc gia có quyền truy cập vào số lượng lớn chip cao cấp mới có thể phát triển các mô hình tiên tiến có giá trị nhất. Ngay cả các mô hình nguồn mở như Llama của Meta và R1 của Deep Quest cũng đến từ các công ty có trung tâm dữ liệu lớn. Phương pháp phân tán cho phép các doanh nghiệp vừa và nhỏ cũng như các trường đại học phát triển AI sinh thái bằng cách tích hợp các nguồn lực phi tập trung hoặc cho phép các quốc gia thiếu cơ sở hạ tầng truyền thống xây dựng các mô hình mạnh hơn bằng cách kết nối nhiều trung tâm dữ liệu.
Lane tin rằng ngành công nghiệp AI sẽ ngày càng ưa chuộng những phương pháp tiếp cận mới vượt qua những hạn chế của một trung tâm dữ liệu duy nhất. "So với mô hình trung tâm dữ liệu, giải pháp phân tán có thể mở rộng sức mạnh tính toán một cách tinh tế hơn", ông giải thích.
Helen Toner, chuyên gia quản trị AI tại Trung tâm An ninh và Công nghệ mới nổi, nhận xét rằng giải pháp của Flower AI "có khả năng tác động đáng kể đến sự cạnh tranh và quản trị AI". Bà chỉ ra: "Mặc dù vẫn khó có thể bắt kịp công nghệ tiên tiến nhất, nhưng đây là một chiến lược khá có giá trị để theo kịp nhanh chóng".
Cốt lõi của đào tạo AI phân tán nằm ở việc tái cấu trúc logic phân bổ sức mạnh tính toán. Việc xây dựng một mô hình ngôn ngữ lớn đòi hỏi phải nhập một lượng lớn văn bản vào hệ thống và điều chỉnh các tham số để tạo ra phản hồi hiệu quả. Các trung tâm dữ liệu truyền thống phân chia các tác vụ đào tạo giữa các GPU khác nhau để thực hiện và sau đó tích hợp chúng theo định kỳ vào một mô hình chính thống nhất.
Công nghệ mới cho phép phân phối công việc từng được thực hiện trong các trung tâm dữ liệu lớn đến các thiết bị phần cứng cách nhau vài dặm và chỉ được kết nối bằng mạng thông thường.
Các ông lớn trong ngành cũng đang khám phá phương pháp học tập phân tán. Năm ngoái, các nhà nghiên cứu của Google đã đề xuất một khuôn khổ mới có tên là "Kết hợp đường dẫn phân tán" (DiPaCo), giúp cải thiện hiệu quả đào tạo phân tán. Để xây dựng các mô hình như Collective-1, Lane và các học giả Trung Quốc và Anh đã cùng nhau phát triển một công cụ mới có tên là Photon, sử dụng phương pháp biểu diễn dữ liệu hiệu quả hơn và giải pháp tích hợp chia sẻ đào tạo. Lane thừa nhận rằng mặc dù quá trình này chậm hơn so với đào tạo truyền thống nhưng nó linh hoạt hơn và có thể bổ sung đào tạo tăng tốc phần cứng bất cứ lúc nào.
Photon được phát triển bởi các nhà nghiên cứu từ Đại học Bưu chính Viễn thông Bắc Kinh và Đại học Chiết Giang và đã được mở mã nguồn vào tháng trước. Đối tác Vana của Flower AI đang nỗ lực cho phép người dùng chia sẻ dữ liệu cá nhân với các nhà xây dựng AI theo những cách mới — phần mềm của họ cho phép người dùng đóng góp dữ liệu riêng tư từ các nền tảng như X và Reddit, chỉ định cách sử dụng và thậm chí nhận được phần thưởng tài chính.
Người đồng sáng lập Vana, Anna Kazlauskas cho biết động thái này nhằm mục đích khai thác tiềm năng dữ liệu chưa được khai thác đồng thời trao cho người dùng quyền kiểm soát nhiều hơn. "Lần đầu tiên, những dữ liệu không công khai này, thường không có sẵn để sử dụng trong các mô hình AI, được sử dụng để đào tạo các mô hình cơ bản và người dùng có thể sở hữu các quyền và lợi ích của các mô hình được tạo ra bằng dữ liệu của họ", bà nhấn mạnh.
Mirco Musolesi, một nhà khoa học máy tính tại University College London, chỉ ra rằng giá trị cốt lõi của đào tạo phân tán nằm ở việc mở khóa các loại dữ liệu mới: "Việc áp dụng nó vào các mô hình tiên tiến cho phép ngành công nghiệp AI sử dụng dữ liệu nhạy cảm phi tập trung trong các lĩnh vực như y học và tài chính để đào tạo trong khi tránh được rủi ro tập trung dữ liệu".
Liên kết gốc
Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:
Nhóm Telegram đăng ký: https://t.me/theblockbeats
Nhóm Telegram thảo luận: https://t.me/BlockBeats_App
Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia