NVIDIA đã ra mắt mô hình NVIDIA NeMo tron3 Nano Omni: có khả năng xử lý thống nhất video, âm thanh, hình ảnh và văn bản, tăng cường hiệu quả suy luận đa mô đề.

Tin BlockBeats, vào ngày 29 tháng 4, NVIDIA chính thức ra mắt Nemotron 3 Nano Omni, đây là thành viên mới trong dòng Nemotron 3, sẽ tích hợp suy luận đa dạng tích hợp vào một mô hình nguồn mở hiệu quả duy nhất. NVIDIA cho biết, hệ thống agentic thường cần thực hiện suy luận vòng lặp hành động đơn nhằm cảm nhận và hành động giữa màn hình, tài liệu, âm thanh, video và văn bản, nhưng vẫn phụ thuộc vào chuỗi mô hình phân mảnh - các công nghệ xác thực tách biệt của hình ảnh, âm thanh và văn bản. Điều này làm tăng số bước suy luận và độ phức tạp sắp xếp, làm tăng chi phí suy luận, đồng thời làm suy yếu tính nhất quán của ngữ cảnh chéo-modal. Nemotron 3 Nano Omni được phát triển để thay thế chuỗi công nghệ phân mảnh này về hình ảnh-ngôn ngữ-âm thanh, hoạt động như một công cụ cảm nhận đa dạng và ngữ cảnh phụ trợ trong hệ thống agentic.

Ở mức độ độ chính xác, Nemotron 3 Nano Omni đã đạt được thành tích hàng đầu trên bảng xếp hạng trí tuệ tài liệu, đồng thời cũng dẫn đầu trên bảng xếp hạng hiểu biết video và âm thanh. Trên MediaPerf, tiêu chuẩn ngành mở để đánh giá mô hình hiểu biết video, Nemotron 3 Nano Omni đã đạt được lưu lượng xử lý cao nhất cho mỗi nhiệm vụ, và có chi phí suy luận thấp nhất cho nhiệm vụ đánh dấu cấp video.

Ở mức độ hiệu suất, với ngưỡng tương tác người dùng cố định, đối với suy luận video, Nemotron 3 Nano Omni duy trì lưu lượng hệ thống tổng cộng cao hơn, so với các mô hình omni nguồn mở khác, có thể đạt được dung lượng hệ thống hiệu quả lên đến khoảng 9,2 lần; đối với suy luận nhiều tài liệu, có thể đạt được dung lượng hệ thống hiệu quả lên đến khoảng 7,4 lần. NVIDIA cho biết, mô hình này được phát triển để thay thế kiến trúc nối mô hình đa truyền thống, giảm độ phức tạp và chi phí suy luận, thúc đẩy ứng dụng AI đa dạng ngữ cảnh trong lĩnh vực tài chính, y tế, nghiên cứu và truyền thông.

Liên kết gốc

Báo lỗi/Báo cáo

Bài viết nổi bật