Theo giám sát của Beating, xAI chính thức phát hành mô hình tạo video từ hình ảnh và văn bản Grok Imagine Video 1.5, triển khai đầy đủ trên API (grok-imagine-video-1.5), giao diện web (grok.com/imagine) và ứng dụng di động.
Mô hình cho phép tạo đồng bộ âm thanh và video, trong một lần suy luận duy nhất đồng thời tạo ra hiệu ứng âm thanh, âm thanh môi trường và hội thoại nhân vật, cải thiện độ rõ nét của giọng nói và tối ưu hóa đồng bộ khẩu hình. Đồng thời, mô hình cải tiến công cụ vật lý và tính nhất quán chuyển động, nâng cao độ tin cậy của chuyển động vật thể và trọng lượng vật lý trong các cảnh quay dài, giảm thiểu các hiện tượng giả tạo như biến dạng hình ảnh. Về tốc độ tạo, phiên bản nhẹ Video 1.5 Fast rút ngắn thời gian tạo video 720p dài 6 giây xuống còn khoảng 25 giây.
Quy trình làm việc trên giao diện web cũng được cập nhật đồng bộ: bổ sung tính năng Quản lý dự án (Projects) để phân loại tài liệu, hỗ trợ đa tác nhân song song (Multiple Agents) chạy nhiều prompt, và cung cấp tính năng tìm kiếm ngữ nghĩa trong thư viện phương tiện (Search). Nhóm của nghệ sĩ kỹ thuật số David Thompson đã sử dụng Grok Imagine 1.5 để sản xuất trailer phim hoàn toàn do AI tạo ra mang tên Odyssey.
