Theo theo giám sát của BeatOne, nhóm siêu trí tuệ MAI của Microsoft đã phát hành MAI-Image-2-Efficient, một mô hình hình ảnh văn bản tối ưu hóa cho môi trường sản xuất. So với phiên bản cờ vây trước đó MAI-Image-2, mô hình mới tăng tốc độ tạo ra 22%, thông lượng trên mỗi thẻ đồng thời tăng gấp 4 lần, giá API giảm khoảng 41%: giá nhập liệu văn bản là 5 USD/triệu token, giá xuất hình ảnh là 19.5 USD/triệu token.
Tốc độ là điểm bán hàng cốt lỗi của mô hình này. So sánh trễ trung bình do Microsoft cung cấp: MAI-Image-2-Efficient là 13.7 giây, MAI-Image-2 là 17.5 giây, Google Gemini 3 Pro Image là 19.1 giây, GPT-Image-1.5-High là 41.4 giây. Microsoft khẳng định mô hình trung bình nhanh hơn khoảng 40% so với các mô hình văn bản hình ảnh chính thống khác.
Microsoft định vị hai mô hình này như là bổ sung lẫn nhau: phiên bản Hiệu quả phù hợp cho các tình huống cần đồng thời xử lý hàng loạt và tạo ra hình ảnh theo thời gian thực, chẳng hạn như hình ảnh sản phẩm, tư liệu tiếp thị, nguyên mẫu giao diện người dùng; phiên bản cờ vây được sử dụng cho các tình huống yêu cầu chi tiết cao nhất, chẳng hạn như chân dung, cảnh thực và văn bản trong hình ảnh phức tạp. MAI-Image-2-Efficient đã được triển khai trên Microsoft Foundry và MAI Playground, đồng thời đang mở rộng sang Copilot và Bing, phiên bản PowerPoint sẽ sớm ra mắt sau đó.
