Theo giám sát từ Beating AI, NVIDIA và nhóm nghiên cứu MIT đã phát hành một hệ thống huấn luyện mới sau mô hình ngôn ngữ lớn với tên gọi Lightning OPD (Offline Policy Distillation). Công nghệ này thông qua việc tính toán trước các xác suất logarithm của mô hình giáo viên (log-probabilities), đã hoàn toàn loại bỏ việc phải duy trì một dịch vụ giáo viên thời gian thực trực tuyến suốt quá trình huấn luyện truyền thống, từ đó tăng hiệu quả huấn luyện lên gấp 4 lần.
Trước đó, phương pháp truyền nguyên tắc chuẩn (OPD) đòi hỏi máy chủng vận hành mô hình học trò và giáo viên đồng thời trên một máy. Khi kích thước mô hình tăng lên, cách tiếp cận này thường gặp sự cố tràn bộ nhớ (OOM). Lightning OPD đã giải phóng toàn bộ sức mạnh tính toán GPU cho mô hình học trò. Trong quá trình thử nghiệm trên 8 card đồ hoạ H100 trên một nút, Lightning OPD đã thành công huấn luyện mô hình giảng viên cho mô hình MoE lớn Qwen3-30B-A3B-Base (tổng cộng 300 tỷ tham số), đạt điểm số 71.0 trên bài kiểm tra AIME 2024; so với đó, OPD chuẩn trực tiếp gặp sự cố tràn bộ nhớ trên cùng cấu hình phần cứng. Trên quy mô nhỏ hơn với Qwen3-8B, hệ thống chỉ mất 30 giờ tính toán trên 30 card GPU để đạt điểm 69.9.
Trong bài báo, nhóm nghiên cứu đã chỉ ra một tiền đề ẩn của việc thực hiện truyền nguyên tắc ngoại tuyến: "Nhất quán giữa giáo viên và học trò". Mô hình học trò phải sử dụng cùng một mô hình giáo viên trong quá trình điều chỉnh giám sát (SFT) và giai đoạn truyền nguyên tắc tiếp theo. Nếu không tuân thủ nguyên tắc này, hướng dẫn sẽ bị lệch, dẫn đến hiệu suất của mô hình sụp đổ cuối cùng.
