Theo theo dõi từ BeatByte, Nous Research đã phát hành cơ chế huấn luyện trước bằng ngữ cảnh dài Lighthouse Attention. Khi xử lý văn bản dài 512K trên một card đồ hoạ B200, tốc độ tính toán của phương pháp này nhanh khoảng 17 lần so với cơ chế truyền thống và đạt được tăng tốc huấn luyện end-to-end từ 1.4 đến 1.7 lần ở văn bản dài 98K.
Cơ chế chú ý truyền thống yêu cầu tính toán tất cả các mối quan hệ hai ngữ cảnh với nhau, khi văn bản dài lên, chi phí tính toán tăng một cách bình phương. Lighthouse Attention chuyển sang phương pháp sàng lọc trước rồi tính toán chính xác sau. Ban đầu, nó sẽ khám phá nhanh chóng tóm tắt nén của văn bản ở các cấp độ khác nhau, thông qua việc đánh giá gạch chân để chọn ra các đoạn quan trọng ghép thành văn bản ngắn, sau đó trực tiếp chuyển cho toán tử hiệu quả FlashAttention xử lý. Do logic sàng lọc đã được tách rời hoàn toàn khỏi phần cốt lõi, các nhà phát triển không cần phải mất công viết mã cấp thấp, cũng như không cần tăng thêm mục tiêu huấn luyện.
Trong quá khứ, các giải pháp tăng tốc tương tự thường có tác dụng phụ, khi mô hình quen thuộc với việc đọc nhảy, dễ mất khả năng đọc kỹ từng chữ. Để tránh rơi vào bẫy này, nhóm phát triển đã cho mô hình chạy qua phần lớn tiến trình ở chế độ tăng tốc, chỉ chuyển lại tính toán chú ý toàn cục truyền thống ở cuối quá trình huấn luyện để mô hình có thời gian thích nghi ngắn. Trong bài thử nghiệm với mô hình tỷ lệ 5.3 tỷ tham số, cung cấp 500 tỷ dữ liệu huấn luyện Token, mô hình được huấn luyện theo cách này không chỉ rút ngắn đáng kể thời gian mà kết quả cuối cùng còn đạt hoặc vượt qua phiên bản cơ sở huấn luyện truyền thống toàn bộ.
