Theo theo dõi từ Beatking Bear, theo The Information trích dẫn từ nguồn tin và một ghi chú nội bộ của Tencent, nhân viên của Tencent trong giai đoạn huấn luyện sau của mô hình Hy3 đã sử dụng Mã Claude của Anthropic, mặc dù Anthropic đã cấm rõ ràng việc cung cấp dịch vụ thương mại cho các công ty Trung Quốc dựa trên lý do an ninh quốc gia.
Hy3 là mô hình ngôn ngữ lớn mạnh nhất trong loạt sản phẩm hỗn hợp của Tencent cho tới nay, với 295 tỷ tham số và kiến trúc MoE, được phát triển dưới sự chỉ đạo của Giám đốc Khoa học trưởng AI đầu tiên của Tencent, Yao Shunyu, tham gia vào cuối năm ngoái. Trong giai đoạn RLHF (học tăng cường dựa trên phản hồi của con người), Tencent đã tổ chức nhân viên đóng vai trò làm đánh giá viên con người, ghi chú nội bộ cung cấp hướng dẫn cài đặt Mã Claude, với mức tối đa số lượng cho mỗi người là "một số nghìn mã thông báo".
Nhân viên của Tencent không coi điều này là distillation (huấn luyện mô hình yếu thông qua đầu ra của mô hình mạnh). Họ tiếp cận bài toán lập trình giống nhau đối với hai mô hình ẩn danh, đánh giá mù; đồng thời sử dụng Mã Claude để tạo các ví dụ hành vi chất lượng cao trong thời gian thực làm tham chiếu, giúp lọc ra các phản hồi chất lượng thấp. Nhân viên của nhiều công ty AI đã xác nhận, việc sử dụng mô hình hàng đầu ngành trong giai đoạn huấn luyện sau là một thực tiễn phổ biến.
Nhà phát ngôn của Anthropic cho biết, nhóm an ninh của công ty "đang theo dõi chủ động các cuộc tấn công distillation và ngay lập tức hành động sau khi phát hiện", nhưng không trực tiếp đề cập đến việc Tencent sử dụng Mã Claude. Cách thông thường mà các công ty và nhà phát triển Trung Quốc lấy Claude là thông qua người môi giới, số điện thoại hoặc thẻ tín dụng không phải là của Trung Quốc. Anthropic đã cập nhật yêu cầu xác minh danh tính vào đầu tháng này, một số người dùng phải cung cấp ảnh chụp CMND và ảnh cá nhân của họ.
