Hệ thống phần thưởng của OpenAI vô tình chấm điểm các chuỗi suy nghĩ trên 6 mô hình, bao gồm GPT-5.4

Theo nhóm liên kết an toàn của OpenAI, công ty gần đây đã phát hiện một lỗi huấn luyện nghiêm trọng ảnh hưởng đến 6 mô hình ngôn ngữ lớn, trong đó có GPT-5.4. Thinking: cơ chế phần thưởng vô tình chấm điểm các chuỗi “thinking” của mô hình—quá trình suy luận nội bộ trước khi tạo ra câu trả lời. GPT-5.5 không bị ảnh hưởng. Sự cố vi phạm một nguyên tắc an toàn cốt lõi của AI rằng các chuỗi thinking không bao giờ được đưa vào đánh giá, vì điều này có thể khiến mô hình được khuyến khích bịa ra suy luận để đạt điểm cao hơn.

Hệ thống chấm điểm lỗi đã đưa nhầm các chuỗi thinking vào khi đánh giá liệu câu trả lời có hữu ích hay không, hoặc liệu mô hình có bị tấn công làm thỏa hiệp hay không. Các mẫu huấn luyện bị ảnh hưởng chiếm nhiều nhất 3,8% tập dữ liệu. OpenAI đã vá lỗ hổng và tiến hành các thí nghiệm so sánh xác nhận rằng mô hình không phát triển hành vi lừa dối. Công ty đã triển khai một hệ thống quét tự động trên toàn bộ các pipeline huấn luyện để ngăn sự cố tái diễn.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận