Tilde Research phát hiện Muon Optimizer tiêu diệt 25% nơ-ron; giải pháp thay thế Aurora đạt mức tăng hiệu quả dữ liệu gấp 100 lần

Theo Tilde Research, bộ tối ưu hóa Muon được áp dụng bởi các mô hình AI hàng đầu bao gồm DeepSeek V4 và Kimi K2.5 có một lỗi ẩn: nó khiến hơn 25% nơ-ron ở các lớp MLP bị chết vĩnh viễn trong giai đoạn huấn luyện sớm. Nhóm đã thiết kế Aurora, một bộ tối ưu hóa thay thế, và phát hành mã nguồn mở. Một mô hình tham số 1,1B được huấn luyện với chỉ 100B token đã đạt hiệu năng tương đương với Qwen3-1.7B được huấn luyện trên 36T token ở các bài benchmark hiểu ngôn ngữ như HellaSwag và Winogrande, cho thấy cải thiện hiệu quả dữ liệu xấp xỉ 100 lần. Aurora bổ sung thêm 6% chi phí tính toán so với Muon và có thể được dùng thay thế trực tiếp.
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận