Dữ liệu huấn luyện DeepSeek V4 tăng gấp đôi lên 33T, gây ra tình trạng mất ổn định khiến việc phát hành bị trì hoãn

Tin tức từ Gate, ngày 24 tháng 4 — Báo cáo kỹ thuật V4 của DeepSeek tiết lộ rằng V4-Flash và V4-Pro đã được tiền huấn luyện lần lượt trên 32T và 33T token, gấp đôi khoảng 15T token được dùng cho V3. Báo cáo thừa nhận đã gặp phải "những thách thức mất ổn định đáng kể" trong quá trình huấn luyện, với các đỉnh loss liên tục xuất hiện do những bất thường trong lớp Mixture-of-Experts (MoE); cơ chế định tuyến bản thân nó cũng làm trầm trọng thêm các bất thường này, và việc rollback đơn giản không thể khắc phục được vấn đề.

DeepSeek đã triển khai hai giải pháp hiện được áp dụng vào huấn luyện thực tế: Định tuyến mang tính dự đoán, tách việc tính toán chỉ mục định tuyến khỏi các cập nhật của mạng backbone và tự động chỉ kích hoạt khi phát hiện các đỉnh loss (adding khoảng 20% chi phí phát sinh), và Kẹp SwiGLU, trực tiếp triệt tiêu các bất thường bằng cách kẹp giá trị kích hoạt vào một phạm vi cố định. Báo cáo cho biết cả hai cách tiếp cận đều hiệu quả nhưng thừa nhận "những nguyên lý nền tảng vẫn chưa được hiểu đủ."

Susan Zhang, một nhà nghiên cứu tại Google DeepMind, người trước đây từng làm việc tại Meta AI và OpenAI, nhận xét rằng sự mất ổn định do việc nhân đôi dữ liệu huấn luyện "giải thích cho sự trì hoãn." Cô mô tả hai giải pháp là "miếng dán tạm" đồng thời thừa nhận sự minh bạch kỹ thuật của DeepSeek.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận