Dữ liệu huấn luyện DeepSeek V4 tăng gấp đôi lên 33T, gây ra tình trạng mất ổn định khiến việc phát hành bị trì hoãn

Tin tức từ Gate, ngày 24 tháng 4 — Báo cáo kỹ thuật V4 của DeepSeek tiết lộ rằng V4-Flash và V4-Pro đã được tiền huấn luyện lần lượt trên 32T và 33T token, gấp đôi khoảng 15T token được dùng cho V3. Báo cáo thừa nhận đã gặp phải “những thách thức mất ổn định đáng kể” trong quá trình huấn luyện, với các đỉnh loss liên tục xuất hiện do những bất thường trong lớp Mixture-of-Experts (MoE); cơ chế định tuyến bản thân nó cũng làm trầm trọng thêm các bất thường này, và việc rollback đơn giản không thể khắc phục được vấn đề.

DeepSeek đã triển khai hai giải pháp hiện được áp dụng vào huấn luyện thực tế: Định tuyến mang tính dự đoán, tách việc tính toán chỉ mục định tuyến khỏi các cập nhật của mạng backbone và tự động chỉ kích hoạt khi phát hiện các đỉnh loss (adding khoảng 20% chi phí phát sinh), và Kẹp SwiGLU, trực tiếp triệt tiêu các bất thường bằng cách kẹp giá trị kích hoạt vào một phạm vi cố định. Báo cáo cho biết cả hai cách tiếp cận đều hiệu quả nhưng thừa nhận “những nguyên lý nền tảng vẫn chưa được hiểu đủ.”

Susan Zhang, một nhà nghiên cứu tại Google DeepMind, người trước đây từng làm việc tại Meta AI và OpenAI, nhận xét rằng sự mất ổn định do việc nhân đôi dữ liệu huấn luyện “giải thích cho sự trì hoãn.” Cô mô tả hai giải pháp là “miếng dán tạm” đồng thời thừa nhận sự minh bạch kỹ thuật của DeepSeek.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Web3 AI Infrastructure AIW3 huy động $2M trong vòng seed do Buffalo Capital dẫn dắt

Tin tức từ Gate, ngày 24 tháng 4 — Nền tảng hạ tầng Web3 AI AIW3 thông báo hoàn tất vòng gọi vốn seed trị giá $2 triệu đô la. Vòng này do Buffalo Capital dẫn dắt, với GalaXin Capital và Three-stones Ventures tham gia với vai trò đồng đầu tư. AIW3 đang chuyển dịch sang mô hình thực thi trên chuỗi Agent-as-a-Service

GateNews16phút trước

Cohere Mua Lại Công Ty AI của Đức Aleph Alpha, Nhận Được $600M Đầu Tư để Mở Rộng Tại Châu Âu

Tin tức Gate, ngày 24 tháng 4 — Công ty AI của Canada Cohere đã công bố kế hoạch mua lại công ty AI của Đức Aleph Alpha để củng cố sự hiện diện của mình tại châu Âu. Schwarz Group, một nhà đầu tư hậu thuẫn của Aleph Alpha, dự kiến sẽ đầu tư $600 triệu USD vào vòng gọi vốn Series E của Cohere. Vòng gọi vốn dự kiến sẽ được hoàn tất vào năm 202

GateNews58phút trước

Xpeng, Xiaomi dẫn đầu làn sóng AI trên xe tại Triển lãm Ô tô Bắc Kinh

Tin tức cổng, 24 tháng 4 — Các nhà sản xuất ô tô Trung Quốc đã trưng bày các hệ thống AI nâng cao trên xe tại Triển lãm Ô tô Bắc Kinh vào ngày 24 tháng 4, khi quốc gia này đẩy nhanh chiến lược AI Plus và tìm kiếm mức độ độc lập cao hơn khỏi các chất bán dẫn nước ngoài. Xpeng đã trình diễn tính năng đỗ xe điều khiển bằng giọng nói cho phép người lái xe “

GateNews1giờ trước

Cựu kỹ sư Seed của ByteDance: Lượt lặp AI của ByteDance mất sáu tháng so với ba tháng của Google

Tin tức Cổng, ngày 24 tháng 4 — Zhang Chi, cựu kỹ sư tại đội Seed của ByteDance và hiện là trợ giảng tại Đại học Bắc Kinh, đã tiết lộ trên podcast "Into Asia" rằng ByteDance cần khoảng sáu tháng để hoàn thành một chu kỳ đầy đủ huấn luyện mô hình ngôn ngữ lớn (pretraining

GateNews1giờ trước

Kỹ sư OpenAI Clive Chan Thách thức Khuyến nghị Phần cứng của V4, Trích dẫn Lỗi và Tính Mơ hồ so với V3

Tin tức cổng Gate, ngày 24 tháng 4 — Kỹ sư OpenAI Clive Chan đã đưa ra những phản đối chi tiết đối với chương khuyến nghị phần cứng trong báo cáo kỹ thuật V4, gọi chương này là "đáng ngạc nhiên là tầm thường và dễ gây lỗi" so với phiên bản V3 được ca ngợi. Hướng dẫn phần cứng của V3, bao gồm các buổi Q&A

GateNews2giờ trước

Naver Ra Mắt Bản Beta AI Tab Khi Google Gemini Bước Vào Thị Trường Tìm Kiếm Tại Hàn Quốc

Tin tức Cổng, ngày 24 tháng 4 — Naver đã công bố việc bắt đầu thử nghiệm beta kín cho AI Tab, tính năng tìm kiếm hội thoại mới của hãng, sau khi Google ra mắt Gemini trên Chrome tại Hàn Quốc. AI Tab sẽ xuất hiện cùng với các tab tìm kiếm hiện có của Naver, cung cấp cho người dùng một không gian riêng cho các truy vấn mang tính hội thoại

GateNews2giờ trước
Bình luận
0/400
Không có bình luận