Tin cổng, ngày 22 tháng 4 — Nghiên cứu sinh Princeton Yifan Zhang đã công bố đầy đủ thông số kỹ thuật của DeepSeek V4 trên X, sau một bản xem trước vào ngày 19 tháng 4. V4 có tổng cộng 1,6 nghìn tỷ tham số và một biến thể nhẹ, V4-Lite, với 285 tỷ tham số.
Mô hình sử dụng cơ chế chú ý DSA2, kết hợp (DeepSeek Sparse Attention) trước đó của DeepSeek từ V3.2 và (Native Sparse Attention) NSA với các phần nhúng đầu có chiều 512, đi kèm (Sparse Multi-Query Attention)MQA( và )Sliding Window Attention(SWA). Lớp MoE (Mixture of Experts) chứa 384 chuyên gia với 6 chuyên gia được kích hoạt cho mỗi lượt truyền xuôi, sử dụng Fused MoE Mega-Kernel. Các kết nối tắt (residual) dùng kiến trúc Hyper-Connections.
Các chi tiết huấn luyện được tiết lộ lần đầu bao gồm việc sử dụng bộ tối ưu Muon (applying Newton-Schulz orthogonalization to momentum updates), cửa sổ ngữ cảnh tiền huấn luyện 32K token và GRPO Group Relative Policy Optimization với hiệu chỉnh KL divergence trong quá trình học tăng cường. Cửa sổ ngữ cảnh cuối cùng mở rộng đến 1 triệu token. Mô hình chỉ xử lý văn bản.
Zhang không làm việc cho DeepSeek, và công ty cũng chưa bình luận chính thức về các thông tin được công bố.