
DeepSeek 24 апреля официально выпустила серию V4 preview, открытую по лицензии MIT; веса моделей также уже загружены на Hugging Face и ModelScope. Согласно техническому отчету DeepSeek V4, V4-Pro-Max (режим максимальной мощности вывода) набирает 3206 баллов на бенчмарке Codeforces, опережая GPT-5.4.
Характеристики двух архитектур MoE-моделей
Согласно техническому отчету DeepSeek V4, серия V4 включает две модели с архитектурой смеси экспертов (MoE):
V4-Pro: общее число параметров 1.6T, активируется 49B на каждый токен, поддержка контекста 1M токенов
V4-Flash: общее число параметров 284B, активируется 13B на каждый токен, также поддержка контекста 1M токенов
Согласно техническому отчету, в контексте 1M одноканальный вывод FLOPs для V4-Pro составляет лишь 27% от V3.2; KV-кэш снижен до 10% от V3.2. Это в основном связано с обновлением архитектуры смешанного внимания (компрессированное разреженное внимание CSA + сильно компрессированное внимание HCA). Объем данных предобучения превышает 32T токенов; оптимизатор обновлен до Muon.
Методология постобучения: онлайн-стратегическое дистиллирование вместо смешанного усиленного обучения
Согласно техническому отчету DeepSeek V4, ключевое обновление постобучения V4 заключается в том, что онлайн-стратегическое дистиллирование (On-Policy Distillation, OPD) полностью заменяет этап смешанного усиленного обучения (mixed RL) V3.2. Новая схема состоит из двух шагов: сначала для областей, включая математику, программирование, Agent и следование инструкциям, отдельно обучают предметных экспертов (SFT + усиленное обучение GRPO); затем с помощью многопрофильного учителя OPD дистиллируют способности более чем десяти экспертов в единую модель, выравнивая через logit, чтобы избежать типичных конфликтов способностей в традиционных методах.
Отчет также вводит генеративную модель наград (Generative Reward Model, GRM): для задач, которые трудно проверять правилами, обучают модель на небольшом количестве разнообразных ручных разметочных данных, чтобы модель одновременно выполняла функции генерации и оценки.
Результаты бенчмарков: кодирование впереди, в задачах рассуждения по знаниям сохраняется отставание
Согласно техническому отчету DeepSeek V4, результаты сравнения V4-Pro-Max с Opus 4.6 Max, GPT-5.4 xHigh и Gemini 3.1 Pro High (без учета недавно опубликованных GPT-5.5 и Opus 4.7):
Codeforces:3206(GPT-5.4:3168 / Gemini 3.1 Pro:3052)→ наивысший результат на всем поле
LiveCodeBench:93.5 → наивысший результат на всем поле
SWE Verified:80.6, отставание от Opus 4.6 на 0.2 п.п. (80.8)
GPQA Diamond:90.1, отставание от Gemini 3.1 Pro (94.3)
SimpleQA-Verified:57.9, отставание от Gemini 3.1 Pro (75.6)
HLE:37.7, отставание от Gemini 3.1 Pro (44.4)
Технический отчет также отмечает, что приведенные выше сравнения не включают недавно опубликованные GPT-5.5 и Opus 4.7; разрыв между V4 и моделями последнего закрытого поколения требует подтверждения сторонними оценками.
Часто задаваемые вопросы
Какие условия открытой лицензии у DeepSeek V4 preview и где их можно получить?
Согласно официальному объявлению DeepSeek от 24 апреля, серия V4 открыта по лицензии MIT; веса моделей опубликованы на Hugging Face и ModelScope; лицензия применима как для коммерческого, так и для академического использования.
В чем различие по масштабу параметров между DeepSeek V4-Pro и V4-Flash?
Согласно техническому отчету DeepSeek V4, общее число параметров V4-Pro составляет 1.6T, активируется 49B на каждый токен; общее число параметров V4-Flash составляет 284B, активируется 13B на каждый токен. Обе модели поддерживают контекст 1M токенов.
Каковы результаты бенчмарка для DeepSeek V4-Pro-Max по сравнению с GPT-5.4 и Gemini 3.1 Pro?
Согласно техническому отчету DeepSeek V4, V4-Pro-Max превосходит GPT-5.4 и Gemini 3.1 Pro в двух бенчмарках: Codeforces (3206 баллов) и LiveCodeBench (93.5), но все еще отстает от Gemini 3.1 Pro в знания-ориентированных бенчмарках (GPQA Diamond, SimpleQA-Verified, HLE). В сравнительной группе не учтены GPT-5.5 и Opus 4.7.