DeepSeek выпускает V4 open-source preview, технический рейтинг 3206 превзошёл GPT-5.4

2026-04-24 05:38:01

DeepSeek 24 апреля официально выпустила серию V4 preview, открытую по лицензии MIT; веса моделей также уже загружены на Hugging Face и ModelScope. Согласно техническому отчету DeepSeek V4, V4-Pro-Max (режим максимальной мощности вывода) набирает 3206 баллов на бенчмарке Codeforces, опережая GPT-5.4.

Характеристики двух архитектур MoE-моделей

Согласно техническому отчету DeepSeek V4, серия V4 включает две модели с архитектурой смеси экспертов (MoE):

V4-Pro: общее число параметров 1.6T, активируется 49B на каждый токен, поддержка контекста 1M токенов

V4-Flash: общее число параметров 284B, активируется 13B на каждый токен, также поддержка контекста 1M токенов

Согласно техническому отчету, в контексте 1M одноканальный вывод FLOPs для V4-Pro составляет лишь 27% от V3.2; KV-кэш снижен до 10% от V3.2. Это в основном связано с обновлением архитектуры смешанного внимания (компрессированное разреженное внимание CSA + сильно компрессированное внимание HCA). Объем данных предобучения превышает 32T токенов; оптимизатор обновлен до Muon.

Методология постобучения: онлайн-стратегическое дистиллирование вместо смешанного усиленного обучения

Согласно техническому отчету DeepSeek V4, ключевое обновление постобучения V4 заключается в том, что онлайн-стратегическое дистиллирование (On-Policy Distillation, OPD) полностью заменяет этап смешанного усиленного обучения (mixed RL) V3.2. Новая схема состоит из двух шагов: сначала для областей, включая математику, программирование, Agent и следование инструкциям, отдельно обучают предметных экспертов (SFT + усиленное обучение GRPO); затем с помощью многопрофильного учителя OPD дистиллируют способности более чем десяти экспертов в единую модель, выравнивая через logit, чтобы избежать типичных конфликтов способностей в традиционных методах.

Отчет также вводит генеративную модель наград (Generative Reward Model, GRM): для задач, которые трудно проверять правилами, обучают модель на небольшом количестве разнообразных ручных разметочных данных, чтобы модель одновременно выполняла функции генерации и оценки.

Результаты бенчмарков: кодирование впереди, в задачах рассуждения по знаниям сохраняется отставание

Согласно техническому отчету DeepSeek V4, результаты сравнения V4-Pro-Max с Opus 4.6 Max, GPT-5.4 xHigh и Gemini 3.1 Pro High (без учета недавно опубликованных GPT-5.5 и Opus 4.7):

Codeforces：3206（GPT-5.4：3168 / Gemini 3.1 Pro：3052）→ наивысший результат на всем поле

LiveCodeBench：93.5 → наивысший результат на всем поле

SWE Verified：80.6, отставание от Opus 4.6 на 0.2 п.п. (80.8)

GPQA Diamond：90.1, отставание от Gemini 3.1 Pro (94.3)

SimpleQA-Verified：57.9, отставание от Gemini 3.1 Pro (75.6)

HLE：37.7, отставание от Gemini 3.1 Pro (44.4)

Технический отчет также отмечает, что приведенные выше сравнения не включают недавно опубликованные GPT-5.5 и Opus 4.7; разрыв между V4 и моделями последнего закрытого поколения требует подтверждения сторонними оценками.

Часто задаваемые вопросы

Какие условия открытой лицензии у DeepSeek V4 preview и где их можно получить?

Согласно официальному объявлению DeepSeek от 24 апреля, серия V4 открыта по лицензии MIT; веса моделей опубликованы на Hugging Face и ModelScope; лицензия применима как для коммерческого, так и для академического использования.

В чем различие по масштабу параметров между DeepSeek V4-Pro и V4-Flash?

Согласно техническому отчету DeepSeek V4, общее число параметров V4-Pro составляет 1.6T, активируется 49B на каждый токен; общее число параметров V4-Flash составляет 284B, активируется 13B на каждый токен. Обе модели поддерживают контекст 1M токенов.

Каковы результаты бенчмарка для DeepSeek V4-Pro-Max по сравнению с GPT-5.4 и Gemini 3.1 Pro?

Согласно техническому отчету DeepSeek V4, V4-Pro-Max превосходит GPT-5.4 и Gemini 3.1 Pro в двух бенчмарках: Codeforces (3206 баллов) и LiveCodeBench (93.5), но все еще отстает от Gemini 3.1 Pro в знания-ориентированных бенчмарках (GPQA Diamond, SimpleQA-Verified, HLE). В сравнительной группе не учтены GPT-5.5 и Opus 4.7.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

04-24 05:21

DeepSeek V4 вызывает дебаты в США: аналитический центр ставит под сомнение использование чипов, CEO Replit защищает открытые инновации

04-24 04:49

DeepSeek V4 получает идеальный результат на Putnam-2025, делит первое место с Axiom в формальном математическом рассуждении

04-24 03:21

Данные обучения DeepSeek V4 удвоены до 33T — возникла нестабильность, из-за которой релиз был отложен

Связанные статьи

Tencent выпустила в открытый доступ Hy3 в предварительной версии; базовые тесты кода улучшены на 40% по сравнению с предыдущим поколением

Market Whisper04-24 05:14

OpenAI 推出 GPT-5.5：12M контекст, AA-индекс на первом месте, Terminal-Bench 82,7% переписывает эталон для агентов

ChainNewsAbmedia04-23 19:45

Google Юльс публикует список кандидатов на открытую версию и повторно позиционируется как платформа для разработки продуктов end-to-end

Market Whisper04-23 06:13

Открывайте ChatGPT Workspace Agents от OpenAI: с драйвером Codex, общими ресурсами для команды и интеграцией с Slack

ChainNewsAbmedia04-23 02:55

DeepSeek обсуждает первый раунд внешнего финансирования, оценка 20 млрд долларов: новая максимальная оценка для китайской индустрии ИИ

ChainNewsAbmedia04-22 13:13

комментарий

0/400

Нет комментариев