DeepSeek выпускает серию открытых моделей V4 с 1,6T параметров и лицензией MIT

Сообщение Gate News, 24 апреля — DeepSeek выпустила серию моделей V4 с открытым исходным кодом под лицензией MIT; веса теперь доступны на Hugging Face и ModelScope. В серии есть две модели (MoE) с экспертами-смесителями: V4-Pro с 1,6 трлн общих параметров и 49 млрд активируемых на токен, и V4-Flash с 284 млрд общих параметров и 13 млрд активируемых на токен. Обе поддерживают контекстное окно в 1 млн токенов.

Архитектура включает три ключевых улучшения: гибридный механизм внимания, сочетающий сжатое разреженное внимание (CSA) и сильно сжатое внимание (HCA), что существенно снижает издержки для длинного контекста — FLOPs инференса V4-Pro для контекста 1M составляют всего 27% от V3.2, а KV-кэш (VRAM для хранения исторической информации во время инференса) равен лишь 10% от V3.2; manifold-constrained гиперсвязи (mHC) вместо традиционных residual-связей для повышения устойчивости распространения сигнала между слоями; и оптимизатор Muon для более быстрой сходимости обучения. Предобучение использовало более 32 трлн токенов данных.

Постобучение применяет двухэтапный подход: сначала обучение предметно-ориентированных экспертов с помощью supervised fine-tuning (SFT) и reinforcement learning через GRPO, затем объединение их в единую модель посредством онлайн-дистилляции. V4-Pro-Max (highest inference mode) заявляет, что это самая сильная открытая модель с топовыми бенчмарками по кодированию и существенно сократившимися разрывами с закрытыми моделями фронтира по задачам рассуждения и агентным задачам. V4-Flash-Max достигает уровня рассуждений Pro при достаточном вычислительном бюджете, но ограничена масштабом параметров в чисто знаниях и сложных агентных задачах. Веса хранятся в смешанном формате точности FP4+FP8.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Инженер OpenAI Клайв Чан оспаривает рекомендации по оборудованию в V4, указывая на ошибки и расплывчатость по сравнению с V3

Gate News-сообщение, 24 апреля — инженер OpenAI Клайв Чан высказал подробные возражения против главы с рекомендациями по оборудованию в техническом отчёте V4, назвав её «удивительно посредственной и склонной к ошибкам» по сравнению с получившей признание версией V3. Аппаратные рекомендации V3, которые включали сессии Q&A

GateNews29м назад

Naver Launches AI Tab Beta as Google Gemini Enters South Korea Search Market

Gate News message, April 24 — Naver announced the start of a closed beta for AI Tab, its new conversational search feature, following Google's launch of Gemini in Chrome in South Korea. AI Tab will appear alongside Naver's existing search tabs, offering users a dedicated space for conversational

GateNews41м назад

Найм инженеров по ИИ в Индии растет на 59,5%, расширяется за пределы техногородов

Отчет LinkedIn о рынке труда в сфере ИИ 2026 года, опубликованный 24 апреля, показал, что найм инженеров по ИИ в Индии вырос на 59,5% в годовом исчислении, что стало самым быстрым темпом среди рынков, изученных платформой. Рост был обусловлен расширением спроса за пределы уже сформировавшихся технологических центров. Города, включая

CryptoFrontier1ч назад

Commonwealth Bank сокращает 120 рабочих мест на фоне расширения ИИ

Австралийский банк Содружества (Commonwealth Bank of Australia) объявил, что сократит примерно 120 рабочих мест, поскольку крупнейший в стране банк пересматривает должности и расширяет использование искусственного интеллекта, сообщает Bloomberg. Сокращения включают 43 должности в Bankwest в Западной Австралии, при этом шесть позиций затронуты автоматизацией. Это a

CryptoFrontier1ч назад

Cursor раскрывает причину обучения XAI: вычислительные мощности были заблокированы, SpaceX также держит 60 млрд долларов в виде опционов на приобретение

Анонс Anysphere сообщает, что Cursor будет использовать инфраструктуру Colossus компании xAI для обучения новой модели, чтобы преодолеть узкое место по вычислительным мощностям; SpaceX предложила опцион на приобретение на 60 млрд долларов (в течение 2026 года можно приобрести целиком), а если нет — выплатить около 10 млрд долларов в качестве компенсации за сотрудничество. Обе сделки идут одновременно, меняя то, кто сможет обучать Cursor, и то, кто сможет купить Cursor; при этом Cursor по-прежнему позволяет множество моделей использовать в качестве бэкенда, но в долгосрочной перспективе это зависит от того, воспользуется ли SpaceX правом на приобретение.

ChainNewsAbmedia1ч назад

Оценка вторичного рынка Anthropic превысила 1 трлн долларов: Forge Global обошла OpenAI на 880 млрд

Согласно сообщению Decrypt, вторичная оценка Forge Global для Anthropic составляет около 1 трлн долларов, для OpenAI — около 8 800 млрд долларов; на вторичном рынке впервые наблюдается лидирующий разворот. ARR Anthropic вырос с примерно 9 млрд на конец 2025 года до примерно 30 млрд в марте 2026 года: рост за три месяца составил 233%, что подтолкнуло оценку в частном секторе. Вторичная оценка отличается от первичного раунда финансирования и отражает уверенность в выходе; в дальнейшем по-прежнему смотрят на четыре направления — технологии, политику, бизнес и нарратив.

ChainNewsAbmedia1ч назад
комментарий
0/400
Нет комментариев