Данные обучения DeepSeek V4 удвоены до 33T — возникла нестабильность, из-за которой релиз был отложен

Сообщение Gate News, 24 апреля — технический отчет DeepSeek о V4 показывает, что V4-Flash и V4-Pro были предварительно обучены соответственно на 32T и 33T токенах, то есть вдвое больше, чем примерно 15T токенов, использованных для V3. В отчете признается, что при обучении сталкивались с «существенными проблемами нестабильности»: всплески лосса многократно возникали из-за аномалий в слое Mixture-of-Experts (MoE); сам механизм маршрутизации усугубляет эти аномалии, и простое откатывание не может решить проблему.

DeepSeek внедрила два решения, которые теперь применяются в реальном обучении: Предвосхищающее маршрутизирование, которое отделяет вычисление индекса маршрутизации от обновлений магистральной (backbone) сети и автоматически запускает процесс только при обнаружении всплесков лосса (добавляя примерно 20% накладных расходов), и Ограничение SwiGLU, которое напрямую подавляет аномалии, ограничивая значения активаций фиксированным диапазоном. В отчете говорится, что оба подхода эффективны, но признается: «базовые принципы по-прежнему недостаточно изучены».

Сьюзен Чжан (Susan Zhang), исследователь из Google DeepMind, ранее работавшая в Meta AI и OpenAI, прокомментировала, что нестабильность, вызванная удвоением данных обучения, «объясняет задержку». Она охарактеризовала два решения как «костыли», при этом отметив техническую прозрачность DeepSeek.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Web3 AI Infrastructure AIW3 привлекает $2M в посевном финансировании во главе с Buffalo Capital

Сообщение Gate News, 24 апреля — платформа Web3 AI-инфраструктуры AIW3 объявила о завершении $2 миллионного раунда посевного финансирования. Раунд возглавляла Buffalo Capital, при этом GalaXin Capital и Three-stones Ventures участвовали в качестве соинвесторов. AIW3 переходит к агенту как услуге AaaS парадигме ончейн-исполнения,

GateNews16м назад

Cohere приобретает немецкую ИИ-компанию Aleph Alpha и обеспечивает $600M инвестиции для расширения в Европе

Gate News сообщение, 24 апреля — канадская компания в сфере ИИ Cohere объявила о планах приобрести немецкую ИИ-компанию Aleph Alpha, чтобы усилить свое присутствие в Европе. Schwarz Group, поддерживающая Aleph Alpha, планирует инвестировать $600 миллионов в раунд финансирования Series E Cohere. Ожидается, что раунд финансирования завершится в 202

GateNews58м назад

Xpeng и Xiaomi лидируют в продвижении автомобильного ИИ на Пекинском автосалоне

Новостное сообщение Gate News, 24 апреля — Китайские автопроизводители продемонстрировали продвинутые системы ИИ для автомобилей на Пекинском автосалоне 24 апреля, поскольку страна ускоряет стратегию AI Plus и стремится к большей независимости от зарубежных полупроводников. Xpeng продемонстрировала голосовое управление парковкой, которое позволяет водителям

GateNews1ч назад

前字节跳动种子工程师:字节跳动 AI 迭代需要六个月,而谷歌需要三个月

Gate News 消息,4 月 24 日——字节跳动种子团队的前工程师张弛、现任北京大学助理教授在播客“Into Asia”中透露,字节跳动完成一次大型语言模型训练(预训练的完整循环大约需要六个月

GateNews1ч назад

Инженер OpenAI Клайв Чан оспаривает рекомендации по оборудованию в V4, указывая на ошибки и расплывчатость по сравнению с V3

Gate News-сообщение, 24 апреля — инженер OpenAI Клайв Чан высказал подробные возражения против главы с рекомендациями по оборудованию в техническом отчёте V4, назвав её «удивительно посредственной и склонной к ошибкам» по сравнению с получившей признание версией V3. Аппаратные рекомендации V3, которые включали сессии Q&A

GateNews2ч назад

Naver Launches AI Tab Beta as Google Gemini Enters South Korea Search Market

Gate News message, April 24 — Naver announced the start of a closed beta for AI Tab, its new conversational search feature, following Google's launch of Gemini in Chrome in South Korea. AI Tab will appear alongside Naver's existing search tabs, offering users a dedicated space for conversational

GateNews2ч назад
комментарий
0/400
Нет комментариев