Повідомлення Gate News від 24 квітня — Технічний звіт DeepSeek V4 розкриває, що V4-Flash і V4-Pro були попередньо натреновані на 32T і 33T токенів відповідно, удвічі більше приблизно 15T токенів, використаних для V3. У звіті визнається, що під час тренування вони зіткнулися з "значними проблемами нестабільності", причому сплески loss неодноразово виникали через аномалії в шарі Mixture-of-Experts (MoE); сам механізм маршрутизації загострює ці аномалії, і простий rollback не може вирішити проблему.

DeepSeek упровадив два рішення, які тепер застосовуються до реального тренування: Anticipatory Routing, що відокремлює обчислення індексу маршрутизації від оновлень backbone-мережі та автоматично запускає перемикання лише тоді, коли виявляються сплески loss (додаючи приблизно 20% накладних витрат), і SwiGLU Clamping, який безпосередньо пригнічує аномалії шляхом обмеження значень активацій фіксованим діапазоном. У звіті зазначено, що обидва підходи є ефективними, але визнається, що "базові принципи досі недостатньо вивчені".

Сьюзан Чжан, дослідниця Google DeepMind, яка раніше працювала в Meta AI та OpenAI, прокоментувала, що нестабільність, спричинена подвоєнням даних для тренування, "пояснює затримку". Вона описала два рішення як "тимчасові латки" та водночас визнала технічну прозорість DeepSeek.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

04-24 03:04

DeepSeek випускає серію відкритих моделей V4 із 1,6T параметрів і ліцензією MIT

04-24 01:46

OpenAI запускає GPT-5.5, створену для агентних завдань і складних робочих процесів

04-23 20:42

Злом безпеки Vercel розширився до сотень користувачів; AI-розробники наражені на більший ризик

04-23 13:14

Cluster Protocol залучає $5M у фінансуванні, DAO5 очолює раунд

04-23 09:45

DeepSeek відкриває TileKernels з відкритим кодом: бібліотека GPU-ядр для тренування й інференсу великих моделей

Поглиблений аналіз