Команда з Shenzhen Hetao College, Harbin Institute of Technology (Shenzhen), Shenzhen Big Data Research Institute, Huawei та Deepcity AI повідомила про успішне завершення повноцінного посттренування з повними параметрами для DeepSeek-V4-Pro — моделі з 1,6 трильйона параметрів — на вітчизняній інфраструктурі ШІ. Це вперше стороння організація завершила повноцінне посттренування з повними параметрами для моделі такого масштабу на китайському обладнанні.

Команда використала кластер із понад 1 000 чипів Huawei Ascend 910C, щоб подолати комунікаційні вузькі місця завдяки оптимізованому розподілу навантаження в розподілених обчисленнях. Під час процесу навчання на 1 500 кроків система працювала без збоїв, досягнувши рівня використання FLOPs моделі (MFU), що перевищив 30%, і підвищивши ефективність ключових операторів на 14%, відповідаючи стандартам продуктивності промислового рівня.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

06-06 00:31

Huawei Ascend 910C завершив повно-параметричне постнавчання для DeepSeek-V4-Pro з 1,6 трильйона параметрів

06-05 14:19

Tencent Hunyuan представляє алгоритм Stem Sparse Attention, скорочує затримку до першого токена в 3,7 раза на контексті 128K

06-05 05:40

Nvidia сертифікує Samsung, SK Hynix і Micron для постачання чипів HBM4

06-05 01:58

Команда Шеньчженя завершила тренування моделі DeepSeek-V4-Pro із 1,6 трильйона параметрів на власному чипі Ascend 910C від Huawei

06-04 05:50

Google DeepMind випустила Gemma 4 12B — відкриту мультимодальну модель, яку можна запускати на 16 ГБ пам’яті GPU

Поглиблений аналіз