Huawei Ascend 910C завершив посттренування моделі DeepSeek на 1,6 трильйона параметрів із понад 1 000 GPU

Команда з Shenzhen Hetao College, Harbin Institute of Technology (Shenzhen), Shenzhen Big Data Research Institute, Huawei та Deepcity AI повідомила про успішне завершення повноцінного посттренування з повними параметрами для DeepSeek-V4-Pro — моделі з 1,6 трильйона параметрів — на вітчизняній інфраструктурі ШІ. Це вперше стороння організація завершила повноцінне посттренування з повними параметрами для моделі такого масштабу на китайському обладнанні.

Команда використала кластер із понад 1 000 чипів Huawei Ascend 910C, щоб подолати комунікаційні вузькі місця завдяки оптимізованому розподілу навантаження в розподілених обчисленнях. Під час процесу навчання на 1 500 кроків система працювала без збоїв, досягнувши рівня використання FLOPs моделі (MFU), що перевищив 30%, і підвищивши ефективність ключових операторів на 14%, відповідаючи стандартам продуктивності промислового рівня.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів