DeepSeek опублікував новий науковий документ під авторством Лян Веньфена: запропоновано нову архітектуру mHC для підвищення стабільності тренування великих моделей

PANews 1 січня повідомляє, що за даними Jin10, DeepSeek опублікувала нову статтю, у якій запропоновано нову архітектуру під назвою Маніфольд Обмежень Надзвичайно Зв’язків (mHC), спрямовану на вирішення проблем нестабільності тренування та обмеженої масштабованості технології Надзвичайно Зв’язків (HC), викликаних руйнуванням властивості ідентичної відображення. Ця архітектура шляхом відображення простору залишкових з’єднань HC на певний маніфольд відновлює властивість ідентичного відображення, одночасно поєднуючи строгі оптимізації інфраструктури для забезпечення ефективності, досягає значних покращень у продуктивності та високої масштабованості. DeepSeek прогнозує, що mHC як гнучке та практичне розширення HC допоможе глибше зрозуміти топологічний дизайн архітектури та окреслить перспективні напрямки для еволюції базових моделей. Ця стаття спільно написана Жендою Сіє (解振达), Вей Ісюань (韦毅轩), Хуанці Цао (曹欢奇) у ролі перших авторів, а Веньфен Лян також входить до списку авторів.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Популярні активності Gate Fun

    Дізнатися більше
  • Рин. кап.:$3.55KХолдери:1
    0.00%
  • Рин. кап.:$3.55KХолдери:1
    0.00%
  • Рин. кап.:$3.61KХолдери:2
    0.00%
  • Рин. кап.:$3.66KХолдери:3
    0.44%
  • Рин. кап.:$3.55KХолдери:1
    0.00%
  • Закріпити