DeepSeek опубликовала новую статью, подписанную Лян Вэньфэном: предложена новая архитектура mHC для повышения стабильности обучения больших моделей

PANews сообщил 1 января, что, по словам Jinshi, DeepSeek выпустила новую статью, предлагающую новую архитектуру под названием многообразно-ограниченная гиперсвязь (mHC), которая направлена на решение проблем нестабильности обучения и ограниченной масштабируемости, вызванных разрушением характеристик картирования идентичности в технологии сети гиперсоединения (HC). Эта архитектура достигает значительных улучшений производительности и превосходной масштабируемости, сопоставляя остаточное пространство соединений HC с определёнными коллекторами для восстановления характеристик идентификационного отображения, при этом внедряя строгие оптимизации инфраструктуры для повышения эффективности. DeepSeek ожидает, что mHC, как гибкое и практическое расширение HC, поможет лучше понять топологическую архитектуру и указать перспективное направление для эволюции базовой модели. Статью написали в соавторстве Чжэнда Се, Исюань Вэй и Хуаньци Цао как первые авторы, а Лян Вэньфэн также входит в список авторов.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев