Тёмная сторона Луны и новая статья Тяньцзиньского университета: Предварительная подготовка LLM может осуществляться между дата-центрами, пропускная способность модели на 1Т увеличилась на 54%

robot
Генерация тезисов в процессе

ME News Новости, 18 апреля (UTC+8), согласно мониторингу 动察 Beating, Moonshot AI и Университет Тсинхуа 16 апреля опубликовали новую статью на arXiv «Prefill-as-a-Service», предлагающую запуск этапа предзаполнения (prefill) для вывода больших моделей в跨данных центрах. Большие модели для вывода делятся на два шага: prefill — однократное чтение входных данных и создание кеша KV; decode — последовательное вывод результатов на основе этого кеша. Требования к аппаратному обеспечению для двух шагов полностью различны: prefill требует вычислительных ресурсов, decode — памяти и пропускной способности памяти видеокарты. Основной подход индустрии — разделение двух шагов на разные машины (PD разделение), что требует соединения через RDMA внутри одного дата-центра, поскольку кеш KV для моделей с интенсивным вниманием передает десятки Гбит/с в секунду, и при медленной передаче GPU простаивает.

Поворот произошел благодаря новому поколению гибридных моделей внимания. В статье экспериментально показано, что модели Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T и другие, объединяя немного полных слоев внимания с большим количеством линейных слоев, сокращают пропускную способность кеша KV примерно в десять раз, а у Ring-2.5-1T достигается компрессия в 36 раз. В этом случае кеш KV можно переносить с RDMA-частной сети на обычную Ethernet-сеть для передачи.

Конкретная реализация PrfaaS: создание отдельного «кластера предзаполнения», который маршрутизирует только запросы с длинным контекстом и непопавшие префиксы, оставляя короткие запросы в локальном PD-кластере; после завершения предзаполнения кеш KV передается по Ethernet обратно в локальный кластер для decode. Внедряются пороговые значения длины, маршрутизация с учетом пропускной способности и гибридный пул кешей префиксов. В статье проведены экспериментальные тесты с внутренней моделью hybrid на 1 Т параметров (на базе архитектуры Kimi Linear), которые показали, что общая пропускная способность сервиса выше на 54% по сравнению с однородным PD-развертыванием и на 32% — по сравнению с простым гибридным方案, при этом каждое устройство использует умеренную пропускную способность междоменного соединения.

(Источник: BlockBeats)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 7
  • 2
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
ExitLiquidityPoet
· 31м назад
Длинный контекст не попал — обращайтесь к удалённому, короткий запрос обрабатывается локально, эта маршрутизация очень тонкая.
Посмотреть ОригиналОтветить0
MetalReliefRoboticArm
· 1ч назад
Однородный PD против неоднородного против PrfaaS, этот сравнительный эксперимент спроектирован довольно аккуратно
Посмотреть ОригиналОтветить0
StopMessingAroundWithGasFees.
· 1ч назад
1T параметрическая модель в реальных тестах, смелость запускать такую большую модель, достаточно уверенности
Посмотреть ОригиналОтветить0
GateUser-4590f4c6
· 1ч назад
Превращать предварительную настройку в услугу — а не появится ли в будущем предварительная настройка «подключи и используй»?
Посмотреть ОригиналОтветить0
MoonlightDisconnectSwitch
· 1ч назад
Посмотрев всю статью, больше всего интересно, какой допустимый уровень потерь пакетов при реальном развертывании.
Посмотреть ОригиналОтветить0
GlassDomeRoaming
· 1ч назад
Прецизионное управление пропускной способностью, по сути, это искать выход из ситуации, когда ресурсы ограничены, и при дорогой сети нужно тщательно планировать расходы
Посмотреть ОригиналОтветить0
GlassFishTankArbitrage
· 1ч назад
Ethernet передает KV-кэш, раньше думал, что это безумие, а теперь это стало темой научной статьи
Посмотреть ОригиналОтветить0
  • Закреплено