Tencent Hunyuan представила алгоритм Stem Sparse Attention, сокращающий задержку до первого токена в 3,7 раза при контексте 128K

По данным Guru Club, 5 июня Tencent Hunyuan представила алгоритм Stem sparse attention, принятый на ведущей конференции по машинному обучению ICML-26. Алгоритм обеспечивает почти без потерь точность при бюджете 25% благодаря Token Position Decay (TPD) и Output-Aware Metric (OAM), снижая задержку первого токена на 3,7 раза при длине контекста 128K при совместном использовании с HPC-операторами.
Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев