A Tencent Hunyuan revela um algoritmo de Stem Sparse Attention, reduz a latência do primeiro token em 3,7x com 128K de contexto

De acordo com o Guru Club, a 5 de junho, a Tencent Hunyuan revelou o algoritmo de atenção esparsa Stem, aceite pela conferência de topo em aprendizagem automática ICML-26. O algoritmo alcança uma precisão quase sem perdas com um orçamento de 25% através do Token Position Decay (TPD) e do Output-Aware Metric (OAM), reduzindo a latência do primeiro token em 3,7x no comprimento de contexto de 128K quando combinado com operadores HPC.
Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário