Tencent Hunyuan dévoile l’algorithme Stem Sparse Attention, réduisant la latence du premier token de 3,7× avec un contexte de 128K

D’après Guru Club, le 5 juin, Tencent Hunyuan a dévoilé l’algorithme Stem sparse attention, accepté par la conférence de machine learning de premier plan ICML-26. L’algorithme atteint une précision quasi sans perte avec un budget de 25% grâce au Token Position Decay (TPD) et à l’Output-Aware Metric (OAM), réduisant la latence du premier token de 3,7x à une longueur de contexte de 128K lorsqu’il est combiné avec des opérateurs HPC.
Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire