Google déploie la prédiction multi-token sur Pixel 9 et 10, augmentant la vitesse d'inférence de Gemini Nano de plus de 50 %

Selon Beating, Google a déployé l'architecture Multi-Token Prediction (MTP) sur les appareils Pixel 9 et Pixel 10, accélérant considérablement le modèle Gemini Nano v3 embarqué. La nouvelle architecture a augmenté la vitesse d'inférence de plus de 50 % tout en préservant l'alignement de sécurité et la qualité des résultats du modèle.

Le mécanisme de copie zéro permet à la tête de prédiction de réutiliser directement les caractéristiques mises en cache du modèle principal via une attention croisée, éliminant ainsi la surcharge de cache clé-valeur distincte des modèles de brouillon traditionnels. Cette conception a économisé environ 130 Mo de mémoire tout en réduisant la latence de démarrage. Dans des applications réelles comme le résumé de notifications et les réponses intelligentes, MTP a obtenu une augmentation de 55 % du taux d'acceptation des tokens, réduisant la fréquence de réveil du processeur et abaissant la consommation électrique du système.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire