Le coût de tokenisation de la langue chinoise de Claude est 65 % plus élevé que celui de l’anglais ; OpenAI seulement 15 % de plus

Message de Gate News, 29 avril — La chercheuse en IA Aran Komatsuzaki a mené une analyse comparative de l’efficacité de la tokenisation sur six grands modèles d’IA en traduisant le papier fondateur de Rich Sutton « The Bitter Lesson » dans neuf langues et en les traitant avec les tokenizers d’OpenAI, Gemini, Qwen, DeepSeek, Kimi et Claude. En utilisant le nombre de tokens de la version anglaise sur OpenAI comme base (1x), l’étude a révélé d’importantes disparités : traiter le même contenu en chinois nécessitait 1,65x tokens sur Claude, contre seulement 1,15x sur OpenAI. L’hindi a montré un résultat encore plus extrême sur Claude, dépassant la base de plus de 3x. Anthropic est arrivé en dernière position parmi les six modèles testés.

Critiquement, lorsque le même texte chinois identique a été traité sur différents modèles—tous mesurés par rapport à la même base anglaise—les résultats ont divergé de manière spectaculaire : Kimi n’a consommé que 0,81x tokens (même en dessous de l’anglais), Qwen 0,85x, tandis que Claude en demandait 1,65x. Cet écart révèle un problème pur d’efficacité de tokenisation, pas une question intrinsèque de langue. Les modèles chinois ont démontré une efficacité supérieure pour le traitement du chinois, ce qui suggère que la disparité provient d’optimisations du tokenizer plutôt que de la langue elle-même.

Les implications pratiques pour les utilisateurs sont considérables : une consommation accrue de tokens augmente directement les coûts des API, prolonge la latence des réponses des modèles et épuise plus rapidement les fenêtres de contexte. L’efficacité de la tokenisation dépend de la composition linguistique des données d’entraînement d’un modèle—les modèles entraînés principalement sur l’anglais compressent l’anglais plus efficacement, tandis que les langues moins représentées sont tokenisées en fragments plus petits et moins efficaces.

La conclusion de Komatsuzaki souligne un principe fondamental : la taille du marché détermine l’efficacité de la tokenisation. Les marchés plus vastes bénéficient d’une meilleure optimisation, tandis que les langues sous-représentées font face à des coûts de tokens nettement plus élevés.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

La plateforme d’IA Certifyde lève $2M en financement de démarrage avec le PDG de Ripple Brad Garlinghouse

Selon ChainCatcher, la plateforme d’application IA Certifyde a annoncé la clôture d’un tour de table de $2 million. Les investisseurs incluent K5 Global, Flamingo Capital, ainsi que des investisseurs providentiels comme le PDG de Ripple Brad Garlinghouse, le cofondateur de Honey George Ruan et le cofondateur de Nutra Roland

GateNewsIl y a 1h

DeepSeek lance une fonctionnalité de reconnaissance d’images en tests bêta

Selon PANews, DeepSeek a lancé aujourd’hui sa fonction de reconnaissance d’images (29 avril), actuellement en phase de tests bêta. Les utilisateurs de la version web et de l’application mobile peuvent tous deux être sélectionnés pour le déploiement bêta.

GateNewsIl y a 2h

Anthropic lance 8 connecteurs d’outils créatifs pour Claude, dont Blender, Adobe, Autodesk

Anthropic a annoncé une suite de connecteurs d’outils créatifs qui permettent à Claude de contrôler directement des logiciels professionnels utilisés par les designers et les musiciens. Les huit connecteurs initiaux couvrent la modélisation 3D, le design visuel, la production musicale et la performance en direct, avec des partenaires incluant Blender, Adobe,

GateNewsIl y a 2h

La Maison-Blanche contourne l’évaluation des risques du Pentagone pour déployer le modèle Mythos d’Anthropic le 29 avril

Selon Whale Factor, la Maison-Blanche contourne l’évaluation des risques du Pentagone pour déployer le modèle Mythos d’Anthropic auprès de l’ensemble des agences fédérales le 29 avril. Cette démarche vise à accélérer les capacités d’IA du gouvernement fédéral et à se synchroniser avec la cadence des réseaux d’IA décentralisés. Cela représente un changement important

GateNewsIl y a 2h

Cognizant pour acquérir Astreya pour $600M afin d’étendre son activité d’infrastructure IA

Selon Reuters, le 29 avril, Cognizant a accepté d’acquérir Astreya pour environ $600 million, alors qu’elle étend son activité d’infrastructure IA. Astreya est un fournisseur de services informatiques spécialisé dans l’infrastructure d’IA et les services de centres de données. La transaction devrait être conclue au deuxième trimestre

GateNewsIl y a 2h

30 plugins malveillants sur ClawHub déguisés en outils d’IA, téléchargés plus de 9 800 fois

D’après le chercheur de Manifold, Ax Sharma, 30 plugins sur ClawHub déguisés en outils d’IA légitimes ont été téléchargés plus de 9 800 fois, tout en convertissant secrètement les assistants IA des utilisateurs en travailleurs de cryptomonnaie. Les plugins, publiés sous le compte imaflytok, semblent être des planificateurs de tâches de routine a

GateNewsIl y a 2h
Commentaire
0/400
Aucun commentaire