« Brûler des tokens » comme KPI — Un programmeur a dépensé 150 000 yuans en un mois

金色财经_

2026-03-24 13:05:38

Auteur : Xiaojing

Silicon Valley utilise un nouveau terme à la mode : Tokenmaxxing (maximisation de l’utilisation des tokens).

Chez Meta et OpenAI, les ingénieurs commencent à rivaliser pour figurer en tête du classement de l’utilisation de l’IA. Selon des médias étrangers, un ingénieur aurait consommé 210 milliards de tokens en une semaine, ce qui équivaut à la quantité de texte de 33 Wikipedia. Certains ont une facture mensuelle d’IA atteignant 150 000 dollars.

Un ingénieur d’Ericsson basé à Stockholm dépense plus pour Claude que son salaire, mais c’est l’entreprise qui paie la facture. Le budget tokens devient une nouvelle forme d’avantage pour les ingénieurs, « comme les snacks gratuits ou les déjeuners gratuits autrefois ».

Tobi Lütke, PDG de Shopify, a publié dès avril 2025 une note interne annonçant que « l’utilisation de l’IA est une attente de base chez Shopify », exigeant que toutes les équipes prouvent que l’IA ne peut pas accomplir un travail avant de demander de nouveaux recrutements, et intégrant l’utilisation de l’IA dans l’évaluation de la performance. Meta a ensuite annoncé qu’à partir de 2026, « l’impact piloté par l’IA » serait officiellement intégré dans l’évaluation de tous les employés.

Lorsque la consommation de tokens commence à apparaître dans les KPI, elle devient un signal de comportement organisationnel.

Parallèlement, les signaux au niveau industriel sont également nombreux. Le 16 mars, Jensen Huang a défini les tokens comme « la pierre angulaire de l’ère de l’IA » lors de la conférence GTC de Nvidia, affirmant qu’ils deviendraient « la marchandise la plus précieuse ». Le lendemain, Alibaba a annoncé la création du groupe Alibaba Token Hub, dirigé directement par le CEO Wu Yongming, avec pour objectif « de créer, transporter et appliquer des tokens ».

[Image : Jensen Huang lors de la conférence GTC montrant un graphique du coût et du revenu des tokens, divisant les centres de données en couches gratuites, intermédiaires, avancées et Premium, et présentant la prévision d’une multiplication par 5 des revenus grâce à la puce Vera Rubin par rapport à Grace Blackwell.]

Il y a un an, les tokens n’étaient qu’une unité de mesure technique pour les développeurs. Aujourd’hui, ils sont la langue utilisée par les fabricants de puces pour définir la valeur de leurs produits, la raison pour laquelle les géants du web restructurent leurs groupes autour d’eux, et aussi une nouvelle forme d’avantage et de KPI pour les offres d’emploi des ingénieurs.

Mais le classement Tokenmaxxing ne mesure que la consommation, personne ne suit combien de tâches efficaces ces tokens ont réellement permis d’accomplir.

C’est précisément le plus grand point aveugle de l’économie des tokens aujourd’hui.

Qu’est-ce qu’un ingénieur brûle réellement ?

210 milliards de tokens, cela semble énorme. Mais pour en comprendre la véritable signification, il faut abandonner une hypothèse : que le token est une unité standard.

[Image : Classement mondial de consommation de tokens Tokscale, un outil open source de suivi et de classement de l’utilisation des tokens, supportant plusieurs plateformes comme Claude Code, Cursor, OpenCode, Codex, où les utilisateurs peuvent soumettre des données pour le classement mondial.]

Il y a deux ans, la tarification des grands modèles était encore relativement simple, basée principalement sur le nombre de tokens d’entrée et de sortie. Mais aujourd’hui, les principaux fournisseurs ont des systèmes de tarification clairement stratifiés, et le même « token » peut coûter très différemment selon les conditions d’utilisation.

Par exemple, Anthropic facture 5 dollars pour un million de tokens en entrée pour Claude Opus 4.6, et 25 dollars pour la sortie. Avec le cache Prompt, le stockage en cache de 5 minutes coûte 6,25 dollars, celui d’une heure 10 dollars, et la lecture du cache 0,50 dollar. En utilisant l’API batch, les prix sont réduits de moitié. Si l’on limite l’inférence à la région US, les prix augmentent de 10 %. En mode Fast, les prix d’entrée et de sortie d’Opus 4.6 sont multipliés par 6.

Autrement dit, pour un même fournisseur, un même modèle, et la même unité de facturation « token », le coût peut varier de plusieurs fois, voire plus de dix fois, selon le cache, le traitement par lot, la région ou la vitesse.

Ce qui augmente réellement le coût, ce n’est plus seulement l’appel au modèle. La grille tarifaire d’OpenAI montre que la recherche web est facturée différemment selon le modèle : 10 dollars par millier de requêtes pour GPT-4.1 ou GPT-4o, contre 25 dollars pour GPT-5.

Les coûts de recherche de fichiers sont de 2,50 dollars par millier de requêtes, plus 0,10 dollar par GB de stockage par jour, avec 1 GB gratuit. Les conteneurs de code sont aussi facturés séparément : 0,03 dollar par GB pour 1 GB, avec des tarifs plus élevés pour 4, 16 ou 64 GB. À partir du 31 mars 2026, ces prix seront basés sur des sessions de 20 minutes par conteneur.

Au-delà du modèle, la recherche, la récupération, le stockage et l’exécution environnementale, autrefois considérés comme des capacités annexes, sont désormais séparés en centres de coûts indépendants.

Google suit la même voie. La page officielle de tarification de Vertex AI indique qu’à partir du 11 février 2026, Code Execution, Sessions et Memory Bank seront facturés séparément, selon le nombre d’heures de vCPU et de mémoire utilisée.

Aujourd’hui, parler du « prix des grands modèles » ne peut plus se limiter au prix unitaire du token d’entrée ou de sortie. La logique de facturation a changé : les fournisseurs vendent désormais une suite complète de capacités d’IA opérationnelles, stockables, recherchables, appelables et exécutables.

[Image : Capture d’écran de la page de tarification d’OpenAI, montrant la structure tarifaire multi-niveaux (Web Search, File Search, Containers, etc.) séparée du prix du token.]

Pourquoi le prix des tokens diminue-t-il, alors que la facture augmente ?

Si l’on regarde uniquement le prix affiché par l’API, le token devient presque donné. Opus d’Anthropic est passé de 15 dollars à 5 dollars par million, soit une réduction de deux tiers. DeepSeek V3.2 coûte 0,28 dollar. Google Gemini 2.5 Flash Lite tourne autour de 0,10 dollar.

Les modèles chinois ont un avantage tarifaire évident : selon OpenRouter, le prix d’un token chinois est environ un sixième à un dixième de celui des concurrents étrangers. Même après la fin des subventions lors de la phase bêta de Tencent Cloud Mix Yuan HY2.0 Instruct, avec une hausse de plus de 460 %, le prix d’entrée s’élève à environ 0,62 dollar par million de tokens, toujours inférieur à celui de Haiku 4.5 d’Anthropic (1 dollar), et moins d’un cinquième de Sonnet 4.6.

[Image : Artificial Analysis maintient un classement en temps réel des LLM, avec de grandes différences de prix entre modèles.]

Mais le coût total d’utilisation de l’IA ne baisse pas pour autant. Trois mécanismes jouent simultanément.

Premier, les modèles deviennent plus intelligents, mais aussi plus « bavards ». Selon Artificial Analysis, la consommation moyenne de tokens en sortie pour les modèles de raisonnement est environ 5,5 fois celle des modèles non-réflexifs. Anthropic et OpenAI facturent les tokens d’extension de réflexion en fonction des tokens de sortie, ce qui signifie que plus le modèle pense profondément, plus la facture s’allonge. La baisse du prix unitaire est compensée par une multiplication par plusieurs fois du volume total de tokens pour une même tâche.

Deuxième, l’agent transforme la consommation de tokens d’un « unique usage » en une « consommation continue ». C’est la véritable force motrice derrière Tokenmaxxing : les ingénieurs ne tapent pas manuellement des tokens, mais leurs agents d’IA fonctionnent 24h/24, automatisant la division des tâches, l’appel aux outils et l’auto-optimisation. Selon Alibaba Cloud, la consommation de calcul d’un seul agent est 100 à 1000 fois celle d’un chatbot traditionnel. La consommation quotidienne de tokens en Chine a dépassé 30 trillions en 2025, atteignant 180 trillions en février 2026.

Troisième, le coût de production des tokens augmente. Le 18 mars 2026, Alibaba Cloud et Baidu Cloud ont annoncé une hausse des prix des produits d’IA, jusqu’à 34 %. AWS a augmenté ses prix d’environ 15 % en janvier, et Google Cloud a annoncé une hausse des coûts d’infrastructure IA à partir de mai.

Un expert du secteur cloud déclare : « La hausse des prix du marché cloud est principalement dictée par l’offre et la demande, et par le coût. La tendance des prix dans la chaîne d’approvisionnement influence aussi fortement ces coûts. »

GPU, stockage parallèle, réseaux à haute vitesse, électricité des centres de données, tout ce qui est nécessaire pour produire des tokens voit ses coûts augmenter, même si le prix des modèles baisse. Lors du lancement d’Opus 4.6, Anthropic a insisté sur le fait que « le prix resterait inchangé », sous-entendant que la meilleure capacité serait supportée par les fabricants eux-mêmes.

Autrement dit, le modèle est le moteur, mais le carburant, le stationnement et les péages augmentent.

Ces trois mécanismes, combinés, creusent un écart de plus en plus grand entre le prix affiché du token et le coût réel pour accomplir une tâche.

L’essence de l’anxiété Token

Revenons à Tokenmaxxing. Le classement ne mesure que la consommation de tokens, pas la qualité du résultat. Un ingénieur qui brûle 33 Wikipedia en une semaine ne réalise pas pour autant 33 Wikipedia de valeur.

Les grandes entreprises inscrivent la consommation de tokens dans leurs KPI ou en font un « avantage », mais cela traduit-il vraiment une augmentation de productivité ou une simple « performance de spectacle » ?

Cela touche à la faille structurelle la plus fondamentale de l’économie des tokens : il n’existe pas encore de mesure efficace reliant la consommation de tokens à l’accomplissement des tâches. Les tokens mesurent l’effort, pas le résultat. Un agent ayant consommé 1 million de tokens pour une tâche, et un autre 100 000, peuvent tous deux avoir accompli la même chose, mais dans le classement Tokenmaxxing, celui qui a consommé plus sera mieux classé.

Léonard Lütke, PDG de Shopify, a souligné dans sa note : certains collègues réaliseraient « dix fois plus de résultats qu’on ne pensait possible », sans fournir de critères précis pour cette évaluation.

Une nouvelle forme d’anxiété professionnelle apparaît : ne pas dépenser beaucoup de tokens pour prouver la productivité de l’IA pourrait être perçu comme un retard. Cette logique est identique à celle des années 2000, où chaque entreprise voulait son site web, ou des années 2010, où chaque marque devait avoir une application : l’adoption technologique devient un signal, la consommation devient un indicateur proxy, et la véritable valeur est repoussée.

Mais cette fois, le coût est réel. 150 000 dollars par mois en factures IA, 210 milliards de tokens brûlés en une semaine, des coûts d’infrastructure en constante hausse — Tokenmaxxing n’est pas gratuit. Quand le coût devient élevé, la différence entre « brûler des tokens » et « créer de la valeur avec des tokens » devient une question financière, pas seulement philosophique.

Le prix du token continuera probablement à baisser, cela ne fait pas de doute.

Ce qui compte vraiment, c’est qui peut transformer le plus efficacement les tokens en taux d’accomplissement. Pour chaque programmeur, chaque entreprise, chaque utilisateur ordinaire, la vraie mesure du coût de l’IA ne doit pas être le prix par million de tokens, mais combien de tokens il faut pour réaliser une tâche.

L’écart entre ces deux chiffres représente la plus grande opportunité commerciale, mais aussi le piège de coût le plus profond, dans cette nouvelle ère où l’intelligence est mesurée en tokens.

Voir l'original

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Commentaire

0/400

Aucun commentaire