Les GPU Nvidia Blackwell coûtent deux fois plus cher, mais le coût d’inférence par token baisse de 35 fois par rapport à Hopper

D’après l’analyse la plus récente du blog de Nvidia, les GPU Blackwell coûtent près du double par heure par rapport à la génération Hopper, tout en affichant des coûts d’inférence par jeton 35 fois plus faibles. En utilisant DeepSeek-R1 comme modèle de test, Blackwell (GB300 NVL72) est loué à 2,65 dollars par GPU et par heure contre 1,41 pour Hopper, mais le débit par GPU passe de 90 à 6 000 tokens par seconde. Ce gain de débit de 65x réduit les coûts par million de tokens de 4,20 dollars à 0,12.

Le chiffre de 0,12 suppose une optimisation logicielle complète, incluant l’inférence en FP4 à faible précision et la prédiction multi-token (MTP). Sans activer MTP, les coûts par million de tokens atteignent environ 2,35 dollars, puis retombent à 0,11 avec elle activée, ce qui met en évidence un impact d’optimisation de 21x rien que grâce à cette fonctionnalité.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

L’IA de Microsoft pour les entreprises double à $370B de revenus récurrents annuels ; prévoit $190B de Capex pour 2026

Le 29 avril, Microsoft a annoncé ses résultats du troisième trimestre de l’exercice 2026 pour la période close le 31 mars, dépassant les attentes du marché. Le chiffre d’affaires du T3 a atteint 82,886 milliards de dollars, en hausse de 18% d’une année sur l’autre et au-dessus des 81,4 milliards de dollars attendus ; le bénéfice net GAAP a progressé de 23% pour atteindre 31,778 milliards de dollars ; le bénéfice dilué par action (hors GAAP) a augmenté pour atteindre

GateNewsIl y a 5m

OpenAI DevDay 2026 se tiendra le 29/09 à San Francisco

Annonce officielle d’OpenAI du 29 avril : la conférence des développeurs phare DevDay 2026 se tiendra le 29 septembre à San Francisco, dans un format de conférence physique que l’on n’avait pas vu depuis de nombreuses années. Une autre annonce concerne également un concours de soumissions : les développeurs utilisent GPT-5.5 et Image Gen pour créer des œuvres à soumettre ; chaque semaine, Codex sélectionnera 2 à 3 soumissions parmi les candidatures afin de récompenser leurs auteurs avec des billets gratuits pour DevDay (incluant les billets d’avion interurbains et les frais d’hôtel). Thème de la conférence : un écosystème développeur autour de GPT-5.5 + Image Gen La pile d’applications centrale pour ce DevDay s’articule clairement autour de GPT-5.5. GPT-5.5 a été mis en ligne le 23 avril, puis l’API a été entièrement ouverte le 24 ; fin avril GPT-5.4

ChainNewsAbmediaIl y a 49m

BioMysteryBench : Mythos résout le mystère de l'impossible 29,6 %

Anthropic le 29 avril a publié, dans une annonce officielle de recherche, BioMysteryBench—un nouvel ensemble de critères d’évaluation pour mesurer les capacités d’analyse en bio-informatique de l’IA, composé de questions ouvertes issues de scénarios de recherche réels. Les données les plus à surveiller sont les suivantes : parmi les questions que le groupe d’experts humains n’a pas réussi à résoudre, le modèle phare d’Anthropic, Mythos, en a résolu 29,6 %, et Opus 27,0 %. Conception de l’évaluation : double parcours, problèmes résolubles et problèmes non résolus par les experts BioMysteryBench se compose de deux types de questions. Le premier type est « résoluble »—des tâches d’analyse conçues par des chercheurs en bio-informatique, avec des réponses standard permettant la comparaison ; le second type est « non résoluble par les experts »—des questions que le groupe d’experts humains, après tentative, n’a pas réussi à trouver avec une réponse crédible, afin de tester si le modèle peut dépasser les limites des connaissances actuelles du domaine.

ChainNewsAbmediaIl y a 52m

OpenAI annonce le lancement imminent du modèle de cybersécurité GPT-5.5-Cyber

Selon Cointelegraph, Sam Altman a annoncé qu’OpenAI lancera GPT-5.5-Cyber, un modèle de cybersécurité, dans les prochains jours. Le modèle sera mis à la disposition des défenseurs critiques de la cybersécurité, qu’OpenAI prévoit d’établir des mécanismes d’accès de confiance en collaboration avec des entités gouvernementales afin de

GateNewsIl y a 1h

Le PDG de Google DeepMind prédit que l’AGI arrivera d’ici 2030, donnant aux entreprises quatre ans pour se préparer

Dans une série de vidéos de Sequoia Capital mettant en vedette Demis Hassabis, le PDG de Google DeepMind prédit que l’intelligence artificielle générale (AGI) arrivera d’ici 2030. Hassabis, lauréat du prix Nobel de chimie 2024, considère ce calendrier comme une réalité économique stricte qui contraint les dirigeants à repenser le produit de

GateNewsIl y a 1h

OpenAI doit fonctionner comme une entreprise structurellement peu rentable, signe un contrat d’énergie de 20 ans

Selon Odaily, le PDG d’OpenAI, Sam Altman, a déclaré lors des Stripe Sessions que OpenAI vise à devenir une entreprise d’infrastructure massive et à forte croissance, mais durablement peu rentable, en proposant des produits similaires à un « compteur intelligent » que les utilisateurs peuvent acheter pour automatiser les opérations commerciales ou intégrer à

GateNewsIl y a 1h
Commentaire
0/400
Aucun commentaire