Selon BlockBeats, le PDG de Coinbase, Brian Armstrong, a déclaré le 27 juin que la clé pour maintenir des coûts d'IA stables alors que l'utilisation des jetons croît de manière exponentielle n'est pas de restreindre l'usage, mais d'utiliser de meilleurs modèles par défaut et des mécanismes de mise en cache. Coinbase adopte par défaut des modèles à poids ouverts tels que GLM 5.2 et Kimi 2.7 via sa passerelle LLM, tout en encourageant les ingénieurs à sélectionner les modèles appropriés pour des tâches spécifiques. L'entreprise a noté que 91 % des employés n'atteignent jamais les limites d'utilisation, donc plutôt que de réduire les quotas, elle est passée à des modèles par défaut moins coûteux.
Coinbase a mis en œuvre une gestion des requêtes tenant compte du cache et un routage intelligent des modèles basé sur les taux de succès du cache. Par exemple, après avoir optimisé l'implémentation du cache, le taux de succès du cache de LibreChat est passé de 5 % à 60 %. Grâce à ces pratiques, Coinbase a réduit ses dépenses en IA de près de moitié tandis que l'utilisation des jetons continue de croître.