Según BlockBeats, el CEO de Coinbase, Brian Armstrong, declaró el 27 de junio que la clave para mantener estables los costos de IA mientras el uso de tokens crece exponencialmente no es restringir el uso, sino emplear mejores modelos predeterminados y mecanismos de caché. Coinbase está adoptando modelos de pesos abiertos como GLM 5.2 y Kimi 2.7 a través de su puerta de enlace LLM, al mismo tiempo que anima a los ingenieros a seleccionar los modelos adecuados para tareas específicas. La empresa señaló que el 91% de los empleados nunca alcanza los límites de uso, por lo que, en lugar de reducir las cuotas, optó por migrar a modelos predeterminados de menor costo.
Coinbase ha implementado gestión de solicitudes con conocimiento de caché y enrutamiento inteligente de modelos basado en tasas de acierto de caché. Por ejemplo, tras optimizar la implementación de caché, la tasa de acierto de caché de LibreChat mejoró del 5% al 60%. Mediante estas prácticas, Coinbase ha reducido el gasto en IA casi a la mitad mientras el uso de tokens sigue creciendo.