Segundo o BlockBeats, o CEO da Coinbase, Brian Armstrong, afirmou no dia 27 de junho que a chave para manter os custos de IA estáveis enquanto o uso de tokens cresce exponencialmente não é restringir a utilização, mas usar melhores modelos predefinidos e mecanismos de cache. A Coinbase está a adotar modelos de peso aberto, como o GLM 5.2 e o Kimi 2.7, através do seu gateway LLM, ao mesmo tempo que continua a incentivar os engenheiros a selecionar modelos adequados para tarefas específicas. A empresa observou que 91% dos funcionários nunca atingiram os limites de utilização, por isso, em vez de reduzir as quotas, passou a usar modelos predefinidos de menor custo.
A Coinbase implementou uma gestão de pedidos consciente da cache e um roteamento inteligente de modelos baseado nas taxas de acerto da cache. Por exemplo, após otimizar a implementação da cache, a taxa de acerto da cache do LibreChat melhorou de 5% para 60%. Através destas práticas, a Coinbase reduziu os gastos com IA em quase metade enquanto o uso de tokens continua a crescer.