Theo BlockBeats, CEO của Coinbase, Brian Armstrong, phát biểu vào ngày 27 tháng 6 rằng chìa khóa để duy trì chi phí AI ổn định trong khi việc sử dụng token tăng theo cấp số nhân không phải là hạn chế sử dụng, mà là sử dụng các mô hình mặc định tốt hơn và cơ chế lưu vào bộ nhớ đệm (caching). Coinbase đang mặc định sử dụng các mô hình trọng số mở như GLM 5.2 và Kimi 2.7 thông qua cổng LLM của mình, đồng thời vẫn khuyến khích các kỹ sư lựa chọn mô hình phù hợp cho từng tác vụ cụ thể. Công ty cho biết 91% nhân viên không bao giờ chạm tới giới hạn sử dụng, vì vậy thay vì hạ hạn mức, họ đã chuyển sang các mô hình mặc định có chi phí thấp hơn.
Coinbase đã triển khai xử lý yêu cầu có nhận biết bộ nhớ đệm và định tuyến mô hình thông minh dựa trên tỷ lệ truy cập bộ nhớ đệm. Ví dụ, sau khi tối ưu hóa việc triển khai bộ nhớ đệm, tỷ lệ truy cập bộ nhớ đệm của LibreChat đã cải thiện từ 5% lên 60%. Thông qua các thực tiễn này, Coinbase đã giảm gần một nửa chi tiêu cho AI trong khi việc sử dụng token vẫn tiếp tục tăng trưởng.