Xiaomi Cắt Giảm Chi Phí API MiMo 80% Nhờ Bộ Nhớ Đệm Phân Cấp, Tương Đương Mô Hình GQA 10 Tầng

2026-05-27 14:31:02

Theo Beating, Xiaomi đã tiết lộ các kỹ thuật tối ưu hóa cốt lõi cho API MiMo-V2.5 của mình sau đợt cắt giảm giá gần đây đồng bộ với DeepSeek. Công cụ suy luận chịu tải cao của công ty vẫn duy trì lợi nhuận nhờ kiến trúc attention lai và tối ưu hóa bộ nhớ đệm KV phân cấp.

Khung suy luận của Xiaomi đạt mức giảm 80% chi phí cache bằng cách triển khai tối ưu hóa phân cấp cho sliding window attention (SWA), đồng thời tăng dung lượng token lên 5 lần. Mô hình MiMo-V2.5-Pro gồm 70 lớp, sử dụng tỷ lệ thưa 1:7 giữa các lớp global attention (GA) và SWA, thực hiện các phép tính prefill tương đương với mô hình global GQA truyền thống 10 lớp, qua đó giảm đáng kể chi phí suy luận.

Xem nguồn

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.

Tin tức liên quan

05-27 04:57

MiniMax phát hành Báo cáo kỹ thuật M2; Hệ thống Forge đạt mức tăng tốc huấn luyện 40 lần

05-27 01:06

API Xiaomi MiMo Giảm Giá Tới 99%, Ra Mắt Cơ Chế Thanh Toán Theo Ngữ Cảnh Thống Nhất

05-26 09:33

Xiaomi Đổi mới phân khúc kinh doanh, doanh thu đạt 13,9 tỷ nhân dân tệ, tăng 6,9% so với cùng kỳ năm ngoái trong Q1/2026

05-26 08:14

DeepSeek V4 Flash xếp hạng #1 trên OpenRouter với 7,99 nghìn tỷ token chỉ trong 1 tháng sau khi ra mắt

05-26 06:04

B.AI ra mắt Gemini 3.5 Flash trên web chat, mở rộng khả năng tiếp cận với cả Dual API và các kênh chat

Phân tích chuyên sâu