DeepSeek và Xiaomi cắt giảm giá API khi phòng thí nghiệm Mỹ tăng tỷ lệ
DeepSeek đã chuyển khoản giảm 75% cho DeepSeek V4-Pro thành vĩnh viễn vào ngày 22/05/2026, cố định giá đầu ra ở mức 0,87 USD cho mỗi 1 triệu token. Xiaomi tiếp bước vào ngày 26/05, cắt giá API của MiMo-V2.5 tối đa 99% cho các đầu vào được cache, với mô hình Pro hiện ở mức 0,0036 USD cho mỗi 1 triệu token đối với đầu vào được cache. Việc giảm giá xuất phát từ các tối ưu kỹ thuật trong framework suy luận và kiến trúc KV cache. Những đợt cắt này diễn ra trong bối cảnh OpenAI đã gấp đôi giá đầu ra GPT-5.5 lên 30 USD cho mỗi 1 triệu token khi ra mắt vào cuối tháng 4, và Anthropic phát hành Claude Opus 4.7 kèm tokenizer mới tạo ra tối đa 35% token hơn cho cùng một văn bản đầu vào, có thể làm chi phí thực tế tăng lên dù bảng giá theo tỷ lệ không đổi.
Thay đổi giá mang tính vĩnh viễn đã công bố
DeepSeek V4-Pro hiện có giá 0,435 USD đầu vào và 0,87 USD đầu ra cho mỗi 1 triệu token. Mức giảm 75%, trước đây được đặt để hết hạn, đã trở thành vĩnh viễn từ sớm hơn trong tuần này. MiMo-V2.5-Pro của Xiaomi khớp mức 0,435/0,87 USD cho mỗi 1 triệu token sau các đợt cắt ngày 26/05. Lượt cache cho MiMo-V2.5 giảm xuống 0,0036 USD cho mỗi 1 triệu token. Nâng cấp tính phí của Xiaomi cho người dùng 5 đến 8 lần nhiều token hơn với cùng một mức giá. Gói Max ở mức 100 USD hiện cung cấp 82 tỷ token, tăng từ 1,6 tỷ.
Cài đặt kỹ thuật đằng sau việc giảm giá
Fuli Luo, trưởng nhóm MiMo của Xiaomi và là nhà phát triển cốt lõi trước đây của DeepSeek, người đồng xây dựng DeepSeek-V2, đã đăng lời giải thích kỹ thuật trên X vào ngày 27/05. Framework suy luận hiện hỗ trợ tối ưu KV cache phân cấp cho SWA. Các bài kiểm tra động cơ suy luận sản xuất cho thấy tối ưu này làm tăng dung lượng token được cache lên khoảng 5 lần. Hệ thống giảm chi phí lưu trữ và xử lý khoảng 80%. “Với việc vận hành ở các mức giá API đã được giảm mới này, động cơ suy luận sản xuất của chúng tôi đang chạy gần như hết công suất, và chúng tôi vẫn có thể về cơ bản cân bằng,” Luo viết.
DeepSeek V4 dùng hai loại attention xen kẽ: một loại nén mỗi 4 token cho attention chọn lọc, và một loại gộp mỗi 128 token để lấy ngữ cảnh toàn cục. Ở ngữ cảnh 1 triệu token, KV cache của V4-Pro chỉ còn 10% kích thước so với người tiền nhiệm. Suy luận theo từng token chạy ở mức 27% chi phí tính toán trước đó.
Điểm chuẩn hiệu năng và so sánh giá
DeepSeek V4-Pro đạt 80,6% trên SWE-Verified. Claude Opus 4.6 đạt 80,8% trên cùng benchmark đo khả năng giải quyết issue GitHub thực tế. Chênh lệch giá giữa hai mô hình: 34x ở đầu ra. DeepSeek V4-Pro là mô hình tham số 1,6 nghìn tỷ.
Claude Opus 4.7 có giá 5 USD cho mỗi 1 triệu token đầu vào và 25 USD cho mỗi 1 triệu token đầu ra. GPT-5.5 chạy ở mức 30 USD cho mỗi 1 triệu token đầu ra, gấp đôi tỷ lệ của thế hệ trước. Gemini 2.5 Pro nằm ở 1,25 USD đầu vào và 10 USD đầu ra cho mỗi 1 triệu token.
MiniMax M2.7 có giá 0,30 USD đầu vào và 1,20 USD đầu ra cho mỗi 1 triệu token. Kimi K2.5 của Moonshot AI, với 76,8% trên SWE-bench Verified, chạy ở mức 0,60 USD đầu vào và 2,50 USD đầu ra. GLM-5.1 của Z.AI vượt Claude Opus 4.6 trên một benchmark lập trình trong quý 2/2026. Bốn mô hình frontier Trung Quốc đã được phát hành trong một khung 12 ngày đầu tháng 5, tất cả đều dưới 1/3 chi phí theo token của Opus 4.7. Chi phí của DeepSeek V4-Pro cho token đầu vào được cache là 0,003625 USD cho mỗi 1 triệu token.
Định vị thị trường giữa các nhà cung cấp
Khoảng cách giá Q2/2026 giữa các mô hình frontier Trung Quốc và Mỹ dao động từ 15x đến 30x, tùy theo cách so sánh mô hình. Mức nền này tồn tại trước các đợt giảm giá theo cache. Anthropic giữ nguyên bảng giá của Claude Opus 4.7 nhưng phát hành kèm tokenizer mới có thể tạo ra tối đa 35% token hơn cho cùng một văn bản đầu vào.