Baseten Ra mắt phương pháp nén Still KV Cache đạt tỷ lệ nén 200x

2026-06-12 10:53:27

Theo Beating, nhóm nghiên cứu Baseten đã công bố Still, một phương pháp nén KV cache đạt tới 200x trong một lần forward pass duy nhất mà không cần tối ưu hóa online hoặc cập nhật gradient. Still tích hợp các Perceiver compressor nhẹ—có kích thước xấp xỉ 1% số tham số của mô hình nền—vào từng lớp Transformer, thực hiện cross-attention trên toàn bộ KV cache để tạo cache nén trực tiếp. Được kiểm thử trên các mô hình Qwen và Gemma với cửa sổ ngữ cảnh từ 8k đến 64k ở mức nén 8x đến 200x, Still vẫn duy trì độ chính xác cao trong khi vượt trội các phương pháp tương đương như SnapKV, H2O và KV-Distill trên bộ benchmark RULER.

Xem nguồn

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.

Tin tức liên quan

1giờ trước

Moonshot AI phát hành mô hình mã Kimi K2.7, hiệu năng tăng 21,8%, phiên bản tốc độ cao ra mắt ngày 15/6

2giờ trước

Tencent Cloud cắt giảm giá các mô hình MiniMax-M3 và Hy-MT2-Pro lên tới 66,67% bắt đầu từ ngày 12/6

3giờ trước

Google Antigravity ra mắt bảng điều khiển hạn mức, đặt lại hạn mức Gemini hằng tuần

18giờ trước

Google hợp tác với Samsung để sản xuất chip AI Icefish thế hệ tiếp theo bằng quy trình 2 nanomet

06-11 06:13

Anthropic hủy bỏ các nâng cấp hiệu năng “Silent Claude”, xin lỗi sau làn sóng phản đối từ cộng đồng

Phân tích chuyên sâu