Baseten Ra mắt phương pháp nén Still KV Cache đạt tỷ lệ nén 200x

Theo Beating, nhóm nghiên cứu Baseten đã công bố Still, một phương pháp nén KV cache đạt tới 200x trong một lần forward pass duy nhất mà không cần tối ưu hóa online hoặc cập nhật gradient. Still tích hợp các Perceiver compressor nhẹ—có kích thước xấp xỉ 1% số tham số của mô hình nền—vào từng lớp Transformer, thực hiện cross-attention trên toàn bộ KV cache để tạo cache nén trực tiếp. Được kiểm thử trên các mô hình Qwen và Gemma với cửa sổ ngữ cảnh từ 8k đến 64k ở mức nén 8x đến 200x, Still vẫn duy trì độ chính xác cao trong khi vượt trội các phương pháp tương đương như SnapKV, H2O và KV-Distill trên bộ benchmark RULER.
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận