Baseten เปิดตัววิธีการบีบอัด Still KV Cache ที่ทำอัตราการบีบอัดได้ 200 เท่า

ตามการเปิดเผยของ Beating ทีมวิจัย Baseten ได้นำเสนอ Still ซึ่งเป็นวิธีการบีบอัด KV cache ที่ทำให้บีบอัดได้สูงสุดถึง 200 เท่าในการส่งต่อครั้งเดียว โดยไม่ต้องมีการปรับจูนแบบออนไลน์หรือการอัปเดตกราเดียนต์ Still ผสาน Perceiver compressor ที่มีน้ำหนักเบา ซึ่งมีขนาดราว 1% ของพารามิเตอร์โมเดลพื้นฐาน เข้าไปในแต่ละชั้นของ Transformer โดยใช้ cross-attention กับ KV cache ทั้งหมดเพื่อสร้างแคชที่ถูกบีบอัดโดยตรง ทำการทดสอบกับโมเดล Qwen และ Gemma ในช่วง context window 8k ถึง 64k อัตราการบีบอัด 8 เท่า ถึง 200 เท่า Still ยังคงรักษาความแม่นยำสูง และทำได้ดีกว่าวิธีที่เทียบเคียงได้อย่าง SnapKV, H2O และ KV-Distill ในเกณฑ์ RULER
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น