Baseten Meluncurkan Metode Kompresi Still KV Cache yang Mencapai Rasio Kompresi 200x

Tim riset Beating mengungkapkan Still, sebuah metode kompresi KV cache yang mencapai hingga 200x kompresi dalam satu kali forward pass tanpa optimasi online atau pembaruan gradien. Still mengintegrasikan Perceiver compressor berukuran ringan—sekitar 1% dari parameter model dasar—ke dalam setiap lapisan Transformer, menerapkan cross-attention pada seluruh KV cache untuk menghasilkan compressed cache secara langsung. Diuji pada model Qwen dan Gemma di rentang context window 8k hingga 64k dengan tingkat kompresi 8x hingga 200x, Still mempertahankan akurasi tinggi sekaligus mengungguli metode sebanding seperti SnapKV, H2O, dan KV-Distill pada benchmark RULER.
Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar