Baseten stellt eine Methode zur Still-KV-Cache-Kompression vor, die eine 200-fache Kompressionsrate erreicht

Laut Beating hat das Forschungsteam von Baseten Still vorgestellt, eine Methode zur KV-Cache-Komprimierung, die in einem einzigen Vorwärtsdurchlauf bis zu 200-fache Komprimierung erreicht – ohne Online-Optimierung oder Gradient-Updates. Still integriert leichte Perceiver-Kompressoren, die etwa 1% der Parameter des Basismodells ausmachen, in jede Transformer-Schicht und nutzt Cross-Attention auf den vollständigen KV-Cache, um den komprimierten Cache direkt zu erzeugen. Getestet an Qwen- und Gemma-Modellen über Kontextfenster von 8k bis 64k bei Komprimierungsraten von 8x bis 200x, hielt Still eine hohe Genauigkeit aufrecht und schnitt bei dem RULER-Benchmark besser ab als vergleichbare Methoden wie SnapKV, H2O und KV-Distill.
Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare