Beatingによれば、Basetenの研究チームは、オンライン最適化や勾配更新を行わずに単一のフォワードパスで最大200倍の圧縮を実現する、KVキャッシュ圧縮手法「Still」を発表した。Stillは、基盤モデルのパラメータの約1%の大きさに相当する軽量なPerceiverコンプレッサーを、各Transformer層に組み込み、クロスアテンションで全KVキャッシュに直接適用して、圧縮キャッシュをその場で生成する。8kから64kのコンテキストウィンドウで8倍から200倍の圧縮率にわたって、QwenおよびGemmaモデルで検証した結果、Stillは高い精度を維持しつつ、RULERベンチマークにおいてSnapKV、H2O、KV-Distillのような同等の手法を上回った。
免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、
免責事項をご確認ください。