Xiaomi、階層型キャッシュによりMiMo APIコストを80%削減、10層のGQAモデルに相当

Beatingによると、Xiaomiは、DeepSeekに合わせた最近の値下げの後、MiMo-V2.5 API向けの中核となる最適化手法を明らかにした。同社の高負荷推論エンジンは、ハイブリッドな注意(attention)アーキテクチャと階層型KVキャッシュの最適化により、収益性を維持している。

Xiaomiの推論フレームワークは、スライディングウィンドウ注意(SWA)に対する階層型最適化を導入することで、キャッシュコストを80%削減し、トークン容量を5倍に引き上げた。70層のMiMo-V2.5-Proモデルは、グローバル注意(GA)層とSWA層の間で1:7の疎(sparse)比率を用い、伝統的な10層のグローバルGQAモデルと同等のプリフィル計算を実行することで、推論コストを大幅に下げている。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし