Hugging Face đã chia sẻ lại công cụ turboquant-gpu, tuyên bố cung cấp nén bộ đệm KV với tốc độ 5.02 lần

MeNews · 2026-04-06T00:03:25+00:00

Hugging Face gần đây đã ra mắt công cụ turboquant-gpu, hỗ trợ nhiều loại GPU, tuyên bố có thể đạt được nén bộ đệm KV lên tới 5.02 lần, tương thích với thư viện Transformers, cung cấp API đơn giản chỉ với 3 dòng mã, đồng thời sử dụng công nghệ Lloyd-Max 3-bit, hiệu suất vượt trội hơn MXFP4.

MeNews

2026-04-06 00:03:25

Đang tạo bản tóm tắt

Tin tức ME, vào ngày 6 tháng 4 (UTC+8), Hugging Face gần đây đã đăng lại tin nhắn do anirudhbv_ce chia sẻ, thông báo ra mắt công cụ turboquant-gpu. Công cụ này tuyên bố có thể cung cấp tới 5,02 lần mức nén bộ nhớ đệm KV cho bất kỳ GPU nào (bao gồm RTX, H100, A100, B200). Theo phần giới thiệu trong bài, các điểm nổi bật của nó bao gồm: tương thích với thư viện Hugging Face Transformers; cung cấp API cực kỳ đơn giản, tuyên bố chỉ cần 3 dòng mã là có thể thực hiện nén và tạo; sử dụng kỹ thuật nén KV hợp nhất 3-bit Lloyd-Max, và tuyên bố đạt độ tương đồng cosin 0,98. Quan điểm trong bài cho rằng hiệu năng của nó vượt trội so với MXFP4 (nén 3,76 lần) và một giải pháp khác không được đặt tên. (Nguồn: InFoQ)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.