ME Tin tức tin, ngày 18 tháng 4 (UTC+8), theo giám sát của Động Trắc Beating, mặt tối của mặt trăng (Moonshot AI) và Đại học Thanh Hoa đã đăng bài báo mới trên arXiv ngày 16 tháng 4 mang tên 《Prefill-as-a-Service》, đề xuất cho phép giai đoạn tiền điền (prefill) của suy luận mô hình lớn chạy trên nhiều trung tâm dữ liệu.
Suy luận mô hình lớn gồm hai bước: prefill đọc toàn bộ đầu vào một lần và tạo ra một bộ đệm KV; decode sau đó dựa trên bộ đệm này để từng chữ xuất ra kết quả.
Hai bước này yêu cầu đặc tính phần cứng hoàn toàn khác nhau, prefill tiêu tốn sức mạnh tính toán, decode tiêu thụ bộ nhớ GPU và băng thông bộ nhớ đệm.
Phương pháp chủ đạo trong ngành là tách hai bước ra các máy khác nhau (PD phân tách), nhưng điều này yêu cầu hai bên trong cùng một trung tâm dữ liệu kết nối qua RDMA, vì bộ đệm KV của mô hình attention tập trung sẽ phát ra hàng chục Gbps mỗi giây, nếu truyền chậm GPU sẽ rỗng chạy.
Sự đột phá đến từ mô hình attention lai thế hệ mới.
Bài báo thực nghiệm cho thấy các mô hình Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T, v.v., qua việc kết hợp một số lớp attention đầy đủ với nhiều lớp tuyến tính, đã giảm lượng tiêu thụ bộ đệm KV khoảng một cấp độ,
Ring-2.5-1T đạt tỷ lệ nén tổng hợp lên tới 36 lần.
Lúc này, bộ đệm KV có thể chuyển từ mạng riêng RDMA sang mạng Ethernet thông thường để truyền tải.
Cách thực hiện của PrfaaS: thành lập "cụm tiền điền" độc lập, chỉ định tuyến các yêu cầu có ngữ cảnh dài, tiền tố chưa trúng, còn các yêu cầu ngắn giữ lại trong cụm PD cục bộ;
Sau khi tiền điền hoàn tất, truyền bộ đệm KV về lại cụm cục bộ qua Ethernet để thực hiện decode.
Kèm theo đó là giới hạn độ dài tuyến đường, bộ điều phối cảm nhận băng thông và bể đệm tiền tố lai.
Bài báo đã thực nghiệm với mô hình hybrid nội bộ 1T tham số (dựa trên kiến trúc Kimi Linear), cho thấy tổng thể dịch vụ đạt throughput cao hơn 54% so với triển khai PD đồng nhất,
vượt xa 32% so với phương án lai dị hợp đơn thuần, mỗi máy chỉ tiêu thụ băng thông liên trung tâm dữ liệu vừa phải.
(Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

7 thích

Phần thưởng
7
8
2
Retweed

Bình luận

Thêm một bình luận

DustCollector

· 1giờ trước

Tăng 32% trong nâng cao dị hợp đơn giản, tăng 54% trong PD đồng hợp, thiết lập nhóm đối chứng khá vững chắc

Xem bản gốcTrả lời0

Glass-HeartMarketMaker

· 1giờ trước

Thanh Hoa + Mặt tối của tháng, hạ tầng mô hình lớn nội địa bắt đầu cạnh tranh để đứng vào hàng đầu toàn cầu

Xem bản gốcTrả lời0

StainedGlassSolarArray

· 1giờ trước

Trăng mờ, pha xử lý này khá thú vị, bỏ qua phần điền trước, tập trung giải mã cục bộ, trì hoãn và chi phí cùng thắng lợi

Xem bản gốcTrả lời0

MirrorBallReflection

· 1giờ trước

Mô hình chú ý hỗn hợp là cốt lõi, bộ nhớ đệm KV có thể truyền qua mạng Ethereum, tỷ lệ nén đạt bao nhiêu?

Xem bản gốcTrả lời0

PineNeedlesAndColdWind

· 1giờ trước

Lập lịch cảm nhận băng thông nghe có vẻ đơn giản, nhưng thực tế triển khai toàn là chông gai, họ thậm chí đã làm được rồi

Xem bản gốcTrả lời0

GoldfishUnderTheIce

· 1giờ trước

Mô hình 1T tham số đã chạy thành công, cho thấy kiến trúc này không vấn đề về khả năng mở rộng, không phải chuyện nhỏ nhặt

Xem bản gốcTrả lời0

MarginMoth

· 2giờ trước

Tên PrfaaS này được đặt là Prefill as a Service, mô hình đám mây đã được chuyển sang suy luận mô hình lớn.

Xem bản gốcTrả lời0

GateUser-78acf617

· 2giờ trước

54% tăng throughput, dữ liệu này trông thật dễ chịu, kiến trúc đa dạng cuối cùng không còn là lý thuyết suông nữa

Xem bản gốcTrả lời0

Chủ đề thịnh hành
Xem thêm
#
WinGoldBarsWithGrowthPoints
1.22M Phổ biến
#
WTICrudeFallsBelow90Dollars
1.18M Phổ biến
#
IsraelStrikesIranBTCPlunges
51.36K Phổ biến
#
StockTradingChallengeUpTo17000U
188.09K Phổ biến
#
USIranNegotiationGame
9.41M Phổ biến

Đã ghim

sơ đồ trang web

Mặt tối của mặt trăng và bài báo mới của Tsinghua: Tiền điền trước LLM có thể vượt qua trung tâm dữ liệu, thông lượng của mô hình 1T tăng 54%

Chủ đề thịnh hành

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Đã ghim