
Còn Đó Tâm 于 2 tháng 6 đưa tin rằng công ty Mindverse thuộc Thiên Châu Khoa Kỹ (Mindverse) gần đây liên tục công bố các kết quả nghiên cứu về tinh chỉnh hiệu quả LoRA và PEFT. Chỉ số chính của δ-mem là: với mức gia tăng tham số thấp đến 0,12%, trong các bài kiểm thử nặng về Memory Agent Bench và chuẩn ghi nhớ LoCoMo, đã mang lại mức cải thiện hiệu năng lần lượt 1,31 lần và 1,20 lần.
δ-mem: Cơ chế kỹ thuật được xác nhận và các con số thử nghiệm chuẩn
δ-mem là một kiến trúc chú ý tuyến tính lai song song được thiết kế dành riêng cho các đặc tính của LoRA. KV cache của Transformer truyền thống trong suy luận là bộ đệm đông cứng, vốn không có khả năng cập nhật; δ-mem đưa vào “trạng thái ghi nhớ liên kết trực tuyến” (Online State of Associative Memory), duy trì một ma trận 8×8 và trong quá trình đầu vào token sử dụng quy tắc gia tăng (delta-rule learning) để cập nhật liên tục, đồng thời khi sinh ra áp dụng hiệu chỉnh cấp thấp (low-rank corrections) lên Attention Query và Output của mạng xương sống.
Theo các con số chính thức từ Mind Lab:
Gia tăng tham số: thấp đến 0,12%
Memory Agent Bench: cải thiện: 1,31 lần
LoCoMo: cải thiện: 1,20 lần
Ngay cả khi loại bỏ bối cảnh lịch sử tường minh: vẫn có thể khôi phục lượng lớn thông tin liên quan
MinT: Chỉ số hiệu năng được xác nhận cho hạ tầng đào tạo và triển khai LoRA quy mô hàng triệu
MinT là hệ thống hạ tầng quản lý (managed infrastructure) được thiết kế riêng cho đào tạo LoRA và dịch vụ trực tuyến. Điểm cốt lõi trong thiết kế: mô hình nền tảng được lưu trú lâu dài trong các dịch vụ đào tạo và suy luận; mỗi khi hoàn tất một lượt đào tạo, đầu ra là bộ điều hợp LoRA nhẹ (trong cấu hình Rank-1 có thể thấp đến khoảng 0,1% so với mô hình nền tảng), khi lên chiến lược mới không cần gộp đầy đủ mô hình hay tải lại từ đầu.
Theo các con số chính thức từ Mind Lab:
Thời gian bàn giao từ hoàn tất đào tạo sang sẵn sàng cho dịch vụ suy luận rút ngắn: tối đa 18,3 lần
Tốc độ tải tức thời của engine (thông qua đóng gói tensor MoE LoRA): từ 8,5 đến 8,7 lần
Trong cơ chế rollout hai giai đoạn: p95 độ trễ tải LoRA mà người dùng nhìn thấy giảm về 0
Rút ngắn TTFT p95 cho yêu cầu đầu tiên: 2,3 lần
Bài viết “On the Scaling of PEFT” về định luật mở rộng của LoRA đề xuất ba trục mở rộng chính: Scale up (chỉnh sửa vấn đề cơ chế phát lại định tuyến trên MoE thưa 1T bị lỗi), Scale down (khởi tạo OLoRA-tail, dùng các vectơ riêng nhỏ hơn để tăng độ ổn định Rank-1 mà không cần tăng tham số), Scale out (LoRA as Memory: với bỏ phiếu giữa nhiều mô hình, độ chính xác tăng theo quy luật logarit đối số theo số lượng mô hình k).
Macaron-A2UI: Kết quả thử nghiệm chuẩn được xác nhận
Macaron-A2UI dựa trên nền tảng MinT, lần lượt sử dụng đào tạo SFT dựa trên LoRA và tăng cường học tập (reinforcement learning) GRPO trên các mô hình ngôn ngữ nền 30B, 235B và 754B. Mô hình có thể tạo ra các hành động thực thi A2UI dạng cấu trúc ngoài đầu ra văn bản (như khung chọn đa trọng, thanh trượt, thẻ xác nhận…).
Theo các con số chính thức từ Mind Lab: Macaron-A2UI-Venti đạt 75,6 điểm trên A2UI-Bench và trong trường hợp chỉ dùng các gợi ý schema dạng nhẹ, vượt qua mốc baseline của mô hình tiền tuyến mạnh nhất vốn sử dụng schema dài đầy đủ làm đầu vào (độ dài khoảng 27 lần).
Câu hỏi thường gặp
Gia tăng tham số 0,12% của δ-mem là cách nào để đạt nâng hiệu năng ghi nhớ với chi phí thấp như vậy?
δ-mem đưa vào một ma trận trạng thái ghi nhớ liên kết trực tuyến 8×8 (thay vì KV cache tĩnh truyền thống), cập nhật liên tục theo quy tắc gia tăng và khi sinh ra sẽ áp dụng hiệu chỉnh cấp thấp lên Transformer xương sống. Thiết kế này giúp mô hình khôi phục thông tin liên quan mà không cần dựa vào ngữ cảnh lịch sử tường minh, chỉ với gia tăng tham số 0,12% đã đạt được mức nâng ghi nhớ 1,31 lần.
MinT quản lý LoRA cỡ hàng triệu mà không cần tải lại toàn bộ mô hình như thế nào?
MinT giữ mô hình nền tảng lưu trú lâu dài trong các dịch vụ đào tạo và suy luận; mỗi lần cập nhật chỉ di chuyển và tải bộ điều hợp LoRA nhẹ. Thông thường, kích thước của LoRA chỉ chưa đến 1% so với mô hình nền tảng. Tensor đóng gói của MoE LoRA giải quyết nút thắt đọc/ghi do vô số vật thể nhỏ; cơ chế rollout hai giai đoạn đảm bảo LoRA chỉ trở nên nhìn thấy đối với lưu lượng người dùng sau khi hoàn tất làm nóng trong điều kiện kiểm soát admission, kéo p95 độ trễ tải xuống 0.
Macaron-A2UI khác căn bản gì so với trợ lý AI chỉ dùng văn bản truyền thống?
Macaron-A2UI, ngoài đầu ra văn bản, có thể tạo các hành động thực thi A2UI dạng cấu trúc trong tương tác thời gian thực (như khung chọn đa trọng, thanh trượt, thẻ xác nhận…), nhằm giảm gánh nặng nhận thức cho các tác vụ phức tạp và tiếp tục học dựa trên thói quen cá nhân của người dùng.