Riset Mind Lab LoRA: Kenaikan parameter 0,12% meningkatkan memori AI hingga 1,31 kali

2026-06-04 02:35:44

Ji心之心 pada 2 Juni melaporkan bahwa Mindverse (Mindverse) baru-baru ini secara beruntun merilis hasil riset tentang LoRA dan PEFT fine-tuning efisien di bawahnya. Indikator kunci δ-mem adalah: dengan tambahan parameter serendah 0,12%, membawa peningkatan performa 1,31 kali dan 1,20 kali pada pengujian berat Memory Agent Bench dan LoCoMo.

δ-mem: konfirmasi mekanisme teknis dan angka uji benchmark

δ-mem adalah arsitektur perhatian linear hibrida paralel yang dirancang khusus untuk karakteristik LoRA. KV cache pada Transformer tradisional dibekukan sebagai cache saat inferensi, sehingga tidak memiliki kemampuan pembaruan; δ-mem memperkenalkan “Online State of Associative Memory”, yang memelihara matriks 8×8. Selama input token, matriks ini terus diperbarui dengan aturan inkremental (delta-rule learning), dan pada saat generasi menerapkan koreksi low-rank (low-rank corrections) pada Attention Query dan Output dari jaringan tulang punggung.

Berdasarkan angka resmi Mind Lab:

Tambahan parameter: serendah 0,12%

Peningkatan Memory Agent Bench: 1,31 kali

Peningkatan LoCoMo: 1,20 kali

Meski menghapus konteks historis eksplisit: tetap mampu memulihkan banyak informasi yang relevan

MinT: konfirmasi indikator performa dasar untuk pelatihan jutaan LoRA

MinT adalah sistem infrastruktur terkelola yang didesain untuk pelatihan LoRA dan layanan online. Inti desainnya: model dasar terus tersedia dalam jangka panjang di layanan pelatihan dan inferensi; setelah setiap pelatihan selesai, yang diekspor adalah LoRA Adapter ringan (dengan konfigurasi Rank-1 dapat serendah sekitar 0,1% dari model dasar). Saat strategi baru diluncurkan, tidak perlu menggabungkan model penuh atau memuat ulang lagi.

Berdasarkan angka resmi Mind Lab:

Waktu serah-terima dari selesai pelatihan ke siap digunakan di layanan inferensi dipangkas: hingga 18,3 kali

Peningkatan kecepatan pemuatan instan engine (melalui pengemasan tensor LoE MoE LoRA): 8,5 hingga 8,7 kali

Dalam mekanisme rollout dua tahap: LoRA yang terlihat pengguna, p95 pemuatan turun hingga 0

Percepatan TTFT p95 untuk permintaan pertama: 2,3 kali

Makalah hukum perluasan LoRA 《On the Scaling of PEFT》 mengajukan tiga sumbu penskalaan utama: Scale up (memperbaiki masalah kegagalan mekanisme replay routing pada T sparse MoE), Scale down (inisialisasi OLoRA-tail, menggunakan vektor singular sekunder untuk meningkatkan stabilitas Rank-1 tanpa menambah parameter), Scale out (LoRA as Memory; pada pemungutan suara antar banyak model, akurasi mengikuti aturan pertumbuhan logaritmik terhadap jumlah model k).

Macaron-A2UI: konfirmasi hasil benchmark

Macaron-A2UI berbasis platform MinT; pada basis model bahasa besar 30B, 235B, dan 754B, dilakukan berturut-turut pelatihan penguatan berbasis LoRA SFT dan GRPO. Model dapat menghasilkan A2UI berupa aksi yang dapat dieksekusi secara terstruktur (kotak pemilihan ganda, slider, kartu konfirmasi, dan sejenisnya) selain keluaran teks.

Berdasarkan angka resmi Mind Lab: Macaron-A2UI-Venti meraih 75,6 poin di A2UI-Bench, dan dalam kondisi hanya menggunakan prompt schema berukuran ringan, melampaui baseline model frontier terkuat yang memasukkan schema panjang lengkap (panjangnya sekitar 27 kali).

Pertanyaan yang sering diajukan

Bagaimana tambahan parameter 0,12% pada δ-mem dapat mewujudkan peningkatan performa memori dengan biaya serendah itu?

δ-mem memperkenalkan matriks 8×8 online state of associative memory (bukan KV cache statis tradisional), yang terus diperbarui dengan aturan inkremental, serta saat generasi menerapkan koreksi low-rank pada Transformer tulang punggung. Desain ini memungkinkan model memulihkan informasi yang relevan tanpa bergantung pada konteks historis eksplisit; hanya dengan tambahan parameter 0,12% saja, dapat dicapai peningkatan memori 1,31 kali.

Bagaimana MinT mengelola LoRA dalam skala jutaan tanpa perlu memuat ulang model penuh?

MinT membuat model dasar tetap tersedia dalam jangka panjang di layanan pelatihan dan inferensi; setiap pembaruan hanya memindahkan dan memuat LoRA Adapter yang ringan. Ukurannya biasanya kurang dari 1% dari model dasar. Pengemasan tensor MoE LoRA mengatasi banyak hambatan terkait pembacaan dan penulisan dari banyak objek kecil; mekanisme rollout dua tahap memastikan LoRA menjalani pemanasan di bawah kontrol admission sebelum terlihat oleh trafik pengguna, sehingga latensi p95 pemuatan diturunkan hingga 0.

Apa perbedaan mendasar Macaron-A2UI dengan asisten AI teks murni tradisional?

Macaron-A2UI, selain keluaran teks, mampu menghasilkan aksi terstruktur A2UI yang dapat dieksekusi dalam interaksi real-time (kotak pemilihan ganda, slider, kartu konfirmasi, dan sejenisnya). Tujuannya adalah menurunkan beban kognitif tugas yang kompleks, serta terus belajar sesuai kebiasaan personalisasi pengguna.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.

Berita Terkait

06-04 00:21

Google Merilis Model Gemma 4 12B yang Dirancang untuk Laptop 16GB

06-03 17:37

Mysten Labs Meluncurkan Walrus Memory, Lapisan Memori Agen AI Portabel yang Mengintegrasikan Claude dan ChatGPT

06-03 07:18

Meta Menghentikan Pengumpulan Data MCI Setelah Petisi oleh Lebih dari 1.500 Karyawan pada Mei