
Ji心之心 pada 2 Juni melaporkan bahwa Mindverse (Mindverse) baru-baru ini secara beruntun merilis hasil riset tentang LoRA dan PEFT fine-tuning efisien di bawahnya. Indikator kunci δ-mem adalah: dengan tambahan parameter serendah 0,12%, membawa peningkatan performa 1,31 kali dan 1,20 kali pada pengujian berat Memory Agent Bench dan LoCoMo.
δ-mem: konfirmasi mekanisme teknis dan angka uji benchmark
δ-mem adalah arsitektur perhatian linear hibrida paralel yang dirancang khusus untuk karakteristik LoRA. KV cache pada Transformer tradisional dibekukan sebagai cache saat inferensi, sehingga tidak memiliki kemampuan pembaruan; δ-mem memperkenalkan “Online State of Associative Memory”, yang memelihara matriks 8×8. Selama input token, matriks ini terus diperbarui dengan aturan inkremental (delta-rule learning), dan pada saat generasi menerapkan koreksi low-rank (low-rank corrections) pada Attention Query dan Output dari jaringan tulang punggung.
Berdasarkan angka resmi Mind Lab:
Tambahan parameter: serendah 0,12%
Peningkatan Memory Agent Bench: 1,31 kali
Peningkatan LoCoMo: 1,20 kali
Meski menghapus konteks historis eksplisit: tetap mampu memulihkan banyak informasi yang relevan
MinT: konfirmasi indikator performa dasar untuk pelatihan jutaan LoRA
MinT adalah sistem infrastruktur terkelola yang didesain untuk pelatihan LoRA dan layanan online. Inti desainnya: model dasar terus tersedia dalam jangka panjang di layanan pelatihan dan inferensi; setelah setiap pelatihan selesai, yang diekspor adalah LoRA Adapter ringan (dengan konfigurasi Rank-1 dapat serendah sekitar 0,1% dari model dasar). Saat strategi baru diluncurkan, tidak perlu menggabungkan model penuh atau memuat ulang lagi.
Berdasarkan angka resmi Mind Lab:
Waktu serah-terima dari selesai pelatihan ke siap digunakan di layanan inferensi dipangkas: hingga 18,3 kali
Peningkatan kecepatan pemuatan instan engine (melalui pengemasan tensor LoE MoE LoRA): 8,5 hingga 8,7 kali
Dalam mekanisme rollout dua tahap: LoRA yang terlihat pengguna, p95 pemuatan turun hingga 0
Percepatan TTFT p95 untuk permintaan pertama: 2,3 kali
Makalah hukum perluasan LoRA 《On the Scaling of PEFT》 mengajukan tiga sumbu penskalaan utama: Scale up (memperbaiki masalah kegagalan mekanisme replay routing pada T sparse MoE), Scale down (inisialisasi OLoRA-tail, menggunakan vektor singular sekunder untuk meningkatkan stabilitas Rank-1 tanpa menambah parameter), Scale out (LoRA as Memory; pada pemungutan suara antar banyak model, akurasi mengikuti aturan pertumbuhan logaritmik terhadap jumlah model k).
Macaron-A2UI: konfirmasi hasil benchmark
Macaron-A2UI berbasis platform MinT; pada basis model bahasa besar 30B, 235B, dan 754B, dilakukan berturut-turut pelatihan penguatan berbasis LoRA SFT dan GRPO. Model dapat menghasilkan A2UI berupa aksi yang dapat dieksekusi secara terstruktur (kotak pemilihan ganda, slider, kartu konfirmasi, dan sejenisnya) selain keluaran teks.
Berdasarkan angka resmi Mind Lab: Macaron-A2UI-Venti meraih 75,6 poin di A2UI-Bench, dan dalam kondisi hanya menggunakan prompt schema berukuran ringan, melampaui baseline model frontier terkuat yang memasukkan schema panjang lengkap (panjangnya sekitar 27 kali).
Pertanyaan yang sering diajukan
Bagaimana tambahan parameter 0,12% pada δ-mem dapat mewujudkan peningkatan performa memori dengan biaya serendah itu?
δ-mem memperkenalkan matriks 8×8 online state of associative memory (bukan KV cache statis tradisional), yang terus diperbarui dengan aturan inkremental, serta saat generasi menerapkan koreksi low-rank pada Transformer tulang punggung. Desain ini memungkinkan model memulihkan informasi yang relevan tanpa bergantung pada konteks historis eksplisit; hanya dengan tambahan parameter 0,12% saja, dapat dicapai peningkatan memori 1,31 kali.
Bagaimana MinT mengelola LoRA dalam skala jutaan tanpa perlu memuat ulang model penuh?
MinT membuat model dasar tetap tersedia dalam jangka panjang di layanan pelatihan dan inferensi; setiap pembaruan hanya memindahkan dan memuat LoRA Adapter yang ringan. Ukurannya biasanya kurang dari 1% dari model dasar. Pengemasan tensor MoE LoRA mengatasi banyak hambatan terkait pembacaan dan penulisan dari banyak objek kecil; mekanisme rollout dua tahap memastikan LoRA menjalani pemanasan di bawah kontrol admission sebelum terlihat oleh trafik pengguna, sehingga latensi p95 pemuatan diturunkan hingga 0.
Apa perbedaan mendasar Macaron-A2UI dengan asisten AI teks murni tradisional?
Macaron-A2UI, selain keluaran teks, mampu menghasilkan aksi terstruktur A2UI yang dapat dieksekusi dalam interaksi real-time (kotak pemilihan ganda, slider, kartu konfirmasi, dan sejenisnya). Tujuannya adalah menurunkan beban kognitif tugas yang kompleks, serta terus belajar sesuai kebiasaan personalisasi pengguna.