Mind Lab LoRA-Studie: 0,12% parametrische Inkremente verbessern die KI-Erinnerung um das 1,31-fache

2026-06-04 02:35:44

Die Redaktion von ji qǐ之心 berichtete am 2. Juni, dass Mind Lab, ein Unternehmen unter der Mindverse-Gruppe (Mindverse), in letzter Zeit wiederholt Forschungsresultate zur LoRA- und PEFT-Hocheffizienz-Finetrainierung veröffentlicht hat. Die entscheidenden Kennzahlen für δ-mem sind: Mit einem Parameter-Delta von nur 0,12% erzielte es im Memory Agent Bench und in LoCoMo für stark speicherintensive Benchmarks Leistungssteigerungen von 1,31-fach bzw. 1,20-fach.

δ-mem: Bestätigte technische Mechanismen und Benchmark-Zahlen

δ-mem ist eine parallel gemischte lineare Attention-Architektur, die auf die Eigenschaften von LoRA ausgelegt ist. Der KV-Cache traditioneller Transformer ist im Inferenzprozess ein eingefrorener Cache und besitzt an sich keine Aktualisierungsfähigkeit; δ-mem führt einen „Online State of Associative Memory“ ein, der einen 8×8-Matrixzustand pflegt. Während des Token-Eingabeprozesses wird er mit einer Inkrement-Regel (delta-rule learning) fortlaufend aktualisiert; beim Generieren werden dem Attention Query und dem Output des Backbone-Netzwerks Low-Rank-Korrekturen (low-rank corrections) hinzugefügt.

Laut Mind Lab offiziellen Zahlen：

Parameter-Delta：niedrig bis 0,12%

Memory Agent Bench：1,31-fach Verbesserung

LoCoMo：1,20-fach Verbesserung

Selbst wenn expliziter historischer Kontext entfernt wird：kann weiterhin große Mengen relevanter Informationen wiederherstellen

MinT: Bestätigte Leistungskennzahlen als Basist infrastructure für Million-LoRA-Training und -Online-Dienste

MinT ist ein Mandantenfähiges Infrastruktur-System, das speziell für LoRA-Training und Online-Services entwickelt wurde. Kern-Design: Das Basis-Modell bleibt langfristig dauerhaft in den Trainings- und Inferenzdiensten präsent; nach jedem abgeschlossenen Trainingsdurchlauf wird ein leichter LoRA Adapter exportiert (bei einer Rank-1-Konfiguration sogar auf ca. 0,1% des Basis-Modells möglich). Wenn neue Strategien online gehen, ist keine Zusammenführung des vollständigen Modells oder ein erneutes vollständiges Laden erforderlich.

Laut Mind Lab offiziellen Zahlen：

Übergabezeit von Abschluss des Trainings bis zur Verfügbarkeit im Inferenzdienst：bis zu 18,3-fach verkürzt

Sofortiges Lader-Fähigkeit der Engine gesteigert (über MoE LoRA Tensor Packaging)：8,5 bis 8,7-fach

Im Zweistufen-rollout-Mechanismus：unter dem für Nutzer sichtbaren LoRA-Laden wird p95 auf 0 gesenkt

TTFT p95 der ersten Anfrage verkürzt sich：2,3-fach

Der LoRA-Erweiterungs-Exponationsgesetz- Paper „On the Scaling of PEFT“ führt drei große Erweiterungsachsen aus: Scale up (Korrektur des Problems, dass die Routing-Replay-Mechanik auf einem 1T sparsamen MoE ausfällt), Scale down (OLoRA-tail-Initialisierung: Nutzung sekundärer singulärer Vektoren zur Verbesserung der Rank-1-Stabilität, ohne Parameter hinzuzufügen), Scale out (LoRA as Memory: mit Modellmehrheitsabstimmung steigt die Genauigkeit mit der Modellanzahl k nach einer logarithmischen Wachstumsregel).

Macaron-A2UI: Bestätigte Benchmark-Ergebnisse

Macaron-A2UI basiert auf der MinT-Plattform und verwendet nacheinander bei großen Sprachmodell-Backbones mit 30B, 235B und 754B ein auf LoRA basierendes SFT sowie GRPO-gestütztes Verstärkungslernen. Das Modell kann neben Texterzeugungen strukturierte A2UI-ausführbare Aktionen generieren (z. B. Mehrfachauswahlrahmen, Schieberegler, Bestätigungskarten usw.).

Laut Mind Lab offiziellen Zahlen: Macaron-A2UI-Venti erzielte 75,6 Punkte im A2UI-Bench und übertraf in einem Setting, das nur leichte Schema-Prompts nutzt, die stärksten Frontier-Modell-Baselines, die auf vollständige, lange Schemaeingaben setzen (Länge etwa 27-fach).

Häufige Fragen

Wie kann δ-mem mit einem Parameter-Delta von 0,12% eine so große Verbesserung der Gedächtnisleistung erreichen?

δ-mem führt eine 8×8 Online-assoziative-Gedächtniszustandsmatrix ein (statt eines traditionellen statischen KV cache). Sie wird nach der Inkrement-Regel fortlaufend aktualisiert und beim Generieren mit einer Low-Rank-Korrektur am Backbone-Transformer angepasst. Dieses Design ermöglicht es dem Modell, relevante Informationen auch ohne Abhängigkeit von explizitem historischem Kontext wiederherzustellen; es braucht nur ein Parameter-Delta von 0,12%, um eine 1,31-fache Gedächtnissteigerung zu erzielen.

Wie verwaltet MinT Millionen-LoRA in der Größenordnung, ohne das vollständige Modell neu zu laden?

MinT hält das Basis-Modell langfristig dauerhaft in den Trainings- und Inferenzdiensten. Bei jeder Aktualisierung werden nur leichte LoRA Adapter bewegt und geladen; deren Größe liegt typischerweise bei weniger als 1% des Basis-Modells. Das MoE-LoRA-Tensor-Packaging löst viele Engpässe bei Lesen/Schreiben für eine große Zahl kleiner Objekte. Der Zweistufen-rollout-Mechanismus stellt sicher, dass LoRA unter Admission-Kontrolle erst nach Abschluss der Aufwärmphase für den Nutzerverkehr sichtbar wird und senkt die p95-Ladeverzögerung auf 0.

Welche grundlegenden Unterschiede gibt es zwischen Macaron-A2UI und herkömmlichen rein textbasierten KI-Assistenten?

Macaron-A2UI kann neben der Textausgabe in Echtzeit strukturierte A2UI-ausführbare Aktionen generieren (z. B. Mehrfachauswahlrahmen, Schieberegler, Bestätigungskarten usw.). Ziel ist es, die kognitive Last bei komplexen Aufgaben zu reduzieren und gleichzeitig entsprechend den personalisierten Gewohnheiten der Nutzer kontinuierlich dazuzulernen.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.