
Die Redaktion von ji qǐ之心 berichtete am 2. Juni, dass Mind Lab, ein Unternehmen unter der Mindverse-Gruppe (Mindverse), in letzter Zeit wiederholt Forschungsresultate zur LoRA- und PEFT-Hocheffizienz-Finetrainierung veröffentlicht hat. Die entscheidenden Kennzahlen für δ-mem sind: Mit einem Parameter-Delta von nur 0,12% erzielte es im Memory Agent Bench und in LoCoMo für stark speicherintensive Benchmarks Leistungssteigerungen von 1,31-fach bzw. 1,20-fach.
δ-mem: Bestätigte technische Mechanismen und Benchmark-Zahlen
δ-mem ist eine parallel gemischte lineare Attention-Architektur, die auf die Eigenschaften von LoRA ausgelegt ist. Der KV-Cache traditioneller Transformer ist im Inferenzprozess ein eingefrorener Cache und besitzt an sich keine Aktualisierungsfähigkeit; δ-mem führt einen „Online State of Associative Memory“ ein, der einen 8×8-Matrixzustand pflegt. Während des Token-Eingabeprozesses wird er mit einer Inkrement-Regel (delta-rule learning) fortlaufend aktualisiert; beim Generieren werden dem Attention Query und dem Output des Backbone-Netzwerks Low-Rank-Korrekturen (low-rank corrections) hinzugefügt.
Laut Mind Lab offiziellen Zahlen:
Parameter-Delta:niedrig bis 0,12%
Memory Agent Bench:1,31-fach Verbesserung
LoCoMo:1,20-fach Verbesserung
Selbst wenn expliziter historischer Kontext entfernt wird:kann weiterhin große Mengen relevanter Informationen wiederherstellen
MinT: Bestätigte Leistungskennzahlen als Basist infrastructure für Million-LoRA-Training und -Online-Dienste
MinT ist ein Mandantenfähiges Infrastruktur-System, das speziell für LoRA-Training und Online-Services entwickelt wurde. Kern-Design: Das Basis-Modell bleibt langfristig dauerhaft in den Trainings- und Inferenzdiensten präsent; nach jedem abgeschlossenen Trainingsdurchlauf wird ein leichter LoRA Adapter exportiert (bei einer Rank-1-Konfiguration sogar auf ca. 0,1% des Basis-Modells möglich). Wenn neue Strategien online gehen, ist keine Zusammenführung des vollständigen Modells oder ein erneutes vollständiges Laden erforderlich.
Laut Mind Lab offiziellen Zahlen:
Übergabezeit von Abschluss des Trainings bis zur Verfügbarkeit im Inferenzdienst:bis zu 18,3-fach verkürzt
Sofortiges Lader-Fähigkeit der Engine gesteigert (über MoE LoRA Tensor Packaging):8,5 bis 8,7-fach
Im Zweistufen-rollout-Mechanismus:unter dem für Nutzer sichtbaren LoRA-Laden wird p95 auf 0 gesenkt
TTFT p95 der ersten Anfrage verkürzt sich:2,3-fach
Der LoRA-Erweiterungs-Exponationsgesetz- Paper „On the Scaling of PEFT“ führt drei große Erweiterungsachsen aus: Scale up (Korrektur des Problems, dass die Routing-Replay-Mechanik auf einem 1T sparsamen MoE ausfällt), Scale down (OLoRA-tail-Initialisierung: Nutzung sekundärer singulärer Vektoren zur Verbesserung der Rank-1-Stabilität, ohne Parameter hinzuzufügen), Scale out (LoRA as Memory: mit Modellmehrheitsabstimmung steigt die Genauigkeit mit der Modellanzahl k nach einer logarithmischen Wachstumsregel).
Macaron-A2UI: Bestätigte Benchmark-Ergebnisse
Macaron-A2UI basiert auf der MinT-Plattform und verwendet nacheinander bei großen Sprachmodell-Backbones mit 30B, 235B und 754B ein auf LoRA basierendes SFT sowie GRPO-gestütztes Verstärkungslernen. Das Modell kann neben Texterzeugungen strukturierte A2UI-ausführbare Aktionen generieren (z. B. Mehrfachauswahlrahmen, Schieberegler, Bestätigungskarten usw.).
Laut Mind Lab offiziellen Zahlen: Macaron-A2UI-Venti erzielte 75,6 Punkte im A2UI-Bench und übertraf in einem Setting, das nur leichte Schema-Prompts nutzt, die stärksten Frontier-Modell-Baselines, die auf vollständige, lange Schemaeingaben setzen (Länge etwa 27-fach).
Häufige Fragen
Wie kann δ-mem mit einem Parameter-Delta von 0,12% eine so große Verbesserung der Gedächtnisleistung erreichen?
δ-mem führt eine 8×8 Online-assoziative-Gedächtniszustandsmatrix ein (statt eines traditionellen statischen KV cache). Sie wird nach der Inkrement-Regel fortlaufend aktualisiert und beim Generieren mit einer Low-Rank-Korrektur am Backbone-Transformer angepasst. Dieses Design ermöglicht es dem Modell, relevante Informationen auch ohne Abhängigkeit von explizitem historischem Kontext wiederherzustellen; es braucht nur ein Parameter-Delta von 0,12%, um eine 1,31-fache Gedächtnissteigerung zu erzielen.
Wie verwaltet MinT Millionen-LoRA in der Größenordnung, ohne das vollständige Modell neu zu laden?
MinT hält das Basis-Modell langfristig dauerhaft in den Trainings- und Inferenzdiensten. Bei jeder Aktualisierung werden nur leichte LoRA Adapter bewegt und geladen; deren Größe liegt typischerweise bei weniger als 1% des Basis-Modells. Das MoE-LoRA-Tensor-Packaging löst viele Engpässe bei Lesen/Schreiben für eine große Zahl kleiner Objekte. Der Zweistufen-rollout-Mechanismus stellt sicher, dass LoRA unter Admission-Kontrolle erst nach Abschluss der Aufwärmphase für den Nutzerverkehr sichtbar wird und senkt die p95-Ladeverzögerung auf 0.
Welche grundlegenden Unterschiede gibt es zwischen Macaron-A2UI und herkömmlichen rein textbasierten KI-Assistenten?
Macaron-A2UI kann neben der Textausgabe in Echtzeit strukturierte A2UI-ausführbare Aktionen generieren (z. B. Mehrfachauswahlrahmen, Schieberegler, Bestätigungskarten usw.). Ziel ist es, die kognitive Last bei komplexen Aufgaben zu reduzieren und gleichzeitig entsprechend den personalisierten Gewohnheiten der Nutzer kontinuierlich dazuzulernen.