
Ji Zhiqixin a rapporté le 2 juin que Mindverse, une filiale de Mindverse Technology, a récemment publié à la suite des résultats de recherche sur le fine-tuning efficace par LoRA et PEFT. Le principal indicateur de δ-mem est le suivant : avec une augmentation de paramètres aussi faible que 0,12 %, elle permet une amélioration des performances de 1,31 fois et 1,20 fois lors des tests intensifs sur Memory Agent Bench et LoCoMo.
δ-mem : mécanismes techniques confirmés et chiffres des tests de référence
δ-mem est une architecture d’attention linéaire hybride parallèle conçue pour les caractéristiques de LoRA. Dans un Transformer traditionnel, le KV cache est un cache figé utilisé en inférence et ne dispose pas de capacité de mise à jour ; δ-mem introduit un « état de mémoire associative en ligne » (Online State of Associative Memory) qui maintient une matrice de 8×8. Pendant la saisie des tokens, cette matrice est continuellement mise à jour via une règle incrémentale (delta-rule learning). Lors de la génération, elle applique des corrections low-rank (low-rank corrections) à l’Attention Query et à l’Output du réseau principal.
D’après les chiffres officiels de Mind Lab :
Incrément de paramètres : aussi bas que 0,12 %
Amélioration sur Memory Agent Bench : 1,31 fois
Amélioration sur LoCoMo : 1,20 fois
Même en supprimant le contexte historique explicite : reste capable de récupérer une grande quantité d’informations pertinentes
MinT : indicateurs de performance confirmés pour une infrastructure de fine-tuning LoRA à l’échelle du million
MinT est un système d’infrastructure managée conçu pour l’entraînement LoRA et les services en ligne. Son cœur de conception : le modèle de base reste en permanence dans les services d’entraînement et d’inférence. Après chaque entraînement, ce qui est exporté, ce sont des LoRA Adapter légers (avec une configuration Rank-1, ils peuvent atteindre environ 0,1 % du modèle de base). Ainsi, le déploiement de nouvelles stratégies ne nécessite ni fusion du modèle complet ni rechargement.
D’après les chiffres officiels de Mind Lab :
Temps de transfert de la fin de l’entraînement à la disponibilité du service d’inférence : réduit jusqu’à 18,3 fois
Vitesse de chargement instantané du moteur (via l’empaquetage des tenseurs MoE LoRA) : de 8,5 à 8,7 fois
Avec le mécanisme de rollout en deux étapes : le chargement de LoRA visible par l’utilisateur, p95 descend à 0
TTFT (temps jusqu’à la première réponse) p95 réduit : 2,3 fois
Le papier《On the Scaling of PEFT》sur la loi d’expansion du LoRA propose trois axes majeurs : Scale up (corrige le problème où le mécanisme de relecture du routage échoue sur un MoE sparsifié de 1T), Scale down (initialisation OLoRA-tail : utilise des vecteurs singuliers secondaires pour améliorer la stabilité du Rank-1, sans augmenter les paramètres), Scale out (LoRA comme concept de mémoire : avec un vote entre plusieurs modèles, la précision croît selon une règle log de type proportionnelle à k, le nombre de modèles).
Macaron-A2UI : résultats de tests de référence confirmés
Macaron-A2UI s’appuie sur la plateforme MinT et utilise successivement, comme bases de grands modèles de langage de 30B, 235B et 754B, des entraînements de renforcement basés sur LoRA : SFT et GRPO. En plus de produire du texte, le modèle génère aussi des actions exécutables structurées A2UI (cases de sélection multiples, curseurs, cartes de confirmation, etc.).
D’après les chiffres officiels de Mind Lab : Macaron-A2UI-Venti obtient 75,6 points sur A2UI-Bench, et dépasse la ligne de base du modèle de pointe le plus fort en cas de n’utilisation que d’invites Schema légères, par rapport au Schema complet et long en entrée (longueur environ 27 fois supérieure).
FAQ
Comment l’augmentation de paramètres de 0,12 % de δ-mem parvient-elle à améliorer autant les performances mémoire à si faible coût ?
δ-mem introduit une matrice d’état de mémoire associative en ligne de 8×8 (au lieu d’un KV cache statique traditionnel), mise à jour en continu via une règle incrémentale et appliquant des corrections low-rank au Transformer principal pendant la génération. Cette conception permet au modèle de récupérer des informations pertinentes sans dépendre d’un contexte historique explicite ; il suffit d’une augmentation de 0,12 % de paramètres pour obtenir une amélioration mémoire de 1,31 fois.
Comment MinT gère-t-il des LoRA de l’ordre du million sans recharger l’intégralité du modèle ?
MinT maintient le modèle de base en permanence dans les services d’entraînement et d’inférence ; à chaque mise à jour, seules les LoRA Adapter légers sont déplacés et chargés. Leur taille est généralement inférieure à 1 % de celle du modèle de base. L’empaquetage des tenseurs MoE LoRA résout de nombreux goulots d’étranglement liés aux lectures/écritures de très petits objets ; le mécanisme de rollout en deux étapes garantit que les LoRA sont préchauffées sous le contrôle d’admission avant d’être visibles par le trafic utilisateur, ce qui réduit la latence de chargement p95 à 0.
Quelles différences fondamentales existe-t-il entre Macaron-A2UI et les assistants IA traditionnels purement textuels ?
En plus de la production de texte, Macaron-A2UI génère, lors d’interactions en temps réel, des actions exécutables A2UI structurées (cases de sélection multiples, curseurs, cartes de confirmation, etc.), dans le but de réduire la charge cognitive des tâches complexes, et d’apprendre continuellement selon les habitudes personnalisées des utilisateurs.