
機器之心 2 червня повідомило, що Mindverse — компанія в складі Mindverse — нещодавно одночасно публікує результати досліджень щодо LoRA та PEFT ефективного донавчання. Ключовим показником δ-mem є: за приросту параметрів усього 0,12% у Memory Agent Bench і під час тестів із важким навантаженням на базові сценарії пам’яті LoCoMo досягається підвищення продуктивності в 1,31 раза та 1,20 раза відповідно.
δ-mem: підтверджені технічні механізми та цифри бенчмарків
δ-mem — це паралельно-змішана лінійна архітектура уваги, розроблена спеціально під особливості LoRA. У традиційному Transformer KV cache під час інференсу використовується заморожений кеш, який сам по собі не вміє оновлюватися; δ-mem вводить «онлайн-стан асоціативної пам’яті» (Online State of Associative Memory), підтримуючи матрицю 8×8. У процесі введення токенів вона безперервно оновлюється за правилами інкрементного навчання (delta-rule learning), а під час генерації на Attention Query та Output магістральної мережі накладаються корекції низького рангу (low-rank corrections).
За офіційними даними Mind Lab:
Приріст параметрів: аж до 0,12%
Memory Agent Bench підвищення: у 1,31 раза
LoCoMo підвищення: у 1,20 раза
Навіть із вилученням явного історичного контексту: усе ще вдається відновлювати великий обсяг релевантної інформації
MinT: підтверджені показники ефективності базової інфраструктури для мільйона LoRA-тренувань
MinT — керована інфраструктурна система, спеціально створена для LoRA-тренувань і онлайн-сервісів. Ключова ідея: базова модель постійно перебуває в режимі готовності в процесах навчання та інференсу. Після завершення кожного тренування експортується легкий LoRA Adapter (за конфігурації Rank-1 він може бути аж до ~0,1% від базової моделі). Під час запуску нових стратегій не потрібно об’єднувати повну модель чи заново завантажувати її цілком.
За офіційними даними Mind Lab:
Час передачі з етапу завершення тренування до доступності в сервісі інференсу скорочується: до 18,3 раза
Прискорення миттєвого завантаження (через пакування тензорів MoE LoRA): у 8,5–8,7 раза
За дворівневого механізму rollout: видиме користувачам завантаження p95 опускається до 0
Скорочення TTFT p95 для першого запиту: у 2,3 раза
Трьома основними осями масштабування, які описує стаття про закон розширення LoRA «On the Scaling of PEFT», є: Scale up (виправлення проблеми з неефективністю механізму повторного відтворення маршрутизації в розрідженому MoE обсягом 1T), Scale down (OLoRA-tail ініціалізація: використання другорядних сингулярних векторів для підвищення стабільності Rank-1 без збільшення параметрів), Scale out (LoRA as Memory: концепція пам’яті, де за наявності голосування між кількома моделями точність зростає за логарифмічним законом відносно кількості моделей k).
Macaron-A2UI: підтверджені результати бенчмарків
Macaron-A2UI працює на платформі MinT і по черзі використовує LoRA-зумовлене SFT та GRPO для підсилювального навчання на базах великомовних моделей 30B, 235B та 754B. Окрім текстового виводу, модель здатна генерувати структуровані A2UI-виконавчі дії (множинні поля вибору, повзунки, картки підтвердження тощо).
За офіційними даними Mind Lab: Macaron-A2UI-Venti на A2UI-Bench набирає 75,6 бала та в сценарії використання лише легковагових Schema-підказок перевершує найсильніший передовий базовий моделний рівень, який використовує повний довгий Schema (довжина приблизно у 27 разів більша).
Поширені запитання
Як δ-mem із приростом параметрів у 0,12% здатна реалізувати підвищення продуктивності пам’яті за такої низької вартості?
δ-mem вводить матрицю 8×8 онлайн-стану асоціативної пам’яті (замість традиційного статичного KV cache). Її безперервно оновлюють за інкрементним правилом під час генерації, а також накладають низькорангові корекції на магістраль Transformer. Такий дизайн дає змогу моделі відновлювати релевантну інформацію без опори на явний історичний контекст, і для досягнення підвищення пам’яті в 1,31 раза достатньо лише приросту параметрів у 0,12%.
Як MinT керує мільйонними обсягами LoRA без повторного завантаження повної моделі?
MinT тримає базову модель постійно в режимі готовності для тренування та інференсу; кожне оновлення передбачає лише переміщення й завантаження легких LoRA Adapter. Зазвичай їхній обсяг становить менше 1% від базової моделі. Пакування тензорів MoE LoRA знімає безліч вузьких місць, пов’язаних із читанням/записом багатьох дрібних об’єктів; дворівневий механізм rollout гарантує, що LoRA в межах admission control виконає попередній прогрів, перш ніж стане видимою для потоків трафіку користувачів, зводячи p95-затримку завантаження до 0.
Чим Macaron-A2UI принципово відрізняється від традиційних AI-помічників, що працюють лише з чистим текстом?
Macaron-A2UI, окрім текстового виводу, у режимі миттєвої взаємодії може генерувати структуровані A2UI-виконавчі дії (множинні поля вибору, повзунки, картки підтвердження тощо). Мета — знизити когнітивне навантаження під час виконання складних завдань і безперервно вчитись відповідно до персоналізованих звичок користувача.