Исследование Mind Lab LoRA: увеличение параметров на 0,12% повышает ИИ-память в 1,31 раза

Mind Lab AI研究

Центр Machine Heart (機器之心) 2 июня сообщил, что Mindverse (Mindverse) из Mindverse Technology (Mindverse) недавно последовательно опубликовала результаты исследований по LoRA и высокоэффективной донастройке с использованием PEFT. Ключевой показатель δ-mem: при увеличении числа параметров всего до 0,12% на тестах Memory Agent Bench и LoCoMo с интенсивными задачами на память обеспечивает прирост производительности в 1,31 раза и 1,20 раза.

δ-mem: подтверждённые технические механизмы и цифры по бенчмаркам

δ-mem — это параллельно-смешанная линейная архитектура внимания, разработанная специально под особенности LoRA. В традиционном Transformer KV cache при инференсе используется замороженный кэш и он сам по себе не умеет обновляться; δ-mem вводит «онлайн-состояние ассоциативной памяти» (Online State of Associative Memory), поддерживая матрицу 8×8, которая в процессе ввода токенов непрерывно обновляется по инкрементальному правилу (delta-rule learning). При генерации она применяет низкоранговые поправки (low-rank corrections) к Attention Query и Output магистральной сети.

По данным Mind Lab:

Прирост параметров: от 0,12%

Прирост на Memory Agent Bench: в 1,31 раза

Прирост на LoCoMo: в 1,20 раза

Даже при удалении явного исторического контекста: всё равно способна восстановить большой объём релевантной информации

MinT: подтверждённые показатели эффективности базовой инфраструктуры для тренировки миллионов LoRA

MinT — это система управляемой инфраструктуры, специально созданная для LoRA-тренировок и онлайн-сервисов. Ключевая идея: базовая модель надолго остаётся постоянно запущенной в среде обучения и в сервисах инференса. После каждой завершённой тренировки экспортируется лёгкий LoRA Adapter (в конфигурации Rank-1 может быть до ~0,1% от базовой модели). После выхода новой стратегии не требуется объединять полную модель или заново загружать её.

По данным Mind Lab:

Время передачи от завершения обучения до доступности в инференс-сервисе сокращается: до 18,3 раза

Скорость мгновенной загрузки движка (через упаковку тензоров MoE LoRA): от 8,5 до 8,7 раза

При механизме двухфазного rollout: загружаемые LoRA, видимые пользователю, сводятся к p95 = 0

Сокращение TTFT p95 для первого запроса: в 2,3 раза

В статье о законе масштабирования LoRA《On the Scaling of PEFT》предложены три основные оси масштабирования: Scale up (корректировка проблемы, когда механизм реплея роутинга на разрежённом MoE объёмом 1T не работает), Scale down (инициализация OLoRA-tail — с помощью второстепенных сингулярных векторов повышается стабильность Rank-1 без добавления параметров), Scale out (LoRA как Memory: при голосовании между несколькими моделями точность растёт по логарифмическому закону вместе с числом моделей k).

Macaron-A2UI: подтверждённые результаты бенчмарка

Macaron-A2UI основан на платформе MinT. На базах больших языковых моделей 30B, 235B и 754B по очереди выполняются SFT на базе LoRA и затем донастройка через GRPO с обучением с подкреплением. Помимо текстового вывода модель способна генерировать структурированные исполнимые действия A2UI (мультивыборные рамки, слайдеры, карточки подтверждения и т. п.).

По данным Mind Lab: Macaron-A2UI-Venti набрала 75,6 балла на A2UI-Bench и, используя только лёгкие Schema-подсказки, превзошла сильнейшую базовую модель frontier, которая работает с полными длинными Schema (длина примерно в 27 раз больше).

Частые вопросы

Как δ-mem с приростом параметров всего 0,12% смогла добиться прироста в запоминании такой величины?

δ-mem вводит матрицу 8×8 онлайн-состояния ассоциативной памяти (вместо традиционного статического KV cache). Она постоянно обновляется по инкрементальному правилу и при генерации применяет низкоранговые поправки к магистральному Transformer. Такой дизайн позволяет модели восстанавливать релевантную информацию без опоры на явный исторический контекст — достаточно лишь 0,12% прироста параметров, чтобы получить 1,31-кратный прирост памяти.

Как MinT управляет LoRA на уровне миллионов, не перезагружая полный модель?

MinT держит базовую модель постоянно запущенной в средах обучения и инференса. При каждом обновлении перемещается и загружается только лёгкий LoRA Adapter; его объём обычно составляет меньше 1% от базовой модели. Упаковка тензоров MoE LoRA решает узкие места с чтением/записью большого числа мелких объектов; механизм двухфазного rollout гарантирует, что LoRA будет предварительно прогрета в рамках admission-контроля до того, как станет видимой для пользовательского трафика, снижая p95 задержку загрузки до 0.

В чём фундаментальное отличие Macaron-A2UI от традиционных чисто текстовых AI-ассистентов?

Macaron-A2UI, помимо текстового вывода, может генерировать структурированные исполнимые действия A2UI в рамках интерактивного режима (мультивыборные рамки, слайдеры, карточки подтверждения и т. п.). Это направлено на снижение когнитивной нагрузки при выполнении сложных задач и на продолжение обучения на основе персонализированных предпочтений пользователя.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев