Ramp Labs выдвигает новое решение для совместного использования памяти мультиагентами, при этом расход токенов снижается максимум на 65%

Новости Gate News: 11 апреля компания по инфраструктуре ИИ Ramp Labs опубликовала результаты исследования «Latent Briefing». Они достигаются за счет прямого сжатия KV-кэша больших языковых моделей для эффективного обмена памятью между многоагентными системами — при этом точность не снижается, а потребление токенов существенно уменьшается. В большинстве распространенных архитектур многоагентных систем оркестратор (Orchestrator) разбивает задачу и многократно вызывает модели рабочих (Worker). По мере того как цепочка рассуждений постоянно удлиняется, количество токенов растет экспоненциально. Ключевая идея Latent Briefing — использовать механизм внимания, чтобы выявлять в контексте действительно важные части, а на уровне представлений напрямую отбрасывать избыточную информацию, а не полагаться на LLM-сводки, которые работают медленно, или на RAG-поиск, который отличается нестабильностью. На бенчмарке LongBench v2 этот подход показал впечатляющие результаты: потребление токенов у модели Worker снизилось на 65%, для документов средней длины (от 32k до 100k) медианный объем сэкономленных токенов составил 49%, общая точность относительно базовой линии выросла примерно на 3 процентных пункта, при этом дополнительное время на каждое сжатие — лишь около 1,7 секунды, что ускоряет исходный алгоритм примерно в 20 раз. Эксперименты проводились с Claude Sonnet 4 в роли оркестратора и Qwen3-14B в роли модели рабочего, охватывая разнообразные сценарии документов, включая научные статьи, юридические документы, романы и правительственные отчеты. Исследование также выявило, что оптимальные пороги сжатия зависят от сложности задачи и длины документа: для сложных задач подходит более агрессивное сжатие, чтобы отфильтровать спекулятивный шум рассуждений, а для длинных документов лучше применять более легкое сжатие, чтобы сохранить разрозненные ключевые сведения.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев