Ramp Labs がマルチエージェントの記憶共有の新しい仕組みを提案、Token 消費が最大 65% 低下

ゲートニュース、4月11日、AI基盤インフラ企業のRamp Labsが研究成果「Latent Briefing」を発表し、直接的に大規模モデルのKVキャッシュを圧縮することでマルチエージェントシステム間の効率的な記憶共有を実現した。精度を損なうことなくToken消費を大幅に削減する。主流のマルチエージェントアーキテクチャでは、オーケストレーター(Orchestrator)がタスクを分解し、ワーカー(Worker)モデルを繰り返し呼び出すことで、推論の連鎖が伸びるにつれてTokenの使用量が指数関数的に膨張する。Latent Briefingの中核となる発想は、注意機構を用いて文脈の中で本当に重要な部分を識別し、表現層で冗長情報を直接破棄することであり、速度が遅いLLMの要約や安定性が低いRAG検索に依存しないことにある。LongBench v2のベンチマークテストでは、この手法は目覚ましい成績を示した。WorkerモデルのToken消費は65%低下し、中程度の長さのドキュメント(32kから100k)におけるToken節約の中央値は49%に達した。全体の精度はベースラインから約3ポイント向上し、さらに毎回の圧縮に伴う追加所要時間は約1.7秒と、元のアルゴリズムに比べて約20倍高速化した。実験では、編成者としてClaude Sonnet 4、作業者モデルとしてQwen3-14Bを使用し、学術論文、法律文書、小説、政府報告など多様なドキュメントシナリオをカバーした。研究ではまた、最適な圧縮しきい値はタスクの難度と文書の長さによって異なることが判明した。難題には、投機的な推論ノイズをフィルタリングするために攻めた圧縮が適しており、長文書には、分散した重要情報を保持するために軽めの圧縮がより適している。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし