2026-04-13 15:02:48

Suporte à revolução da memória de código aberto na China, a IA finalmente possui memória de longo prazo ao nível humano!

Contexto de 100 milhões de tokens, o pequeno modelo de 4B supera facilmente o RAG de 235B! EverMind open-soube MSA revolucionou tudo
Você já pensou: a capacidade de memória de uma pessoa ao longo da vida é de aproximadamente 200-300 milhões de tokens, e hoje GPT, Claude mal conseguem suportar até 200K-1M, além disso, eles colapsam? Quanto mais vetores no banco de dados RAG, pior. A busca é sempre um complemento externo, múltiplas inferências esquecem tudo assim que uma etapa termina; treinar modelos de longo contexto consome uma fortuna em memória de vídeo, e a inferência trava que é uma beleza.
EverMind-AI deu um golpe forte, quebrando o teto de vidro. Eles open-souberam o MSA (Memory Sparse Attention), uma arquitetura de memória de longo prazo verdadeiramente nativa, embutida e treinável de ponta a ponta, levando a capacidade de memória dos LLMs para 100.000.000 de tokens, com uma perda de precisão de menos de 9%!
Isso não é mais uma técnica de contexto longo falsa, é uma revolução que literalmente solda o hipocampo ao Transformer.
//
Por que o MSA é realmente incrível? Três truques que derrotam todos os predecessores
1. Atenção esparsa + RoPE baseado em documento
O RoPE tradicional sofre deslocamento de posição em contextos ultra longos, o MSA reinicia a contagem de posições de forma independente para cada documento, treinando com 64K que pode ser extrapolado sem problemas para 100M. A complexidade passa de O(n²) para aproximadamente O(n), tornando o treinamento e a inferência linearmente escaláveis.
2. Cache KV hierárquico comprimido + Memória paralela
Chaves roteadas (versão altamente comprimida) permanecem na GPU, enquanto o KV completo fica na memória CPU. Na inferência, apenas os top-k documentos necessários são buscados, com duas GPUs A800 rodando 100M de tokens! Testes oficiais mostram que a taxa de processamento dispara.
3. Mecanismo de Interleaving de Memória
Não é mais uma busca única, mas uma reflexão iterativa do modelo: gerar → buscar → gerar novamente → buscar de novo. Decidir dinamicamente quantos documentos usar, inferência multi-hop (HotpotQA, 2Wiki, etc.) ganha nova vida, e experimentos de ablação mostram que removê-lo causa uma queda de precisão de mais de 19%.
Resumindo em uma frase: o MSA funde memória e raciocínio em um ciclo diferenciável, deixando de ser “consultar dados antes de responder” para “pensar enquanto lembra”. Essa é a verdadeira forma de memória que uma AGI deve ter. Os dados não mentem: modelos de 4B destroem tudo.
Oficialmente, usando Qwen3-4B-Instruct como backbone, comparando com RAG de mesma escala, pilhas de RAG de topo, HippoRAG2, etc.:
• Média de pontuação em QA de contexto longo: MSA lidera o RAG do mesmo backbone em 16%, e supera o RAG mais forte em 11,5%.
• MS MARCO (mais de 7 milhões de tokens): MSA 4.141 pontos, muito acima da série RAG.
• Conjuntos de dados multi-hop (HotpotQA, 2Wiki): vantagem ainda mais acentuada.
• NIAH (agulha no palheiro) 1M de tokens: modelos tradicionais caem para menos de 25%, enquanto o MSA mantém mais de 94% de precisão.
• De 16K a 100M de tokens ao longo de todo o processo: perda de precisão <9%, enquanto outras soluções já caíram drasticamente.
Ainda mais impressionante: um modelo MSA de 4B de parâmetros supera sistemas RAG com 60 vezes mais parâmetros. Isso significa que, no futuro, agentes não precisarão mais de modelos monstruosos de 200B+; basta equipá-los com MSA para ter uma memória quase equivalente à de uma vida humana.
A equipe EverMind claramente já colocou fazer o agente possuir memória pessoal como missão central, e o MSA é o primeiro grande presente que eles oferecem ao mundo.
github open-source:

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
GateFounderDrHan13thAnniversaryLetter
37.08K Popularidade
#
CryptoMarketsDipSlightly
168.53K Popularidade
#
IsraelStrikesIranBTCPlunges
29.19K Popularidade
#
USBlocksStraitofHormuz
708.95K Popularidade
#
AaveDAOApproves$25MGrant
1.8M Popularidade

Marcar

sitemap

Suporte à revolução da memória de código aberto na China, a IA finalmente possui memória de longo prazo ao nível humano!

Tendências

GateFounderDrHan13thAnniversaryLetter

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

USBlocksStraitofHormuz

AaveDAOApproves$25MGrant

Marcar