Nous Research faz open-source do Lighthouse Attention com aceleração de 17x no B200 para contexto de 512K

De acordo com Beating, a Nous Research disponibilizou em código aberto o Lighthouse Attention, um mecanismo de treinamento de longo contexto que atinge uma aceleração de 17x para processamento de texto com 512K de extensão usando apenas uma GPU B200, e uma aceleração de treinamento de ponta a ponta de 1,4–1,7x com 98K de extensão. A técnica utiliza uma abordagem de coarse-to-fine: ela primeiro faz uma varredura de resumos comprimidos em diferentes níveis para identificar segmentos centrais e, em seguida, encaminha o texto filtrado para o FlashAttention para o processamento. Nos testes com um modelo de 5,3 bilhões de parâmetros treinado em 50 bilhões de tokens, a abordagem não apenas reduziu o tempo de treinamento, mas também igualou ou superou o desempenho-base de um treinamento baseado exclusivamente em atenção.
Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários