A MIT aliar-se à Nvidia no desenvolvimento da tecnologia TLT, para acelerar até 210% a eficiência do treino de grandes modelos de IA de inferência

robot
Geração de resumo em curso

O IT之家 noticia a 28 de fevereiro que, a 26 de fevereiro, a MIT News publicou um blogue em que se afirma que o Massachusetts Institute of Technology (MIT), em conjunto com a NVIDIA e outras instituições, lançou uma tecnologia chamada “Tail Taming” (TLT), que pode melhorar significativamente a eficiência do treino de modelos de linguagem (LLM) de grande escala para inferência.

De acordo com a informação do IT之家 a partir do blogue, os grandes modelos de inferência são bons em resolver problemas complexos decompondo etapas; no entanto, durante o treino em aprendizagem por reforço (RL), o consumo de capacidade de computação e de energia é extremamente elevado.

A equipa de investigação descobriu que a fase de “rollout” em que são geradas múltiplas respostas candidatas ocupa até 85% do tempo total de treino. Devido a diferenças no comprimento das respostas geradas por diferentes processadores, os processadores que concluem mais rapidamente ficam forçados a ficar inativos, aguardando que os outros processadores terminem tarefas de texto longo, criando assim um sério gargalo de eficiência.

Para resolver este problema, investigadores do MIT, em conjunto com a NVIDIA, o Instituto Federal de Tecnologia de Zurique e outras instituições, propuseram uma solução adaptativa denominada “Tail Taming (TLT)”.

O núcleo desta solução reside na aplicação inovadora da técnica de “decodificação especulativa”: treinar um modelo “draft” (drafter) mais pequeno para prever rapidamente a saída futura do modelo grande e, em seguida, o modelo grande validar em lote essas suposições. Desta forma, o modelo grande não precisa de gerar a saída de forma sequencial e um a um, acelerando significativamente o processo de execução.

Na decodificação especulativa tradicional, o modelo draft costuma ser treinado apenas uma vez e mantido estático. Porém, na aprendizagem por reforço, o modelo principal precisa de ser atualizado milhares de vezes, e um modelo draft estático rapidamente se torna ineficaz.

Por isso, o sistema TLT introduz um “treinador de drafts adaptativo”. Assim que parte dos processadores termina consultas curtas e entra em estado ocioso, o sistema agenda imediatamente esses processadores para treinar o modelo draft em tempo real.

Em simultâneo, o “motor de rollout adaptativo” ajusta automaticamente a estratégia de decodificação com base nas características da carga de trabalho, assegurando que o modelo draft se mantém sempre altamente sincronizado com o modelo grande-alvo, sem aumentar o consumo de capacidade de computação adicional.

Testes com conjuntos de dados do mundo real mostram que a tecnologia TLT melhora a velocidade de treino de múltiplos LLM de inferência em 70% a 210%, mantendo totalmente inalterada a exatidão do modelo.

Além disso, o modelo draft leve obtido pode também servir como um produto secundário gratuito, sendo utilizado diretamente para uma implementação eficiente mais tarde. A equipa de investigação planeia, no futuro, integrar esta tecnologia em mais estruturas de treino e inferência, reduzindo ainda mais os custos de desenvolvimento de IA e melhorando a utilização de energia.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar