NVIDIA lanza TensorRT-LLM, que puede mejorar el rendimiento de inferencia H100 hasta 8 veces

巴比特_

Según un informe de IT House del 9 de septiembre, NVIDIA anunció recientemente el lanzamiento de TensorRT-LLM, una biblioteca de código abierto profundamente optimizada que puede acelerar el rendimiento de inferencia de todos los modelos de lenguaje grandes en GPU de IA como Hopper. Actualmente, NVIDIA está trabajando con la comunidad de código abierto para utilizar tecnologías de vanguardia como SmoothQuant, FlashAttention y fMHA para implementar núcleos de IA para optimizar su GPU, que puede acelerar los modelos GPT-3 (175B), Llama Falcom (180B) y Bloom.

Lo más destacado de TensorRT-LLM es la introducción de un esquema de programación llamado procesamiento por lotes en vuelo, que permite que el trabajo entre y salga de la GPU independientemente de otras tareas. Esta solución permite que la misma GPU procese dinámicamente múltiples consultas más pequeñas al procesar solicitudes grandes con uso intensivo de computación, mejorando el rendimiento de procesamiento de la GPU y acelerando el rendimiento del H100 2 veces.

En la prueba de rendimiento, NVIDIA utilizó A100 como base y comparó H100 y H100 con TensorRT-LLM habilitado. En la inferencia GPT-J 6B, el rendimiento de inferencia de H100 fue 4 veces mayor que el de A100, mientras que el rendimiento de H100 con TensorRT -LLM habilitado fue mejor que A100.8 veces.

Ver originales
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios