DeepSeek publica un nuevo artículo firmado por Liang Wenfeng: propone la nueva arquitectura mHC para mejorar la estabilidad del entrenamiento de grandes modelos
PANews 1 de enero: Según Jinshi, DeepSeek ha publicado un nuevo artículo en el que presenta una nueva arquitectura llamada restricción de variedad de hiperconexión (mHC), diseñada para abordar problemas como la inestabilidad en el entrenamiento y la limitación de escalabilidad de la tecnología de redes hiperconectadas (HC) debido a la destrucción de las propiedades de mapeo de identidad. La arquitectura mapea el espacio de conexiones residuales de HC a una variedad específica para restaurar las propiedades de mapeo de identidad, combinando además una optimización rigurosa de infraestructura para garantizar la eficiencia, logrando mejoras de rendimiento notables y una escalabilidad superior. DeepSeek espera que mHC, como una extensión flexible y práctica de HC, ayude a comprender más profundamente el diseño de arquitecturas topológicas y señale direcciones prometedoras para la evolución de los modelos base. Este artículo fue escrito en colaboración por Zhenda Xie (解振达), Yixuan Wei (韦毅轩), Huanqi Cao y también incluye a Liang Wenfeng como coautor.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
DeepSeek publica un nuevo artículo firmado por Liang Wenfeng: propone la nueva arquitectura mHC para mejorar la estabilidad del entrenamiento de grandes modelos
PANews 1 de enero: Según Jinshi, DeepSeek ha publicado un nuevo artículo en el que presenta una nueva arquitectura llamada restricción de variedad de hiperconexión (mHC), diseñada para abordar problemas como la inestabilidad en el entrenamiento y la limitación de escalabilidad de la tecnología de redes hiperconectadas (HC) debido a la destrucción de las propiedades de mapeo de identidad. La arquitectura mapea el espacio de conexiones residuales de HC a una variedad específica para restaurar las propiedades de mapeo de identidad, combinando además una optimización rigurosa de infraestructura para garantizar la eficiencia, logrando mejoras de rendimiento notables y una escalabilidad superior. DeepSeek espera que mHC, como una extensión flexible y práctica de HC, ayude a comprender más profundamente el diseño de arquitecturas topológicas y señale direcciones prometedoras para la evolución de los modelos base. Este artículo fue escrito en colaboración por Zhenda Xie (解振达), Yixuan Wei (韦毅轩), Huanqi Cao y también incluye a Liang Wenfeng como coautor.