Message de Gate News, 24 avril — Le rapport technique V4 de DeepSeek révèle que V4-Flash et V4-Pro ont été préentraînés respectivement sur 32T et 33T jetons, soit le double des quelque 15T jetons utilisés pour V3. Le rapport reconnaît avoir rencontré des “défis d’instabilité significatifs” pendant l’entraînement, avec des pics de perte survenant à répétition en raison d’anomalies dans la couche (Mixture-of-Experts )MoE( ; le mécanisme de routage lui-même exacerbe ces anomalies, et un simple rollback ne peut pas résoudre le problème.
DeepSeek a mis en œuvre deux solutions désormais appliquées à l’entraînement réel : le routage anticipatif, qui découple le calcul de l’index de routage des mises à jour du réseau backbone et déclenche automatiquement uniquement lorsque des pics de perte sont détectés )ajoutant environ 20 % de surcharge, et le bridage SwiGLU, qui supprime directement les anomalies en limitant les valeurs d’activation à une plage fixe. Le rapport indique que les deux approches sont efficaces, mais admet que “les principes sous-jacents restent insuffisamment compris.”
Susan Zhang, une chercheuse de Google DeepMind qui a auparavant travaillé chez Meta AI et OpenAI, a commenté que l’instabilité déclenchée par le doublement des données d’entraînement “explique le retard.” Elle a décrit les deux solutions comme des “pansements” tout en reconnaissant la transparence technique de DeepSeek.
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'
avertissement.
Articles similaires
Infrastructure Web3 pour l’IA : AIW3 lève $2M en financement de démarrage, menée par Buffalo Capital
Message de Gate News, 24 avril — La plateforme d’infrastructure Web3 pour l’IA, AIW3, a annoncé l’achèvement d’un tour de financement de démarrage de $2 millions. Le tour a été mené par Buffalo Capital, avec GalaXin Capital et Three-stones Ventures participant en tant qu’investisseurs co-investisseurs.
AIW3 passe vers un paradigme d’exécution on-chain Agent-as-a-Service
GateNewsIl y a 17m
Cohere acquiert la société allemande d’IA Aleph Alpha et obtient $600M investissement pour son expansion en Europe
Message de Gate News, 24 avril — La société canadienne d’intelligence artificielle Cohere a annoncé son projet d’acquérir la société allemande d’IA Aleph Alpha afin de renforcer sa présence en Europe. Le groupe Schwarz, qui soutient Aleph Alpha, prévoit d’investir $600 million dans le tour de financement Série E de Cohere.
Le tour de financement devrait se clôturer en 202
GateNewsIl y a 58m
Xpeng et Xiaomi mènent la poussée d’IA embarquée au Salon de l’automobile de Pékin
Message de Gate News, 24 avril — Les constructeurs automobiles chinois ont présenté, au Salon de l’automobile de Pékin le 24 avril, des systèmes d’IA embarquée avancés, alors que le pays accélère sa stratégie AI Plus et cherche à accroître son indépendance vis-à-vis des semi-conducteurs étrangers.
Xpeng a démontré un stationnement contrôlé par la voix qui permet aux conducteurs de «
GateNewsIl y a 1h
Ancien ingénieur de Seed chez ByteDance : l’itération d’IA de ByteDance prend six mois contre trois mois chez Google
Message de Gate News, 24 avril — Zhang Chi, ancien ingénieur de l’équipe Seed de ByteDance et actuellement professeur assistant à l’Université de Pékin, a révélé dans le podcast "Into Asia" que ByteDance nécessite environ six mois pour achever un cycle complet d’entraînement de pré-entraînement d’un grand modèle de langage (, plus post-training, tandis que Google n’aurait besoin que de trois mois
GateNewsIl y a 1h
L’ingénieur d’OpenAI Clive Chan conteste les recommandations matérielles de la V4, citant des erreurs et un manque de clarté par rapport à la V3
Message de Gate News, 24 avril — L’ingénieur d’OpenAI Clive Chan a formulé des objections détaillées au chapitre de recommandations matérielles du rapport technique V4, le qualifiant de « remarquablement médiocre et sujet aux erreurs » par rapport à la version V3 acclamée. Les recommandations matérielles de la V3, qui comprenaient des sessions de Q&A
GateNewsIl y a 2h
Naver lance la bêta d’AI Tab alors que Google Gemini entre sur le marché de la recherche en Corée du Sud
Message de Gate News, 24 avril — Naver a annoncé le lancement d’une bêta fermée pour AI Tab, sa nouvelle fonctionnalité de recherche conversationnelle, après le lancement par Google de Gemini dans Chrome en Corée du Sud.
AI Tab apparaîtra aux côtés des onglets de recherche existants de Naver, offrant aux utilisateurs un espace dédié aux requêtes conversationnelles
GateNewsIl y a 2h