Gate News消息,4月24日——DeepSeek的V4技术报告显示,V4-Flash和V4-Pro分别在32T和33T tokens上进行了预训练,相当于用于V3的约15T tokens的两倍。该报告承认在训练过程中遇到了“显著的不稳定性挑战”,并且由于Mixture-of-Experts (MoE)层中的异常,loss多次反复出现尖峰;路由机制本身会加剧这些异常,而简单的回滚无法解决该问题。
DeepSeek目前已在实际训练中应用两项解决方案:先行路由(Anticipatory Routing),将路由索引计算与主干网络更新解耦,并且仅在检测到loss尖峰时自动触发 (adding approximately 20% overhead);以及SwiGLU钳制(SwiGLU Clamping),通过将激活值直接钳制到固定范围内来抑制异常。该报告称这两种方法都有效,但也承认“底层原理仍未被充分理解”。
Susan Zhang,谷歌DeepMind研究员,曾在Meta AI和OpenAI工作,她评论称,由于训练数据翻倍触发的不稳定性“解释了延迟”。她将这两项解决方案描述为“补丁”,同时也承认DeepSeek的技术透明度。
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى
إخلاء المسؤولية.
مقالات ذات صلة
بنية Web3 للذكاء الاصطناعي AIW3 ترفع $2M في تمويل بذري بقيادة Buffalo Capital
خبر بوابة، 24 أبريل — أعلنت منصة بنية Web3 للذكاء الاصطناعي AIW3 عن إتمام جولة تمويل بذري بقيمة $2 مليون. قاد الجولة Buffalo Capital، مع مشاركة GalaXin Capital وThree-stones Ventures كمستثمرين مشاركين.
تنتقل AIW3 نحو نموذج تنفيذ على السلسلة Agent-as-a-Service AaaS، مع توفير خدمات استراتيجيات قابلة للاستدعاء، وتنسيق وكلاء مستقلين، وتدفقات رأسمالية أصلية منسقة عبر المحافظ. يهدف المشروع إلى بناء طبقة تنفيذ على السلسلة على مستوى النظام من الجيل التالي.
ذكرَت الشركة أن البنية الأساسية لبروتوكولها قد دخلت رسميًا مرحلة تشغيلية آنية قابلة للتحقق بالكامل، لتضع الأساس لتطوير طويل الأجل لشبكة وكلاء لامركزية قابلة للتوسع وبيئتها.
GateNewsمنذ 16 د
Cohere تستحوذ على شركة الذكاء الاصطناعي الألمانية Aleph Alpha، وتؤمن استثمار $600M للتوسع في أوروبا
بوابة الأخبار، 24 أبريل — أعلنت شركة الذكاء الاصطناعي الكندية Cohere عن خطط للاستحواذ على شركة الذكاء الاصطناعي الألمانية Aleph Alpha لتعزيز وجودها في أوروبا. يخطط Schwarz Group، وهو داعم لـ Aleph Alpha، للاستثمار $600 مليونًا في جولة التمويل من السلسلة E لدى Cohere.
من المتوقع أن تُختتم جولة التمويل في 202
GateNewsمنذ 58 د
Xpeng、小米在北京车展引领车载AI浪潮
快讯消息,4月24日——中国汽车制造商在4月24日举行的北京车展上展示了先进的车载AI系统,随着该国加速推进AI Plus战略,并寻求在对外部半导体的依赖方面获得更大独立性。
Xpeng展示了语音控制泊车功能,允许驾驶员通过“
GateNewsمنذ 1 س
前字节跳动 Seed 工程师:字节跳动 AI 迭代需要六个月,而谷歌是三个月
Gate News 消息,4 月 24 日——字节跳动 Seed 团队的前工程师、现任北京大学助理教授张驰在播客“Into Asia”中透露,字节跳动完成一次完整的大型语言模型训练周期大约需要六个月 (预训练
GateNewsمنذ 1 س
OpenAI 工程师 Clive Chan 挑战 V4 硬件建议,称其相较 V3 存在错误与模糊之处
Gate News 消息,4 月 24 日——OpenAI 工程师 Clive Chan 就 V4 技术报告中的硬件建议章节提出了详细反对意见,称其相较备受赞誉的 V3 版本“出人意料地平庸且容易出错”。V3 的硬件指导包含 Q&A 会议
GateNewsمنذ 2 س
نَافيـر تطلق النسخة التجريبية لميزة AI Tab بعد دخول Google Gemini إلى سوق البحث في كوريا الجنوبية
رسالة أخبار جيت، 24 أبريل — أعلنت شركة نافيـر بدء النسخة التجريبية المغلقة لميزة AI Tab الجديدة، وهي ميزة بحث محادثي، وذلك بعد إطلاق جوجل لـ Gemini في كروم داخل كوريا الجنوبية.
ستظهر AI Tab إلى جانب تبويبات البحث الحالية لدى نافيـر، لتوفير مساحة مخصصة للمستخدمين لاستعلامات محادثية
GateNewsمنذ 2 س