Tilde Research พบว่า Muon Optimizer ทำให้เซลล์ประสาทตาย 25%; Aurora Alternative ให้ประสิทธิภาพการใช้ข้อมูลเพิ่มขึ้น 100 เท่า

ตามรายงานของ Tilde Research ตัวเพิ่มประสิทธิภาพ (optimizer) Muon ที่นำมาใช้โดยโมเดล AI ชั้นนำ รวมถึง DeepSeek V4 และ Kimi K2.5 มีข้อบกพร่องแอบแฝง: ทำให้เซลล์ประสาท (neurons) ในเลเยอร์ MLP มากกว่า 25% ตายถาวรในช่วงการฝึกระยะเริ่มต้น ทีมได้ออกแบบ Aurora ซึ่งเป็น optimizer ทางเลือก และเผยแพร่เป็นโอเพนซอร์ส โมเดลพารามิเตอร์ 1.1B ที่ฝึกด้วยเพียง 100B tokens ให้ผลเทียบเท่ากับ Qwen3-1.7B ที่ฝึกบน 36T tokens ในเกณฑ์ทดสอบความเข้าใจภาษาอย่าง HellaSwag และ Winogrande แสดงให้เห็นการปรับปรุงประสิทธิภาพด้านข้อมูลราว 100 เท่า Aurora เพิ่มภาระการคำนวณ 6% เมื่อเทียบกับ Muon และสามารถใช้ทดแทนโดยตรงได้
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น