تخفض Xiaomi تكاليف واجهة MiMo API بنسبة 80% عبر ذاكرة تخزين مؤقت هرمية، بما يعادل نموذج GQA من 10 طبقات

وفقًا لـ Beating، كشفت Xiaomi عن تقنيات تحسين أساسية لواجهة MiMo-V2.5 API بعد خفضات سعرية حديثة جاءت بالتزامن مع DeepSeek. يحافظ محرك الاستدلال عالي التحميل لدى الشركة على الربحية عبر بنية انتباه هجينة وتحسين ذاكرة KV الهرمية.

حقق إطار الاستدلال لدى Xiaomi خفضًا بنسبة 80% في تكاليف ذاكرة التخزين المؤقت من خلال تطبيق تحسين هرمي لانتباه نافذة التمرير (SWA)، بما أدى إلى زيادة سعة الرموز بمقدار 5 أضعاف. ينفّذ نموذج MiMo-V2.5-Pro المكوّن من 70 طبقة، باستخدام نسبة تفرّق 1:7 بين طبقات الانتباه العام (GA) وSWA، حسابات التمهيد (prefill) تعادل ما يعادل نموذج GQA عالمي تقليدي من 10 طبقات، ما يخفض تكاليف الاستدلال بشكل كبير.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات