أبحاث Mind Lab LoRA: زيادة المعلمات بنسبة 0.12% تعزّز ذاكرة الذكاء الاصطناعي بمقدار 1.31 مرة

Mind Lab AI研究

ذكرَ موقع «جهاز العقل» في 2 يونيو أن شركة Mindverse التابعة لـ Mindverse التابعة لـ Mind Lab واصلت مؤخرًا نشر نتائج بحثية متتالية حول الضبط الدقيق عالي الكفاءة لكل من LoRA وPEFT. تتمثل القيمة الرئيسية لمؤشر δ-mem في تحقيق تحسينات في الأداء بلغت 1.31 مرة و1.20 مرة في اختبار Memory Agent Bench والمعايير الثقيلة للذاكرة في LoCoMo، وذلك بزيادة في المعلمات منخفضة تصل إلى 0.12%.

δ-mem: تأكيد آليات تقنية معتمدة وأرقام اختبارات مرجعية

δ-mem هي بنية انتباه خطية هجين متوازٍ مصممة خصيصًا لخصائص LoRA. في Transformer التقليدي، تُعد ذاكرة KV cache تجميدًا في الاستدلال ولا تمتلك القدرة على التحديث؛ حيث يُدخل δ-mem «حالة الذاكرة الترابطية على الإنترنت» (Online State of Associative Memory)، ليحافظ على مصفوفة بحجم 8×8، ويواصل تحديثها أثناء إدخال الرموز باستخدام قواعد تدريُب بالتزايد (delta-rule learning). وعند التوليد، يطبق δ-mem تصحيحات منخفضة الرتبة (low-rank corrections) على Attention Query وOutput لشبكة العمود الفقري.

استنادًا إلى الأرقام الرسمية من Mind Lab:

زيادة المعلمات: منخفضة تصل إلى 0.12%

تحسين Memory Agent Bench: 1.31 مرة

تحسين LoCoMo: 1.20 مرة

حتى عند إزالة السياق التاريخي الصريح: لا يزال باستطاعة النموذج استعادة قدر كبير من المعلومات ذات الصلة

MinT: مؤشرات أداء مؤكدة للبنية الأساسية لتدريب ملايين LoRA وتشغيلها

MinT هو نظام بنية تحتية مُدار مصمم خصيصًا لتدريب LoRA والخدمة عبر الإنترنت. تتمثل الفكرة الأساسية في أن النموذج الأساسي يظل مقيمًا لفترة طويلة داخل خدمة التدريب وخدمة الاستدلال؛ وبعد اكتمال كل دورة تدريب، يتم تصدير محول LoRA Adapter خفيف (يمكن أن ينخفض إلى نحو 0.1% من النموذج الأساسي في إعداد Rank-1)، وبهذا لا يتطلب نشر استراتيجية جديدة دمج النموذج الكامل أو إعادة تحميله.

استنادًا إلى الأرقام الرسمية من Mind Lab:

تقليص زمن التسليم من اكتمال التدريب إلى توفره في خدمة الاستدلال: حتى 18.3 مرة

تحسين سرعة التحميل الفوري للمحرك (عبر تجميع Tensor لمصفوفات MoE LoRA): من 8.5 إلى 8.7 مرة

في آلية rollout على مرحلتين: يتم خفض تحميل LoRA المرئي للمستخدم بحيث يصبح p95 عند 0

اختصار TTFT p95 للطلب الأول: بمقدار 2.3 مرة

تطرح ورقة «On the Scaling of PEFT» الخاصة بقانون توسع LoRA ثلاث محاور توسع رئيسية: Scale up (تصحيح مشكلة فشل آلية إعادة تشغيل المسارات في Sparse MoE بحجم 1T)، وScale down (تهيئة OLoRA-tail، باستخدام المتجهات الذاتية الثانوية لتحسين ثبات Rank-1 دون زيادة المعلمات)، وScale out (LoRA كفكرة «ذاكرة»، حيث يظهر قانون نمو لوغاريتمي في الدقة مع عدد النماذج k ضمن تصويت متعدد النماذج).

Macaron-A2UI: نتائج اختبار مرجعية مؤكدة

تستند Macaron-A2UI إلى منصة MinT، وتستخدم بالتتابع قاعدة نماذج لغوية كبيرة بحجوم 30B و235B و754B، مع تدريب مُعزز باستخدام SFT مبني على LoRA وGRPO. لا يقتصر أداء النموذج على إخراج النص، بل يولد أفعالًا قابلة للتنفيذ من نوع A2UI بشكل بنيوي (مربعات اختيار متعددة، شرائح/منزلقات، بطاقات تأكيد، وغيرها).

استنادًا إلى الأرقام الرسمية من Mind Lab: حققت Macaron-A2UI-Venti 75.6 نقطة على A2UI-Bench، وفي حال استخدام مخططات Schema خفيفة الوزن فقط كإرشادات، تتجاوز أفضل نماذج خط الأساس الرائدة من ناحية الأداء في سيناريو استخدام مُدخلات كاملة وعبارة Schema طويلة (بطول يقارب 27 مرة).

الأسئلة الشائعة

كيف حقق δ-mem زيادة في المعلمات بنسبة 0.12% مع تكلفة بهذا الانخفاض في تحسين أداء الذاكرة؟

يدخل δ-mem مصفوفة حالة ذاكرة ترابطية على الإنترنت بحجم 8×8 (بدل KV cache التقليدي الثابت)، ويواصل تحديثها باستخدام قواعد التزايد، ثم يطبق تصحيحًا منخفض الرتبة على Transformer الرئيسي أثناء التوليد. يتيح هذا التصميم للنموذج استعادة معلومات ذات صلة دون الاعتماد على سياق تاريخي صريح، وبزيادة معلمات تبلغ 0.12% فقط يمكنه تحقيق تحسين ذاكرة بنسبة 1.31 مرة.

كيف يدير MinT ملايين LoRA دون إعادة تحميل النموذج الكامل؟

يبقى MinT النموذج الأساسي مقيمًا لفترة طويلة داخل خدمات التدريب والاستدلال، وضمن كل تحديث يتحرك فقط ويُحمّل محولات LoRA Adapter خفيفة. عادةً ما تكون أحجام هذه المحولات أقل من 1% من حجم النموذج الأساسي. يعالج تجميع Tensor لمصفوفات MoE LoRA اختناقات القراءة/الكتابة لعدد كبير من الكائنات الصغيرة. كما تضمن آلية rollout على مرحلتين أن LoRA لا تصبح مرئية لحركة مرور المستخدم إلا بعد إتمام التسخين الأولي ضمن ضوابط القبول (admission control)، ما يخفض تأخير التحميل p95 إلى 0.

ما الفرق الجوهري بين Macaron-A2UI والمساعدات القائمة على النصوص AI التقليدية؟

إضافةً إلى إخراج النص، يستطيع Macaron-A2UI توليد أفعال قابلة للتنفيذ من نوع A2UI بشكل بنيوي ضمن تفاعل فوري (مثل مربعات الاختيار المتعددة، الشرائح/المنزلقات، بطاقات التأكيد وغيرها). ويهدف ذلك إلى تقليل العبء المعرفي للمهام المعقدة، والاستمرار في التعلم وفقًا للعادات والشخصنة الخاصة بالمستخدم.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات