أعد تدريب نموذج كبير باستخدام رمز إيقاف مؤقت ، ويتعلم الذكاء الاصطناعي التفكير مرتين

巴比特_

2023-10-15 04:52:39

المصدر: الكيوبت

يمكن أن يؤدي التفكير أكثر في الخطوات قبل أن يعطي ChatGPT إجابة إلى تحسين الدقة.

فهل يمكنك تخطي المطالبة واستيعاب هذه القدرة مباشرة في النموذج الكبير؟

تضيف الدراسة الجديدة التي أجرتها جامعة سنترال ميشيغان وفريق Google رمزا مؤقتا عند تدريب النماذج الكبيرة لتحقيق ذلك.

في التجربة ، تحسنت درجات 8 تقييمات ، من بينها درجة EM ل SQuAD بنسبة 18٪ ، وزادت CommonSenseQA بنسبة 8٪ ، كما زادت مهمة الاستدلال في GSM8k بنسبة 1٪.

وقال الباحث جاك هاك إنه توصل إلى فرضية مماثلة منذ وقت ليس ببعيد وكان سعيدا باختبارها.

قال مهندس Nvidia آرون إريكسون إن إضافة “uh-huh-ah” عند التحدث إلى البشر؟

تمت إضافة الضبط الدقيق قبل التدريب إلى رمز الإيقاف المؤقت

تعتمد الدراسة بأكملها على فكرة بسيطة:

إلحاق سلسلة (رمز إيقاف مؤقت) بتسلسل الإدخال ، مما يؤخر النموذج من إخراج الرمز المميز التالي.

يمكن أن يمنح هذا النموذج وقتا حسابيا إضافيا لمعالجة المدخلات الأكثر تعقيدا.

لا يقوم المؤلفون بتقديمه فقط عندما يتم ضبط المهمة النهائية ، ولكن أيضا إدخاله بشكل عشوائي في التسلسل أثناء التدريب المسبق ، مما يسمح للنموذج بتعلم كيفية الاستفادة من هذا التأخير الحسابي في كلتا المرحلتين.

في مرحلة ما قبل التدريب ، يتم إدخال نسبة معينة من الرموز المميزة للإيقاف المؤقت بشكل عشوائي في الجسم في تسلسل الإدخال للتدريب المسبق للتراجع الذاتي القياسي. ومع ذلك ، يتم تخطي التنبؤ بالرمز المميز المعلق عند حساب الخسارة.

عندما يتم ضبط مهمة المصب ، يتم إلحاق عدد معين من الرموز المميزة للإيقاف المؤقت بالإدخال ، ثم يتم إجراء التنبؤ بالانحدار الذاتي على التسلسل الهدف ، مع ضبط معلمات النموذج.

تقوم مرحلة الاستدلال أيضا بإلحاق نفس العدد من الرموز المميزة للإيقاف المؤقت ، ولكنها تتجاهل إخراج النموذج حتى آخر رمز مميز للإيقاف المؤقت ، ثم تبدأ في استخراج الإجابة.

تستخدم التجربة نموذج وحدة فك التشفير النقي Transformer القياسي ، والذي ينقسم إلى نسختين: ** معلمة 130M ومعلمة 1B **.

يضيف رمز الإيقاف المؤقت 1024 معلمة فقط ، وهو حجم التضمين الخاص به.

أظهرت التجارب على 9 مهام مختلفة أن تأثير إدخال رموز الإيقاف المؤقت فقط خلال مرحلة الضبط الدقيق لم يكن واضحا ، ولم تتحسن بعض المهام.

ولكن إذا كنت تستخدم رموز الإيقاف المؤقت في كل من مرحلتي ما قبل التدريب والضبط الدقيق ، فستحصل على تحسن كبير في معظم المهام.

تستكشف الورقة أيضا المعلمات الفائقة الرئيسية مثل عدد وموقع الرموز المعلقة. وقد وجد أن هناك عادة كمية مثالية لنماذج مختلفة.

أخيرا ، يشير المؤلفون أيضا إلى أن هذا العمل له أيضا عدد من القيود.

نظرا لأن رمز التعليق يزيد من مقدار حساب النموذج ، فإن ما إذا كان من العدل المقارنة مع الطرق الأخرى لا يزال يتعين مناقشته
تحتاج الطريقة الجديدة إلى إعادة تدريب مسبق ، ولا يزال من الصعب تطبيقها عمليا
لا يزال هناك نقص في الفهم المتعمق لآليات العمل المحددة
إذا كان عدد الرموز المميزة للإيقاف المؤقت هو 0 أثناء الاستدلال ، فلا يزال أداء النموذج ضعيفا

قال الرئيس التنفيذي لمحرك البحث You.com إن الخطوة التالية هي تجربة جميع التقنيات لتحسين الأداء المعرفي البشري على النماذج الكبيرة؟

الآن هناك “فكر خطوة بخطوة” و “خذ نفسا عميقا”.

ربما تكون الورقة البحثية الرائجة التالية هي تعليم النماذج الكبيرة النوم مع المشاكل ، أو تناول الطعام وممارسة الرياضة بشكل صحي للغاية.

عنوان الورقة:

الروابط المرجعية:
[1]

شاهد النسخة الأصلية

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

تعليق

0/400

لا توجد تعليقات

أعد تدريب نموذج كبير باستخدام رمز إيقاف مؤقت ، ويتعلم الذكاء الاصطناعي التفكير مرتين

** تمت إضافة الضبط الدقيق قبل التدريب إلى رمز الإيقاف المؤقت **

تمت إضافة الضبط الدقيق قبل التدريب إلى رمز الإيقاف المؤقت